mini-redis SCAN指令复刻：自底向上的工程方法论实践

# 写在文章开头

有了AI之后，笔者一直在反思这段时间敏捷交付所带来的低收益问题。也正是因为这一点，笔者有幸在网上看到Google技术总监addyosmani的一篇文章《Don't Outsource the Learning》，该文章非常精准地点出了当下的一个问题——认知投降:

addyosmani在这篇文章中一直强调，随着ai能力的不断发展，我们只需明确贴出问题，模型即可快速定位并完成问题交付，由此人与问题斗争的过程随之消失。有研究表明，对于深度依赖LLM完成的工作内容，大脑中与这些最终交付内容相关的神经连接性急剧降低，开发者对于既有问题的理解为零。这使得每一次交付，都可能成为将来认知上的债务，且对于个人并没有任何提升：

所以，addyosmani提出AI时代下，工程师对于AI工具使用的一些实践上的建议：

善用claude code learning模式协作，让其引导我们完成既有问题的学习和思考，并写好模板代码，将核心且有价值部分让我们主动完成
面对问题作出假设，用AI辅助验证自己的猜想，而非取代你的思考
对于不熟悉的领域，让AI先进行解释和说明，明确概念之后，再让其进行编码和学习了解
AI完成问题的交付后，询问其思路，用到哪些概念，学习优秀的设计理念，并加以学习沉淀

The trouble is that friction was where the learning lived，只有经过与问题的斗争和深度思考，才能完成系统工程知识的储备和沉淀，确保面对LLM幻觉时依然有足够的专业知识去识别这些错误：

所以，笔者就有了每周一次深度编码的想法，这篇文章不会去深究scan指令实现的细节，笔者将着重说明笔者如何结合AI主动思考并拆解和分析问题，并完成核心算法的学习和复刻。

只有动手尝试编程，才能更加细致的感知每个架构的设计和算法的每一个细节，从而确保在快节奏的AI编程下，依然可以快速准确完成决策，构建出稳健的软件系统。

因为本文着重编程任务的方法实践，所以不会深入讲解redis scan指令的实现细节，可参考笔者这篇文章的解析:https://mp.weixin.qq.com/s/5ybr9ab23r9ID530d2SUdA (opens new window)

SharkChili · 禅与计算机程序设计的艺术

开源贡献

mini-redis：教学级 Redis 精简实现 · https://github.com/shark-ctrl/mini-redis

关注公众号，回复 【加群】 加入技术社群

# 梳理与落地步骤详解

# 理清思路

对于此复杂逻辑的长任务，涉及既有逻辑梳理、全新架构复刻的任务，首要做的就是理清既有的代码逻辑，整理出实际的核心主干部分，构建出完整的业务链路图，再基于每个子步骤进行详细的梳理，理解其每个步骤的意图，从而获得一份有效的设计稿：

以笔者本次的scan指令复刻为例，按照上述的梳理笔者大体得出该指令的核心逻辑：

校验参数合法性，例如count后面跟随的是否是整数，match后面的glob表达式是什么
如果存在match和count则获取参数值
基于上述参数到redis db内存中扫描获取匹配元素
输出返回

# 拆解并自底向上实现

无论是传统编程调试还是AI辅助梳理，上一步结束后，我们已经具备对于核心方法和每一个细节的理解和掌握，为了确保落地的有序执行，在编码前，笔者会尝试按照自底向上的方式逐步完成编码从而构建出完整的功能。

我们基于上述步骤完成宏观拆分结构之后，为保证能够独立完整的实现，以做到学习redis优秀理念的目的，就需要做到针对每个步骤实现步骤拆解，按照笔者的习惯是自底向上的完成层层逻辑封装，例如：函数function_1部分逻辑依赖于function_2，而function_2又依赖于function_3，所以我们的实现步骤就是：

完成function_3的逻辑封装
完成function_2的逻辑封装
基于完整的function_2完成核心的function_1函数封装

我们以dictScan这个扫描redis db的函数为例，其底层涉及一个将db元素写入链表的回调函数dictScanFunction的抽象和反向迭代算法rev，所以我们的实现步骤则是：

完成函数回调的type定义
编写回调函数scanCallback
完成二进制翻转算法rev编写
完成dictScan函数的编写

# 函数式回调设计与实现

明确的逻辑复刻的基调之后，我们就开始逐步完成复刻，首先是处理字典的回调函数定义，我们在dict.go中完成如下type声明：


/*
*
字典元素回调处理函数结构定义:
1. privData 数组:索引0为存放元素的链表,索引1 额外的redis obj对象
2. de :当前要处理的键值对
*/
type dictScanFunction func(privData [2]any, de *dictEntry)

1
2
3
4
5
6
7
8
9

明确回调函数定义之后，我们可以完成本次要用到的scanCallback函数的实现，逻辑比较简单：

获取privData中的链表和robj
根据robj是否为空，判断是否是普通的redis db scan，以本次复刻为例，robj肯定为空
调用dictGetKey获取传入的键值对的key值
将key值写入到链表中

这里笔者补充说明一点，为了保证链表的通用性，笔者将链表相关操作都通过接口抽象的方式处理，这也是为什么笔者取出redis key之后还要用接口封装一下再写入链表的原因所在：

func scanCallback(privData [2]any, de *dictEntry) {
	//获取数组0的链表
	keys := privData[0].(*list)
	//获取数组1的robj
	o := privData[1].(*robj)
	
	var key, value interface{}
	//如果robj为空,说明当前是普通scan函数的调用,直接从dictEntry中获取key
	if o == nil {
		sdsKey := dictGetKey(de)
		key = interface{}(sdsKey)
	}
	//将key添加到数组0的链表
	listAddNodeTail(keys, &key)

	if value != nil {
		listAddNodeTail(keys, &value)
	}

}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

# 二进制翻转函数的实现

翻转二进制则是http://graphics.stanford.edu/~seander/bithacks.html#ReverseParallel中的优秀实践，利用分治位运算在 O(log N) 步内完成全位翻转，为redis后续的高位递增算法做好性能保障：

对应源代码如下，对该算法感兴趣的读者可以移步笔者这篇文章的关于本章节的二进制算法的解析： https://mp.weixin.qq.com/s/Eb7RqFOi25G8l9cdUYcM7A (opens new window)

# 字典扫描逻辑实现

通过上述两个底层原子函数的铺垫之后，我们已经具备实现字典扫描所需的全部原子能力，下面给出 dictScan 的完整实现：


/**
 * 扫描字典元素并存入字典
 * @param d 字典
 * @param v 扫描起始位置
 * @param fn 回调函数 本次传入的是scanCallback
 * @param privData 回调函数的参数,我们只需要知道数组0为链表即可
 */
func dictScan(d *dict,
	v int64,
	fn dictScanFunction,
	privData [2]any) int64 {

	var t0, t1 *dictht
	var de *dictEntry
	var m0, m1 int64
	//若字典为空直接返回
	if dictSize(d) == 0 {
		return 0
	}
	//非渐进式哈希,直接扫描数组0
	if !dictIsRehashing(d) {
		t0 = &(d.ht[0])
		m0 = int64(t0.sizemask)
		//定位具体bucket
		de = (*t0.table)[v&m0]
		//若bucket非空,通过回调函数fn将元素值存入链表中
		for de != nil {
			fn(privData, de)
			de = de.next
		}
		/**
		完成反向递增,例如 数组为4 对应mask则是低2位, 该算法就是不断通过低2位向右+1, 对应0000 的迭代则是:
		0000 0010 0001 0011 =>0 2 1 3
		*/
		v |= ^m0
		v = int64(rev(uint64(v)))
		v++
		v = int64(rev(uint64(v)))
	} else {
		//渐进式哈希场景:ht[0] 与 ht[1] 同时存在,需要把两张表都扫到
		t0 = &(d.ht[0])
		t1 = &(d.ht[1])

		//算法前置条件:t0 必须是小表、t1 必须是大表,保证 for 循环里的反向二进制递增能覆盖大表所有相关 bucket,避免漏扫
		if t0.size > t1.size {
			t0 = &(d.ht[1])
			t1 = &(d.ht[0])
		}

		m0 = int64(t0.sizemask)
		m1 = int64(t1.sizemask)

		//小表只扫 v 对应的那 1 个 bucket
		de = (*t0.table)[v&m0]
		for de != nil {
			fn(privData, de)
			de = de.next
		}

		//大表扫描所有"低位与 v&m0 一致"的若干 bucket
		for {
			de = (*t1.table)[v&m1]
			for de != nil {
				fn(privData, de)
				de = de.next
			}

			//在大表 mask 空间里做一次反向二进制 +1
			v |= ^m1
			v = int64(rev(uint64(v)))
			v++
			v = int64(rev(uint64(v)))

			//差异位 m0^m1 全部归 0 时,v 已推进到下一个小表 bucket,可退出
			if v&(m0^m1) == 0 {
				break
			}
		}
	}

	return v
}

# scan函数封装

最后，所有的原子能力都完成，直接将scan进行封装，即完成：

参数解析
元素扫荡
匹配过滤
按照协议规范输出

func scanGenericCommand(c *redisClient, o *robj, cursor *int64) {
	var i, j int
	keys := listCreate()
	var node, nextNode *listNode

	var count int64
	count = 10

	var pat string
	var usePattern bool

	var ht *dict

	if o == nil {
		i = 2
	} else {
		i = 3
	}

	for i < int(c.argc) {

		j = int(c.argc) - i

		if strings.EqualFold((*c.argv[i].ptr).(string), "count") && j >= 2 {

			if getLongFromObjectOrReply(c, c.argv[i+1], &count, nil) == false {
				goto cleanup
			}
			if count < 1 {
				addReply(c, shared.syntaxerr)
				goto cleanup
			}
			i += 2
		} else if strings.EqualFold((*c.argv[i].ptr).(string), "match") && j >= 2 {
			pat = (*c.argv[i+1].ptr).(string)
			// 单一 "*" 等价于不过滤,跳过逐元素匹配开销
			usePattern = !(len(pat) == 1 && pat[0] == '*')
			i += 2
		} else {
			addReply(c, shared.syntaxerr)
			goto cleanup
		}

	}

	if o == nil {
		ht = &c.db.dict
	}

	if ht != nil {

		var privateData [2]any
		privateData[0] = keys
		privateData[1] = o

		var maxiterations int64
		maxiterations = count * 10

		for {
			//扫荡元素写入链表
			*cursor = dictScan(ht, *cursor, scanCallback, privateData)
			//迭代次数更新
			maxiterations--

			if *cursor == 0 || maxiterations <= 0 || listLength(keys) >= count {
				break
			}

		}
		//遍历链表元素
		node = listFirst(keys)
		for node != nil {
			nextNode = listNextNode(node)
			kobj := (*node.value).(*robj)

			filter := false
			//若存在匹配模式,且元素与匹配模式不匹配,则过滤该元素,将filter设置为true
			if usePattern && !stringmatch(pat, (*kobj.ptr).(string), false) {
				filter = true
			}
			//若元素过期,也过滤
			if !filter && expireIfNeeded(c.db, kobj) == 1 {
				filter = true
			}
			//从链表删除待过滤的元素
			if filter {
				listDelNode(keys, node)
			}

			node = nextNode

		}

	}
	//按照RESP协议输出长度为2,数组0记录游标,数组1记录元素个数
	addReplyMultiBulkLen(c, 2)
	//输出下一次的游标
	addReplyLongLong(c, *cursor)
	//数组1输出数组长度+元素
	addReplyMultiBulkLen(c, listLength(keys))

	//遍历结果集链表并输出
	for {
		if node = listFirst(keys); node == nil {
			break
		}
		//获取链表值并输出
		kobj := (*node.value).(*robj)
		addReplyBulk(c, kobj)
		//删除该链表
		listDelNode(keys, node)
	}

cleanup:
	keys = nil

}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117