关于编辑距离的应用方案--单词或专属名词拼写检查算法
文章目录
最近在做楼盘搜索的时候遇到一个问题,用户在查询楼盘的时候回出现楼盘名称输入有误的情况,一般会出现一个或多个错字,其中同义词可以根据词典和拼音的方式进行处理,但是如果用户输入的字不是同音字用拼音的方式就无能为力了,这就和一个场景类似:给一个单词和一个字典,找出字典中所有和给定单词编辑距离不大于 k 的词。
一个常见的思路是遍历一遍,求单词和字典中每一项的编辑距离。我们知道编辑距离是二维 DP,时间复杂度为 $O(L^2)$,其中 L 为每个单词平均长度,则总时间复杂度为$O(NL^2)$, N 为字典中词的个数。
这个方法的问题在于,一旦查询单词变多,性能会很糟糕。基于[黄振大神的算法实现] (http://norvig.com/spell-correct.html) ,可以通过构造 Trie, 结合 DFS,来解决这个问题。
解决思路
- 1.根据字典中的单词构造前缀树,标记每个单词结束时的结束为 None。
- 2.设计函数 API 为check_fuzzy(trie, word, path, tol)。trie是在树中当前走到的节点,word 表示走到当前节点剩余需要处理的查询单词,path表示走到当前节点已经记录的字典单词前缀,tol 表示剩余可容忍的编辑距离。然后定义一个set,不断找到可能的单词并入这个set,直到结束。
匹配当前字符,有两种情况:匹配,那么直接递归下一层;不匹配,可能是字母不一致或者是 word 已经结束(这个情况很容易被忽略),需要 tol 减一后递归下一层。 增加任意字母(字典单词比查询单词多字母)。这里和知乎回答里的不一样,那里是枚举了26个字母,其实只要枚举当前 tree 的所有节点字母就行了(Jayxon 大牛想到的)。 删除字符。word 向后移一个字母,tol 减一
第一步. 构造Trie(用dict登记结点信息和维持子结点集合):
对词典中的每个单词,逐词逐字母拓展Trie,单词完结处的结点用None标识。
|
|
第二步. 容错查找(容错数为tol):
实质上是对Trie的深度优先搜索,每一步加深时就消耗目标词的一个字母。当搜索到达某个结点时,分为不消耗容错数和消耗容错数的情形,继续搜索直到目标词为空。搜索过程中,用path记录搜索路径,该路径即为一个词典中存在的词,作为纠错的参考;最终结果即为诸多搜索停止位置的结点路径的并集。
|
|
测试
|
|
代码整体处理速度还是比较快的,在词典中词的数量是40万+的时候,处理速度是40毫秒左右,当然这种算法还有提升空间,有兴趣的朋友们可以自己尝试优化。 另外这种方法不但可以实现错别字检查,还可以实现相近词扩展的功能,这样在楼盘搜索上就可以尽可能的为用户找到目标楼盘。
更多信息参见
文章作者 glin
上次更新 2020-09-08 01:37