论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-07-03 09:48 |只看该作者 |倒序浏览

有这样一个问题，有一个很大的字符串文件，内容是N个字符串，N很大，假设>10W，
现在给一个字符串，从这个文件里找最相似的10个出来。

我本来想用edit distance，但是这样太慢，要对N个字符串中的每一个做一次edit distance，太慢，请教各位，有没有什么好的算法？
谢谢！～

文库|博客

cfqtree

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2006-07-03 10:11 |只看该作者

怎样才算相似?
譬如:给的字符是 abcd,那么是abc相似多一点,还是abcde相似多一点.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxp19831104

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2006-07-03 10:14 |只看该作者

算一样相似的吧，这个相似应该是说不一样的字的数目，这2个不一样的字都只有1个，所以，算一样相似的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cfqtree

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2006-07-03 10:23 |只看该作者

原帖由 wxp19831104 于 7/3/06 10:14 发表
算一样相似的吧，这个相似应该是说不一样的字的数目，这2个不一样的字都只有1个，所以，算一样相似的。

那abcde与edcba是一样的罗!
这样的话我也不知道有什么好的算法,等待高手解决,呵呵!
本来我还以为这种思想类似于优先队列式分支限界法呢.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxp19831104

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2006-07-03 10:45 |只看该作者

这种情况我还没考虑，这是我的一个面试题。
那我觉得相似应该就是和求edit distance的概念一样，就是看插入或者改变几个字能使得2个串一样，这样，abcde和edcba还是不一样的，而且差别很大。
说说你的优先队列式分支限界法。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kuaizaifeng

家境小康

论坛徽章:: 0

6楼 [报告]

发表于 2006-07-03 10:59 |只看该作者

学习学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cfqtree

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2006-07-03 11:12 |只看该作者

若给定字符串的第一个字符是'a'的话那么第一个结点的左子树就是所有第一个字符是'a'的字符串
其余的都是右子树,以此类推,以优先级遍历,如果发现字符串数组中有字符串优先级小于该结点上的字符串,则选取一个取代它.
如字符串的长度为N
当n<=N
某结点左子树的优先级=该结点的优先级+1
右子树优先级不变
当n>N时
n层的优先级-1 依次类推.