免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: weichuang02
打印 上一主题 下一主题

[算法] 为什么搜索引擎用这个Trie树存储词组而不是Hash容器? [复制链接]

论坛徽章:
0
11 [报告]
发表于 2012-09-06 12:42 |只看该作者
搜索引擎在什么地方会用trie树存储词组?搜索框推荐?词表里面存储的显然应该是词的id啊

论坛徽章:
0
12 [报告]
发表于 2012-09-07 09:40 |只看该作者
Hash只有理论上是O(1). 字符串做key, 至少要把它遍历一遍吧, 还有计算key的时间, 冲突检测的时间, 怎么也不可能是常数.
不关心存储空间或者key的字符集有限的时候, trie肯定是最好的. 如果构造tree之前就知道key的集合, 用双索引的trie, 存储空间也省下了.

论坛徽章:
0
13 [报告]
发表于 2012-09-07 10:02 |只看该作者
O(1)是指平均查找长度为常数,和数据的规模无关。
有序表或树的折半查找算法平均查找长度为log2N,即查找算法的时间复杂度为O(N*log2N)。

任何查找算法都是要比较的!否则不能确定是否找到了。
Tire不懂,但Hash表是不错的查找表,而且构造和查找的思路一致,好实现!

论坛徽章:
0
14 [报告]
发表于 2012-09-07 10:42 |只看该作者
回复 13# fenghw8088


   
而Tire树相对于Hash表虽然查找效率低,但:


?
trie的复杂度是O(m),就只是单词长度而已。

论坛徽章:
0
15 [报告]
发表于 2012-09-12 15:59 来自手机 |只看该作者
学习了,学习了理论就是要用

论坛徽章:
0
16 [报告]
发表于 2012-09-12 16:09 来自手机 |只看该作者
每个的优点弱点都列出来了。

论坛徽章:
0
17 [报告]
发表于 2012-09-13 09:30 |只看该作者
1 、省内存,特别是建立大量索引的时候很有用
2、利于内存和硬盘存储索引结合。
3、至于查找,搜索,在建立索引后一般还会有一遍处理。

ps 不过我用hash。。。。。哈

论坛徽章:
0
18 [报告]
发表于 2012-09-13 14:22 |只看该作者
Trie树的查找时间复杂度是O(1)

论坛徽章:
0
19 [报告]
发表于 2012-09-13 17:37 |只看该作者
edshea 发表于 2012-09-13 14:22
Trie树的查找时间复杂度是O(1)


不对,是O(m),m是查找串的长度。

http://en.wikipedia.org/wiki/Trie

说的很详细了。跟hash也对比了

论坛徽章:
44
15-16赛季CBA联赛之浙江
日期:2021-10-11 02:03:59程序设计版块每日发帖之星
日期:2016-07-02 06:20:0015-16赛季CBA联赛之新疆
日期:2016-04-25 10:55:452016科比退役纪念章
日期:2016-04-23 00:51:2315-16赛季CBA联赛之山东
日期:2016-04-17 12:00:2815-16赛季CBA联赛之福建
日期:2016-04-12 15:21:2915-16赛季CBA联赛之辽宁
日期:2016-03-24 21:38:2715-16赛季CBA联赛之福建
日期:2016-03-18 12:13:4015-16赛季CBA联赛之佛山
日期:2016-02-05 00:55:2015-16赛季CBA联赛之佛山
日期:2016-02-04 21:11:3615-16赛季CBA联赛之天津
日期:2016-11-02 00:33:1215-16赛季CBA联赛之浙江
日期:2017-01-13 01:31:49
20 [报告]
发表于 2012-09-13 21:20 |只看该作者
用trie可以支持“chinaun*”这样的查询
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP