免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2470 | 回复: 7
打印 上一主题 下一主题

问一个字符串hash函数的问题,有技术含量! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-06-24 11:27 |只看该作者 |倒序浏览
现在的一些字符串hash函数像ELF_hash,smdb_hash等都是32位的,也就是hash后的最大值是unsinged int的范围,由于现在数据量非常大,由200亿之多,所以hash之后的总数超出unsinged int的范围了,请问怎么修改这些hash函数,或者有没有其它方法,谢谢了!

论坛徽章:
0
2 [报告]
发表于 2010-06-24 11:34 |只看该作者
hash肯定有冲突了,解决冲突就可以了

论坛徽章:
0
3 [报告]
发表于 2010-06-24 13:05 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
1
天蝎座
日期:2013-10-23 21:11:03
4 [报告]
发表于 2010-06-25 15:01 |只看该作者
md5
sha-1
搜索里面有个bloom-filter算法,LZ可以借鉴一下

论坛徽章:
0
5 [报告]
发表于 2010-06-27 12:20 |只看该作者
hash并不能保证没有重复,hash链表

论坛徽章:
0
6 [报告]
发表于 2010-12-05 16:57 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
7 [报告]
发表于 2010-12-06 11:43 |只看该作者
先估计你的数据分布,然后再考虑用哪种算法,否则你会死的很惨的。

论坛徽章:
0
8 [报告]
发表于 2010-12-06 13:22 |只看该作者
先估计你的数据分布,然后再考虑用哪种算法,否则你会死的很惨的。
sithui 发表于 2010-12-06 11:43



    有道理,还是先分析下数据的分布特点,要不然冲突链的查找会极大降低效率的,毕竟,很完美的哈希函数不是那么好设计的。:wink:
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP