免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 8165 | 回复: 40
打印 上一主题 下一主题

[文本处理] 关于二分法和HASH表效率比较的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-04-10 10:22 |只看该作者 |倒序浏览
本帖最后由 ouiki 于 2013-04-10 11:01 编辑

问题从这个帖子引出来的:"关于将IP替换为国家地区的问题"(http://bbs.chinaunix.net/thread-4075374-1-1.html)。
那个帖子里,楼主想从 "IP范围-国家编码" 列表中查找一个IP属于哪个国家。
不少人推荐二分法查找。

关于这个,我有一个思路:
IP范围不计算成数字,就直接用IP段来表示。
比如说,如果是10.254.64.0/18的话,把这个IP段展开,每个IP作为KEY,CN作为Value,构建一个HASH表(字典?):hash1。这么建表:
hash1={10.254.65 -> CN,
10.254.66 -> CN,
10.254.67 -> CN,
...
}

如果是10.254.10.0/24 CN。
hash1={10.254.10 -> CN} # 这一段刚刚写错了,改一下。

(大概是这么个意思,不用全部展开,只最小限展开就行)

对于一个IP:1.2.3.4
if (exists $hash1{"1"}) or exists $hash1{"1.2"})  or exists $hash1{"1.2.3"})  or exists $hash1{"1.2.3.4"}) {
       IP范围属于CN
}

个人觉得这种方法应该比二分法快(HASH决定的),但实际上效果并不理想(大概试了下,没太研究)。
想向各位请教,这种方法从根本上来说就是不如2分法,还是可以有优化的可能?

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [报告]
发表于 2013-04-10 10:25 |只看该作者
个人认为,如果数据量足够大。比如说20000000000的话。hash的优势就出来了。

论坛徽章:
0
3 [报告]
发表于 2013-04-10 10:28 |只看该作者
IP列表太大的话,用这种方法,会不会有hash1过大(因为需要把IP段一定程度的分解),从而导致效率变坏的问题?

论坛徽章:
0
4 [报告]
发表于 2013-04-10 10:33 |只看该作者
这个不是和数据库的B+树索引和hash索引的区别吗   速度上hash快些  内存占用肯定hash占用多  hash不支持范围查找

论坛徽章:
0
5 [报告]
发表于 2013-04-10 10:43 |只看该作者
rucypli 发表于 2013-04-10 10:33
这个不是和数据库的B+树索引和hash索引的区别吗   速度上hash快些  内存占用肯定hash占用多  hash不支持范围 ...


关于范围查找这个事,我是这么想的。
例如IP列表里有这么一条:10.10.0.0/12,我这么建HASH
hash1 = { 10.10 -> CN,
                10.11 -> CN
                ...
              }
如果是:10.10.0.0/17,这么建
hash1 = { 10.10.1 -> CN,
                10.10.2 -> CN
                ...
              }

所以对应一个要比较的IP:1.2.3.4
我只需要分四次看"1","1.2","1.2.3","1.2.3.4"是否存在于hash1中就行了,也就是范围比较。

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
6 [报告]
发表于 2013-04-10 10:50 |只看该作者
厉害。关键是建表。
另外IP与地域的关系不是那么严肃,可以一大段IP做为一个 key。
随便说的,好像不大对。

论坛徽章:
0
7 [报告]
发表于 2013-04-10 10:58 |只看该作者
我心里没谱,来向大家请教这方法可行不。

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
8 [报告]
发表于 2013-04-10 11:07 |只看该作者
回复 4# rucypli


二分法的内存呢占用不多?相比hash?

   

论坛徽章:
0
9 [报告]
发表于 2013-04-10 11:24 |只看该作者
一句话,hash是用空间换时间

论坛徽章:
0
10 [报告]
发表于 2013-04-10 11:56 |只看该作者
个人感觉,在mysql里建两张表,一条sql语句,是不是更快一些呢?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP