1 234 5 / 5 页下一页

[文本处理] 关于二分法和HASH表效率比较的问题 [复制链接]

cao627

富足长乐

论坛徽章:: 6

21楼 [报告]

发表于 2013-04-10 16:26 |只看该作者

@ouiki
一本没有索引的书，有1000页，每一页是你要的不同内容，设翻到任意页的时间为1t,所以你要查看任意一页内容，平均花费时间为500t.

将这本书家加上索引，索引占满一页，这时得到任意页你要的内容的时间为2t.

现在是:将原书每一页的内容拆成十页，原书变成10000页，索引变成10页，得到任意内容的时间变为6t，5t得到索引的平均时间，加1t根据索引值翻到相应页的时间。

那本没索引的1000页的书，用两分法翻的话10次之内一定能翻到任意要的内容，2的10次方等于1024。
所以平均5t就能翻到要的内容

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ouiki

白手起家

论坛徽章:: 0

22楼 [报告]

发表于 2013-04-10 16:31 |只看该作者

回复 21# cao627

高。
学习了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

seesea2517

富足长乐

论坛徽章:: 93

23楼 [报告]

发表于 2013-04-11 10:08 |只看该作者

回复 21# cao627

@ouiki
@cao627

cao627 发表于 2013-04-10 16:26
一本没有索引的书，有1000页，每一页是你要的不同内容，设翻到任意页的时间为1t,所以你要查看任意一页内容，平均花费时间为500t.
将这本书家加上索引，索引占满一页，这时得到任意页你要的内容的时间为2t.
现在是:将原书每一页的内容拆成十页，原书变成10000页，索引变成10页，得到任意内容的时间变为6t，5t得到索引的平均时间，加1t根据索引值翻到相应页的时间。
那本没索引的1000页的书，用两分法翻的话10次之内一定能翻到任意要的内容，2的10次方等于1024。
所以平均5t就能翻到要的内容

有点疑问。
你这个类比相当于是把 IP 的比较类比为页码的比较，根据 IP 得到地址信息类比为翻页。
假设 hash 和二分的方法都已经把数据读入内存（当然实际也是这么做的），那么根据 IP 得到地址的信息即是根据key取值，可以认为速度很快，且只需要一次操作，这个时间忽略。
那么实际的时间都是花费在比较“页码”的操作上，即 IP 地址的比较。

“一本没有索引的书，有1000页，每一页是你要的不同内容，设翻到任意页的时间为1t,所以你要查看任意一页内容，平均花费时间为500t.”
从这一句来看，这个类比其实说的是顺序查找法。这个 t 是一个页码的比较，结论没问题。

“将这本书家加上索引，索引占满一页，这时得到任意页你要的内容的时间为2t.”
这一句指的是将 IP 范围展开，所有 IP 都做成 key 的 hash 表，结论没问题。

“现在是:将原书每一页的内容拆成十页，原书变成10000页，索引变成10页，得到任意内容的时间变为6t，5t得到索引的平均时间，加1t根据索引值翻到相应页的时间。”
这一句和 lz 的设定不符，实际上没有“十页”，只有四页“索引”，每一页索引是要比较的，所以是4t，并且“翻页”时间是不计的，所以以最大比较次数来算，是 4t。
另外算法上做优化，比如有一些 IP 没有四页，所以结果要 < 4t。

“那本没索引的1000页的书，用两分法翻的话10次之内一定能翻到任意要的内容，2的10次方等于1024。所以平均5t就能翻到要的内容”
这个计算我就不在行了，以你的为准 5t。

那么结果是使用 hash 的方法略优于二分法。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cao627

富足长乐

论坛徽章:: 6

24楼 [报告]

发表于 2013-04-11 15:01 |只看该作者

@seesea2517
所有数据在中内存地位都相等。
不会因为你被人称呼为索引，混在其他1000条索引中和混在其他10000条索引中cpu找到你的时间都是一样的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

seesea2517

富足长乐

论坛徽章:: 93

25楼 [报告]

发表于 2013-04-11 15:38 |只看该作者

回复 24# cao627

这个当然是。
我说的意思是“比较”这个操作和“取值”这两个操作的时间是不一样的。举例说就是 ip > ip1，ip < ip2 这样的比较操作，找到所到的范围后，用 addr[ip] 这个来进行取值操作。 > < = 这些比较操作在这里是频繁的，而 [] 取值操作是一次处理中只做一次，并且二者时间不一样。取值操作在进行时间复杂度计算的时候，在这个例子中我认为是可以忽略的。
在用翻书和查索引这个比喻里，翻书你要比较页码，这个是比较操作，找到页码后，你再正式翻开书，这个是取值操作。在你上面的描述我认为这两个操作你没有做区分所以我做了一个补充说明。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cao627

富足长乐

论坛徽章:: 6

26楼 [报告]

发表于 2013-04-11 16:17 |只看该作者

@seesea2517
我忽略比较操作，是因为我同时忽略了对一页索引中每一项的比较操作。
如果将“比较”考虑进去，那么一页索引中有1000个条目，key要和这一千个条目一一比对，才能知道value在第几页了。
难道索引神奇到给出一个key不用比对就能知道自己在索引中存在还是不存在？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cao627

富足长乐

论坛徽章:: 6

27楼 [报告]

发表于 2013-04-11 17:12 |只看该作者

本帖最后由 cao627 于 2013-04-11 17:16 编辑

@seesea2517
这么说吧：
1000页的书，翻到任意页的时间忽略不记，判断一页的内容是你要的内容的时间为1t，所以找到一页内容的时间平均为500t
将书建一个索引。设在这个索引上判断每一项是否指定到你要的内容的时间0.001t（索引判断很快，但不能无休止的快吧，瞎设为快1000倍吧），所以有了索引，1t之内就能找到任意一页的内容。平均为0.5t就能找到内容。
现在是:将原书每一页的内容拆成十页，原书变成10000页，索引条目变成10000条，所以10t之内就能找到任意一页的内容。平均5t就能找到任意内容。
以下省略

索引上的比较比正常页上的比较快1000倍是个假设。对应于模拟：用几个or判断key是否在索引中存在花费的时间/读取数组的一项比较是否ip > ip1&ip < ip2 花费的时间的比值

建一个索引，原书页数增加10倍，即索引条目增加10倍，是一个假设。对应于模拟：构建hash表时，将原本占一项条目的ip段，拆成多个条目。