1 23 / 3 页

论坛徽章:: 0

21楼 [报告]

发表于 2005-02-03 09:56 |只看该作者

大文件排序问题

思路还是一样的，不过步骤增多

先得到每一行的第一个字母的值，然后压入hash，排序，遇到值相同的然后再循环一边得到第二字母，不同值的就不需要再排序了，这样可以减少循环次数

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

田地

白手起家

论坛徽章:: 0

22楼 [报告]

发表于 2005-02-03 11:21 |只看该作者

大文件排序问题

数据库干的事，你要自己干？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

北京野狼

富足长乐

论坛徽章:: 62

23楼 [报告]

发表于 2005-02-03 13:44 |只看该作者

大文件排序问题

难道数据库或者hash排序不需要耗费内存

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

superdoctor

家境小康

论坛徽章:: 0

24楼 [报告]

发表于 2005-02-03 18:04 |只看该作者

大文件排序问题

通过算法可以大量节约内存，读入一段然后处理一段是常用的办法

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

北京野狼

富足长乐

论坛徽章:: 62

25楼 [报告]

发表于 2005-02-03 20:05 |只看该作者

大文件排序问题

[quote]原帖由 "superdoctor"]通过算法可以大量节约内存，读入一段然后处理一段是常用的办法[/quote 发表：

人家是全文件每行排序，
你只读入一段拍什么？说梦话

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

superdoctor

家境小康

论坛徽章:: 0

26楼 [报告]

发表于 2005-02-03 21:19 |只看该作者

大文件排序问题

楼上的最好看看我上面的帖子再说

读入一行，然后记录$hash{line_number}=ascii_value到hash中,释放这一行读入下一行，在记录$hash{line_number++}=ascii_value，最后按照ascii_value排序，再按照排序后的hash的line_number依次从原始文本中找到行号然后打印出来

当ascii_value相同时再根据linu_number取第二个字符值，再循环一遍即可，此方法可以使内存量降到最低

如果读入文件都要一次读到内存中，那你认为在128M内存的机器上还能干什么！？不懂不要乱说！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redspider

小富即安

论坛徽章:: 0

27楼 [报告]

发表于 2005-02-03 21:30 |只看该作者

大文件排序问题

是个好办法，感谢 superdoctor

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

北京野狼

富足长乐

论坛徽章:: 62

28楼 [报告]

发表于 2005-02-03 21:41 |只看该作者

大文件排序问题

原帖由 "superdoctor" 发表：
楼上的最好看看我上面的帖子再说

读入一行，然后记录$hash{line_number}=ascii_value到hash中,释放这一行读入下一行，在记录$hash{line_number++}=ascii_value，最后按照ascii_value排序，再按照排序后的hash的li..........

这样的hash排序比数组排序更浪费。
您的“最后按照ascii_value排序” 怎么不说说如何按照ascii_value排序，
和数组排序除了更浪费内存，增加循环次数还有什么不同吗？

你这需要500w次的i/o本来一个小时的事情，非干一天才满足。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wwwjy2000

白手起家

论坛徽章:: 0

29楼 [报告]

发表于 2005-02-05 20:59 |只看该作者

大文件排序问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wangyih wangyih 当前离线禁止发言好友博客消息论坛徽章: 0	30楼 [报告] 发表于 2005-02-06 13:56 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
wangyih wangyih 当前离线禁止发言好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 大文件排序问题

wangyih wangyih 当前离线禁止发言好友博客消息论坛徽章: 0	30楼 [报告] 发表于 2005-02-06 13:56 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
wangyih wangyih 当前离线禁止发言好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

大文件排序问题 [复制链接]

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题

大文件排序问题