论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-09-17 17:20 |只看该作者 |倒序浏览

题目：
现有两个磁盘文件file1 和file 2。
file 1有2个字段，分别是A（整数）和 B（字符串），字段间以tab分割，共计1千万行，其中A不重复；
file 2有2个字段，分别是a（整数）和 d（整数），字段间以tab分割，共计10万行，其中a不重复；
需要生成一个新的文件，列出包含所有A=a的情况的B、d两列，tab分隔；对B按ASCII升序排序。
请给出如果让你完成本项工作你会采用的工具和具体方式，务必注意实现效率。

没什么思路大家给点指导意见吧呵呵谢谢了。

文库|博客

5毛党党员

大富大贵

论坛徽章:: 0

2楼 [报告]

发表于 2008-09-17 17:24 |只看该作者

1千万是不是数据库好一点。。。Oracle的话可以用sqlloader快速入库

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jinyonghe

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2008-09-17 22:11 |只看该作者

路过，学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redspider

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2008-09-17 22:24 |只看该作者

如果是我的话就这么干

C++:
用 file2 每行的两个字段做一个结构体，然后建一个 set 。把10万个结构放进去。
接下来不用说了吧.....

Perl:
用 file2 每行的两个字段做一个数组，然后建一个 hash 。把10万个数组放进去。
.......

我在 512M 的 PC 上用过百万个键的 hash， 10W更没问题。
顺便说一下，和导入数据库的时间相比，上面方法的时间可忽略不计。

[ 本帖最后由 redspider 于 2008-9-17 22:35 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ivhb

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2008-09-17 22:52 |只看该作者

awk 也相当适合这种处理了。你可以去shell版问问

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 请教一个算法问题

[算法] 请教一个算法问题 [复制链接]

浏览过的版块