1 234 / 4 页下一页

请教一个面试题，关于大文件处理的 [复制链接]

luyi1983

家境小康

论坛徽章:: 0

21楼 [报告]

发表于 2009-07-24 13:07 |只看该作者

原帖由 nuclearxin 于 2009-7-24 11:17 发表
awk基础教程不就是他吗？
而且io最小
awk是最佳解决办法～

我知道的是grep和awk

但是为什么awk是最佳呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wtuter

家境小康

论坛徽章:: 0

22楼 [报告]

发表于 2009-07-24 13:40 |只看该作者

回复 #1 niyunjiu 的帖子

[2]cat 1
1
3
4
6
87
9

[2]
[2]cat 2
2
4
6
7
[2]
[2]
[2]grep -vFf 1 2
2
7
[2]grep -vFf 2 1
1
3
9

[2]grep -Ff 2 1
4
6
87
[2]grep -Ff 1 2
4
6

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nuclearxin

富足长乐

论坛徽章:: 0

23楼 [报告]

发表于 2009-07-24 14:02 |只看该作者

原帖由 luyi1983 于 2009-7-24 13:07 发表

我知道的是grep和awk

但是为什么awk是最佳呢？

呵呵.不好意思
是据我所知.因为awk用数组的话只有一次io读写两个文件各一次. 效率第一啊
其他的的话.
你用c重新专门写个的话效率也许更高~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

olivenan

白手起家

论坛徽章:: 0

24楼 [报告]

发表于 2009-07-24 17:10 |只看该作者

回复 #1 niyunjiu 的帖子

发一个awk版的
b 比a多的
awk '{if(NR==FNR) { a[$1] } else  { if (! ($1 in a)) print $1} }' a b
a 比 b多的
awk '{if(NR==FNR) { a[$1] } else  { if (! ($1 in a)) print $1} }' b a
awk '{if(NR==FNR) { a[$1] } else  { if ($1 in a) print $1} }' a b

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

beginner-bj

大富大贵

论坛徽章:: 1

25楼 [报告]

发表于 2009-07-24 17:19 |只看该作者

感觉是awk效率高。comm需要先排序，类似数据库的merge join;awk类似数据库的hash join。

谁能实测下，看看结果快慢如何？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

notnumb notnumb 当前离线禁止访问好友博客消息论坛徽章: 0	26楼 [报告] 发表于 2009-07-27 11:05 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
notnumb notnumb 当前离线禁止访问好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

lostdream

白手起家

论坛徽章:: 0

27楼 [报告]

发表于 2009-07-27 13:55 |只看该作者

回复 #14 可恶的的帖子

这个好。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

非凡公子

小富即安

论坛徽章:: 1

28楼 [报告]

发表于 2009-07-27 19:37 |只看该作者

你要是想效率,我觉得导入oracle最效率,10万行不算什么...实现的sql也很简单

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gingerhot

稍有积蓄

论坛徽章:: 0

29楼 [报告]

发表于 2009-07-28 00:06 |只看该作者

回复 #28 非凡公子的帖子

那用office access也可以吧。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tocai

白手起家

论坛徽章:: 0

30楼 [报告]

发表于 2009-07-28 05:34 |只看该作者

好帖，学习了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 234 / 4 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 请教一个面试题，关于大文件处理的

notnumb notnumb 当前离线禁止访问好友博客消息论坛徽章: 0	26楼 [报告] 发表于 2009-07-27 11:05 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
notnumb notnumb 当前离线禁止访问好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

请教一个面试题，关于大文件处理的 [复制链接]

回复 #1 niyunjiu 的帖子

回复 #1 niyunjiu 的帖子

回复 #14 可恶的 的帖子

回复 #28 非凡公子 的帖子

浏览过的版块

回复 #14 可恶的的帖子

回复 #28 非凡公子的帖子