免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2838 | 回复: 11
打印 上一主题 下一主题

awk处理几十亿行的数据 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-03-15 19:13 |只看该作者 |倒序浏览
本帖最后由 white2010 于 2012-03-15 19:14 编辑

数据文件a有几十亿行的数据量,文件b有几十或者上百万。如果a的第三列和b的第二列相同,则输出。
用awk,命令可以写出来,但可行么。。用其他工具或语言会更快?会出现什么问题
如果可行,要多久?

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
2 [报告]
发表于 2012-03-15 19:14 |只看该作者
可行

论坛徽章:
0
3 [报告]
发表于 2012-03-15 19:22 |只看该作者
回复 2# zhaopingzi


    如果分段处理,控制1次处理1000行,速度是否有提升。。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
4 [报告]
发表于 2012-03-15 19:26 |只看该作者
回复 3# white2010


你自己测试的结果是怎样的?

论坛徽章:
0
5 [报告]
发表于 2012-03-15 20:41 |只看该作者
不知道awk一次存放100万的hash数据扛不扛得住

论坛徽章:
0
6 [报告]
发表于 2012-03-15 22:13 |只看该作者
回复 4# Shell_HAT


    没弄过,只是想用unix 命令来弄这个。我是怕真杠不住。。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
7 [报告]
发表于 2012-03-15 22:29 |只看该作者
回复 6# white2010


就算别人给你现成的代码,你准备如何测试?

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
8 [报告]
发表于 2012-03-15 23:38 |只看该作者
回复 1# white2010


    这个还有看你数据格式,然后对代码进行适当的优化

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
9 [报告]
发表于 2012-03-16 12:24 |只看该作者
大的hash数组,存的时候很慢
不过存完了去检测的时候应该就没事了

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
10 [报告]
发表于 2012-03-16 12:25 |只看该作者
cjaizss 发表于 2012-03-16 12:24
大的hash数组,存的时候很慢
不过存完了去检测的时候应该就没事了

就以文件b的第三列来存入hash
看看效果
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP