免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345
最近访问板块 发新帖
楼主: Windows19
打印 上一主题 下一主题

[文本处理] 看能不能实现 【 已结案 】谢谢大神 [复制链接]

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
41 [报告]
发表于 2016-12-14 16:54 来自手机 |只看该作者
本帖最后由 Windows19 于 2016-12-14 16:56 编辑
moperyblue 发表于 2016-12-14 14:19
楼主 几十G的文件数据量有多大?


那个34g的已经处理好了,出来后只有16G  真汗呀,一大半重复的,用的i7处理器,8G内存,固态硬盘,1个半小时多点就搞好了,得比数据库更方便简单高效,真谢谢大神你呀。

就是想着这代码还有提升空间   今天我又测过了,整个瓶颈在awk打印出来时候,打印每秒在2m左右,还会有提升空间吗?其他sed   sort  都很快,sed   sort这两个都不用改,就只是awk打印时占了整个时间差不多一半

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
42 [报告]
发表于 2016-12-14 17:01 |只看该作者

耗时的应该在sort命令
最大的文件数据有多少行? wc -l 看一下?

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
43 [报告]
发表于 2016-12-14 17:10 来自手机 |只看该作者
本帖最后由 Windows19 于 2016-12-14 17:45 编辑
moperyblue 发表于 2016-12-14 17:01
耗时的应该在sort命令
最大的文件数据有多少行? wc -l 看一下?


现我在手机呢,我看过了的,是有25亿多行的

不是sort问题
因为sort有增强环境,比在终端窗口上执行会快一半,这个我用time测试过的了,这个可以肯定

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
44 [报告]
发表于 2016-12-14 17:14 来自手机 |只看该作者
在终端上执行sort确实是慢,这个我也知道,我是在sort增强环境下跑你的代码的,所以很快就完成了

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
45 [报告]
发表于 2016-12-15 14:30 |只看该作者

另一个方案:
1.split成较小文件
2.分别对这些较小文件去重
3.按文件顺序合并成一个大文件,同时在每一行前面添加序列
4.sort

论坛徽章:
0
46 [报告]
发表于 2016-12-15 14:40 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
47 [报告]
发表于 2016-12-15 15:12 |只看该作者
本友会机友会摄友会 发表于 2016-12-15 14:40
暂时掺乎一下:再快你也没有数据库快,我游说 各位趁早跟  【x脚本 + sqlite】,【x脚本+mysql】投降。
其 ...

呵呵  你也回来看到了吧  你说的那些玄乎了吧 空谈 没实质性代码出来  人家moperyblue老师现在就很好地把这个问题给解决了 而且实用方便  34G超大文件仅用了1个小时多就完成了  试问普通架构数据库能有这么快

经常听到你说大文件要数据库数据库的 (也不怪你  其实很多人也这样认为)   

我说哥们 咱能不能不要总是说数据库数据库的来解决呢  咱脑子转转弯行么?  

哈哈  灰太狼  欢迎又来到羊村  不过灰太狼你已经2次没能带回实用解决方案回羊村了  




您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP