免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: heracai
打印 上一主题 下一主题

[文本处理] 每隔1000行,取一行重新排列 [复制链接]

论坛徽章:
3
金牛座
日期:2013-08-26 10:25:02摩羯座
日期:2013-09-09 15:14:322015年亚洲杯之约旦
日期:2015-05-06 09:33:56
21 [报告]
发表于 2013-07-08 09:35 |只看该作者
本帖最后由 kooleon 于 2013-07-08 09:35 编辑

嗯~~看得一头雾水啊

论坛徽章:
0
22 [报告]
发表于 2013-07-08 12:50 |只看该作者
waker 发表于 2013-07-07 21:04
如果文件描述符够用

awk '{print >NR%1000".outfile"}' infile



请问,我想知道为什么楼主的写法效率上比这个慢?

论坛徽章:
0
23 [报告]
发表于 2013-07-08 12:55 |只看该作者
我都是先split 在awk

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
24 [报告]
发表于 2013-07-08 19:25 |只看该作者
@mmwobuaini
楼主的写法外层循环1000次
内层循环60次
也就是循环中的awk 语句执行列60000次
每次执行一次都要取遍历60000行的文件一边。

awk '{print >NR%1000".outfile"}' infile 只遍历的文件一遍

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
25 [报告]
发表于 2013-07-08 19:25 |只看该作者
本帖最后由 cao627 于 2013-07-08 19:28 编辑

怎么发了两次

论坛徽章:
0
26 [报告]
发表于 2013-07-08 23:06 |只看该作者
谢谢各位的帮忙。今天我试了一下,@cao627
@waker
awk '{print >NR%1000".outfile"}' file ;for((i=1;i<=999;i++)); do cat $i.outfile ; done;cat 0.outfile

和@关阴月飞
for i in `seq 999`; do awk "NR%1000==$i"  urfile ; done

这两个处理的时间差不了多少

论坛徽章:
0
27 [报告]
发表于 2013-07-08 23:07 |只看该作者
cao627 发表于 2013-07-08 08:18
@关阴月飞是的,效率他那个高,而且还要写一条NR%1000==0的命令放到最后


两个效率差不多啊,我试了一下,处理的时间差不多。

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
28 [报告]
发表于 2013-07-09 01:10 |只看该作者
回复 27# heracai


    我用seq 60000 >a.txt  作为处理文件。 两种方法处理起来,效率相差10倍以上, 如果文件更大更复杂,两者差距会更大。

论坛徽章:
0
29 [报告]
发表于 2013-07-09 17:13 |只看该作者
回复 2# waker

cool

   

论坛徽章:
0
30 [报告]
发表于 2013-07-09 17:14 |只看该作者
学习了~)))))
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP