免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: max5
打印 上一主题 下一主题

如果用awk命令对一行超长文本进行格式化 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-03-16 10:04 |只看该作者
回复 9# blackold
  1. sed
  2. real    0m1.287s
  3. user    0m1.285s
  4. sys     0m0.003s

  5. awk
  6. real    0m0.054s
  7. user    0m0.033s
  8. sys     0m0.019s
复制代码

论坛徽章:
0
12 [报告]
发表于 2010-03-16 10:20 |只看该作者
sed
real    0m1.287s
user    0m1.285s
sys     0m0.003s

awk
real    0m0.054s
user    0m0.033s
sys     0m0.019s
where27 发表于 2010-03-16 10:04



    20MB ?

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
13 [报告]
发表于 2010-03-16 10:23 |只看该作者
对于这种问题,awk处理得费劲。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
14 [报告]
发表于 2010-03-16 10:26 |只看该作者
回复 12# redspider


        不可能是20M,除非是超级计算机。

论坛徽章:
0
15 [报告]
发表于 2010-03-16 10:27 |只看该作者
回复 12# redspider


    这个没有那么大,只有不到100k

论坛徽章:
0
16 [报告]
发表于 2010-03-16 10:28 |只看该作者
测个 20MB 试试,看看和 Perl 的性能比较

俺测的 23MB, 11.5s

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
17 [报告]
发表于 2010-03-16 10:32 |只看该作者
用gawk的RT来写比较快,当然处理这种问题没法和perl比,不是一个量级的。

论坛徽章:
0
18 [报告]
发表于 2010-03-16 10:42 |只看该作者
perl确实快
  1. [root@Mylinux tmp]# awk 'BEGIN{for (i=1;i<=10000000;i++) printf i}' >>data
  2. [root@Mylinux tmp]# ll data
  3. -rw-r--r-- 1 root root 68888897 03-04 22:33 data

  4. [root@Mylinux tmp]# time (awk -F '' '{for (i=1;i<=NF;i++) {if (i==10||(i-10)%8==0&&i>10) {print $i;continue}if ((i-10)%4==0&&i>10) $i=$i",";printf $i}}' data >/dev/null)

  5. real    1m53.031s
  6. user    0m1.569s
  7. sys     0m15.693s

  8. [root@Mylinux tmp]# time (perl my.pl >/dev/null)

  9. real    0m38.073s
  10. user    0m11.457s
  11. sys     0m3.211s
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
19 [报告]
发表于 2010-03-16 12:21 |只看该作者
本帖最后由 blackold 于 2010-03-16 12:30 编辑

另一种比较快的方法:
  1. cat <(head -c 10 superlonogline) <(echo) <(tail -c +11 superlongline|fold -w 8|sed 's/.\{4\}/&,/'
复制代码
处理111M单行文件耗时1min。

论坛徽章:
0
20 [报告]
发表于 2010-03-16 14:44 |只看该作者
  1. open(FILE, '<', 'testdata') or die $!;
  2. {
  3.         local $/ = \10;
  4.         my $headline = <FILE>;
  5.         print $headline, "\n";
  6.        
  7.         local $/ = \8;
  8.         while (<FILE>) { print $_, "\n"; }
  9. }
  10. close FILE;
复制代码
改进了一下, 硬盘有多大,字符串就可以有多大,
不用考虑内存了,  22.8MB字符串, 10.39s
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP