免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: mcwolf2000
打印 上一主题 下一主题

[文本处理] 快过节了,来点技术小红包,awk/sed程序方面 [复制链接]

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
21 [报告]
发表于 2017-01-16 15:22 |只看该作者
本帖最后由 haooooaaa 于 2017-01-16 15:48 编辑
  1. awk -vRS='\n|     *| *:' '/^ *(Params|Status)$/{next}
  2.     /^ *Id$/{getline;a[+$0];b=+$0;x=y;next}
  3.     !x&&/^[A-Z]/{key[$0];x=$0;next}
  4.     x{all[b,x]=/^ *$/?"":$0;x=y}
  5. END{
  6.     s="port";for(i in key)s=s","i;n=split(s,t,",");print s
  7.     for(i in a){s=i;for(j=2;j<=n;j++)s=s ","(all[i,t[j]]?all[i,t[j]]:"NULL");print s}
  8. }'
复制代码

评分

参与人数 1信誉积分 +20 收起 理由
mcwolf2000 + 20 这个怎么用法描述一下吧

查看全部评分

论坛徽章:
0
22 [报告]
发表于 2017-01-16 18:21 |只看该作者
本帖最后由 mcwolf2000 于 2017-01-16 18:41 编辑

回复 16# mcwolf2000
port   nofield  PortEnable     MediaType      Duplex   speed   class       Link           Duplex     speed             RecentUpTime        
1       null      enable           1000BaseT      auto      auto     802.3     down          half         10Mbps            0 years   0 days...
1       null      enable           100BaseT        auto      auto     802.3     down          half         100Mbps          0 years   0 days.

sunzhiguolu 发表于 2017-01-16 12:44
符合要求?

符合要求啊,就是这个意思?    //sorry,数据是在页面上粘贴的,有些小毛病请体谅。

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
23 [报告]
发表于 2017-01-16 19:16 |只看该作者
本帖最后由 sunzhiguolu 于 2017-01-16 19:19 编辑
  1. #!/usr/bin/perl
  2. local $/ = '';
  3. my @aFieldList = qw /Port NoField PortEnable MediaType Duplex Speed Class Link RecentUpTime/;
  4. my %hFieldList = map {$_ => 1} @aFieldList;
  5. my %hDefaults = ('Port' => 1, 'PortEnable' => 'enable'); # 默认值, 可自行指定
  6. my %hTrace = ();

  7. my ($flag, %hData) = (1, ());
  8. while (<>){
  9.     my ($id, @aLines) = split (/\n/, $_);
  10.     $id = $1 if ($id =~ /(\d+)/);
  11.     foreach (splice (@aLines, -2)){
  12.         my @aT = split;
  13.         push (@{$hData{$id}{$aT[0]}}, "@aT[2 .. $#aT]") if ($hFieldList{$aT[0]});
  14.     }
  15.     foreach (@aLines){
  16.         my @aFields = split;
  17.         next if ($aFields[0] eq 'Params' or $aFields[0] eq 'Status');
  18.         while (/(\S+)\s*:\s*(\S+)/g){
  19.             next if (!$hFieldList{$1});
  20.             push (@{$hData{$id}{$1}}, $2);
  21.             $hTrace{$1}++ if ($flag);
  22.         }
  23.     }
  24.     $flag = 0 if ($flag);
  25. }
  26. push (@aFieldList, $_) for grep {$hTrace{$_} > 1} keys %hTrace;
  27. @aFieldList = sort {$a cmp $b} @aFieldList;
  28. print join (',', @aFieldList), "\n";
  29. my @aOut = ();
  30. foreach my $id (sort {$a <=> $b} keys %hData){
  31.     my %hCollect = ();
  32.     my @aT = ();
  33.     foreach my $k (sort {$a cmp $b} keys %{$hData{$id}}){
  34.         push (@{$hCollect{$k}}, @{$hData{$id}{$k}});
  35.     }
  36.     foreach my $k (sort {$a cmp $b} @aFieldList){
  37.         push (@{$hCollect{$k}}, exists ($hDefaults{$k}) ? $hDefaults{$k} : 'NULL') if (!exists ($hCollect{$k}));
  38.     }
  39.     foreach my $k (sort {$a cmp $b} keys %hCollect){
  40.         push (@aT, @{$hCollect{$k}});
  41.     }
  42.     push (@aOut, join (',', @aT) . "\n");
  43. }
  44. print @aOut;
复制代码
perl abc.pl urFile
测试记录行数:850000
real 3.99 user 3.90 sys 0.09
real 3.99 user 3.93 sys 0.06
real 4.00 user 3.90 sys 0.09
real 4.00 user 3.90 sys 0.09
real 4.00 user 3.91 sys 0.07
real 4.00 user 3.91 sys 0.09
real 4.00 user 3.96 sys 0.04
real 4.00 user 3.97 sys 0.03
real 4.02 user 3.90 sys 0.10
real 4.02 user 3.96 sys 0.04
real 4.02 user 3.96 sys 0.06
real 4.04 user 3.86 sys 0.12

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
24 [报告]
发表于 2017-01-16 19:31 |只看该作者
  1. awk -vRS='\n|     *| *:'  #重新定义换行符为'\n|     *| *:';中间的 "     *" 是看你的格式中间是 4个以上的空格。

  2. /^ *(Params|Status)$/{next}
  3.     /^ *Id$/{getline;a[+$0];b=+$0;x=y;next}
  4.     !x&&/^[A-Z]/{key[$0];x=$0;next}  # 似乎字段都是以大写开头?
  5.     x{all[b,x]=/^ *$/?"":$0;x=y}     # 得到数组key后,再把值写入,清空数组key。y未定义就是空 或者 x=""
  6. END{
  7.     s="port";for(i in key)s=s","i;n=split(s,t,",");print s
  8.     for(i in a){s=i;for(j=2;j<=n;j++)s=s ","(all[i,t[j]]?all[i,t[j]]:"NULL");print s}
  9. }

  10. # 数据是否是有字段就一定有值。会不会有这样?
  11.    Enable     :             MediaType      : 1000BaseT
  12. # 或者:
  13.    Enable     : enabled       MediaType      :
  14. # 这样就以 " *:" 为换行符,这样可以得到一个空行,然后: /^ *$/?"":$0

  15. # 要设置列值,可以在key数组要添加时,跳过。
复制代码


论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
25 [报告]
发表于 2017-01-16 19:34 |只看该作者
本帖最后由 sunzhiguolu 于 2017-01-16 19:35 编辑

如果将代码再优化下,数据量大点的话 效能应该还会好些。

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
26 [报告]
发表于 2017-01-16 19:56 |只看该作者
本帖最后由 sunzhiguolu 于 2017-01-16 22:09 编辑

我将测试文件加大了些,实际大小约 718MB, 行数 16000016 。

论坛徽章:
0
27 [报告]
发表于 2017-01-16 20:57 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
28 [报告]
发表于 2017-01-16 20:58 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
29 [报告]
发表于 2017-01-16 21:49 |只看该作者
回复 27# 本友会机友会摄友会
文件在这里,不知道 PowerShell 的威力到底咋样?
download

论坛徽章:
0
30 [报告]
发表于 2017-01-16 22:39 |只看该作者
回复 28# 本友会机友会摄友会

正如微软官方说明:ConvertFrom-String: Example-based text parsing
powershell5的ConvertFrom-String这种模板解决方法确实也是有其特点,比较近似最初想用lex/yacc方法达到的目标。

但是这种模板匹配的性能如何呢,PK awk/sed类 PK perl处理。
请能否搞一下测试方案。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP