免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1826 | 回复: 9
打印 上一主题 下一主题

请教:提取含内容较多的列 [复制链接]

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-18 20:29 |只看该作者 |倒序浏览
假如文本A各列以tab分隔,其中最后一列包含多个以“;”隔开的内容,并且内容间有空格:

11    000    3DS    +    S_I "C1,T_,2/";ID "D,34";SSS "TTT"
.....
  
假如要提取第2,3列和最后一列中的下划线内容(不要双引号),分为4列,输出到文件B,列重新排序,并且加上各列的名称,用数组可以实现吗?

AA    BB    CC    DD
C1,T_,2/    000    D,34    3DS  
.....  

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-08-18 20:41 |只看该作者
本帖最后由 sunzhiguolu 于 2016-08-18 20:42 编辑
提取第2,3列和最后一列中的下划线内容(不要双引号),分为4列,输出到文件B,列重新排序,并且加上各列的名称用数组可以实现吗?

1.> 列重新排序看出来了, 并且加上各列的名称. 如何理解?
2.> 用数组可以实现吗? 没明白是啥意思!

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
3 [报告]
发表于 2016-08-18 20:59 |只看该作者
回复 2# sunzhiguolu

输出就是上面的结果,每列分别以AA,BB,CC,DD作为名称。

假如用数组的话,原始文件读进@A:
while(<IN>){
@A = split("\t",$_);

}  

提取内容到@B

最后一列不知道怎么提取内容。。。。还有每列新命名这样写可以吗? print OUT "AA\tBB\tCC\tDD\t";

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
4 [报告]
发表于 2016-08-18 21:21 |只看该作者
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. local $_ = qq (11    000    3DS    +    S_I "C1,T_,2/";ID "D,34";SSS "TTT");
  5. my @aHead = qw /AA BB CC DD/;
  6. if (m/\A\S+\s+(?<BB>\d+)\s+(?<DD>\w+)[^"]+"(?<AA>[^"]+)"[^"]+"(?<CC>[^"]+)/){
  7.     print "@aHead\n@+{@aHead}\n";
  8. }
复制代码
perl abc.pl
------------------------------------
AA BB CC DD
C1,T_,2/ 000 D,34 3DS

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
5 [报告]
发表于 2016-08-18 22:23 |只看该作者
回复 4# sunzhiguolu


  看不太懂啊。。。我写了一个代码好像有问题,可以帮忙看下吗?
#!/usr/bin/perl -w
use strict;

open (IN, "<", "A.txt" or die $!;
open (OUT,">", "B.txt') or die $!;

my @B;

while (<IN>{
    chomp;
    my (undef, $a, $b, undef, $c) = split("\t", $_);
    @tmp = split (";", $c);
    my $c1 = $tmp[0];
    my $c2 = $tmp[1];                 
    $c1 =~ m/w+,s+,^"[+]"/;                              
    $c2 =~ m/w+,s+,^"[+]"/;
    push (@B, $c1, $a, $c2, $b)
    print OUT "AA\tBB\tCC\tDD\t';
    print OUT join("\t", @B);
}

close IN;
close OUT;

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
6 [报告]
发表于 2016-08-19 10:22 |只看该作者
本帖最后由 sunzhiguolu 于 2016-08-19 10:24 编辑

回复 5# tingshuibanxia
个别地方, 根据你自己的实际情况适当修改.
  1. #!/usr/bin/perl -w
  2. use strict;

  3. while (<>){
  4.     chomp;
  5.     my (undef, $a, $b, undef, $c) = split (/\t/, $_);
  6.     my @aT = split (";", $c);
  7.     my $c1 = $aT[0];
  8.     my $c2 = $aT[1];
  9.     ($c1) = $c1 =~ m/"([^"]+)"/;
  10.     ($c2) = $c2 =~ m/"([^"]+)"/;
  11.     print "AA\tBB\tCC\tDD\n";
  12.     print join ("\t", $c1, $a, $c2, $b), "\n";
  13. }
复制代码
perl abc.pl a
----------------------------------
AA      BB      CC      DD
C1,T_,2/        000     D,34    3DS


   

评分

参与人数 1信誉积分 +20 收起 理由
tingshuibanxia + 20 赞一个!

查看全部评分

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
7 [报告]
发表于 2016-08-19 21:24 |只看该作者
回复 6# sunzhiguolu


    thank u sooooooooooo much~

论坛徽章:
0
8 [报告]
发表于 2016-08-19 22:25 |只看该作者
  1. #!/usr/bin/perl

  2. use warnings;
  3. use strict;

  4. print "AA \t BB \t CC \t DD\n";
  5. while (<>) {
  6.         chomp;
  7.         my @list = split /\t+/, $_;
  8.         my @result = split /"/, $list[4];
  9.         print $result[1], "\t", $list[1], "\t", $result[3], "\t", $list[2], "\n";
  10. }
复制代码
仅供参考~

论坛徽章:
0
9 [报告]
发表于 2016-08-19 22:35 |只看该作者
回复 5# tingshuibanxia
复杂的问题简单化就好,不必在意是否“;”分隔,能正确输出就行,仅发表个人建议~


   

评分

参与人数 1信誉积分 +5 收起 理由
tingshuibanxia + 5 神马都是浮云

查看全部评分

论坛徽章:
0
10 [报告]
发表于 2016-08-19 23:28 |只看该作者
回复 5# tingshuibanxia
字符集前面要加上“\”哦,\w与\s


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP