免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 24604147 | 回复: 24604147

有个文本匹配搜素的问题 求思路 [复制链接]

论坛徽章:
0
发表于 2015-07-01 18:07 |显示全部楼层
本帖最后由 david_95 于 2015-07-01 18:08 编辑

有文本文件内容如下:

        item_package_dimensions: [
            {
                length: {
                    normalized_value: {
                        unit: inches,
                        value: 10.599999989188,
                    },
                    unit: centimeters,
                    value: 26.924,
                },
                width: {
                    normalized_value: {
                        unit: inches,
                        value: 10.49999998929,
                    },
                    unit: centimeters,
                    value: 26.67,
                },

                height: {
                    normalized_value: {
                        unit: inches,
                        value: 1.699999998266,
                    },
                    unit: centimeters,
                    value: 4.318,
                },
                source_customer_id: 120098015,
            },
        ],
        manufacturer: [
            {
                value: "Hasbro Games",
                language_tag: zh_CN,
            },
        ],
        。。。 下面还有很多类似字符串

我想搜索匹配item的相应内容 ,比如我搜“width”,从“:{”开始 ,读取其下所有的字符串,直到遇到对应的“}”为止
问题:
1 我可以用正则匹配找到第一个 width, 我怎么定位到该行,并从该行开始继续读入
2 我怎么找到对应的结束符 }      
脑子转不动了,求指点

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
发表于 2015-07-01 21:17 |显示全部楼层
本帖最后由 songyc_2015 于 2015-07-01 21:22 编辑

回复 1# david_95
  1. perl -lne 'if($flag&&!$kuo){print $str;last}$flag=1 if / +width:/;$kuo++ if $flag&&/{/;$kuo-- if $flag&&/}/;$str.=$_."\n" if $flag' file
复制代码
  1. $cat test.pl
  2. #!/usr/bin/env perl
  3. use strict;
  4. use warnings;

  5. my $str = "width:";
  6. my ($flag, $kuo, $rs) = (0, 0, "");
  7. while (<ARGV>)
  8. {
  9.         if ($flag and $kuo == 0)
  10.         {
  11.                 print "rs=[$rs]\n";
  12.                 $flag = 0;
  13.                 last;
  14.         }
  15.         $flag = 1 if / +$str/;
  16.         $kuo++ if $flag and /{/;
  17.         $kuo-- if $flag and /}/;
  18.         $rs .= $_ if $flag;
  19. }
  20. $perl test.pl file
复制代码

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
发表于 2015-07-02 11:00 |显示全部楼层
这似乎是某种数据格式

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
发表于 2015-07-02 11:29 |显示全部楼层
这格式很清晰,写个解析器很快的。甚至你把所有东西都加上引号(除了已经有引号的字符串)再把 : 替换成 , 都能用 eval 了。

论坛徽章:
0
发表于 2015-07-02 12:24 |显示全部楼层
十分感谢,我也想出来一个法子,正在试

论坛徽章:
0
发表于 2015-07-02 13:58 |显示全部楼层
@zhlong8 , 这确实是种数据结构,不过有什么好处,我理解的不是很深刻,什么方面体现解析器好写?能深入指点一下吗?
我总觉得这个太麻烦,有点像 json ,但是{ [ 一堆,数据干嘛弄这么复杂,理解不了。我还不太理解{ 【 有啥子区别..

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
发表于 2015-07-02 23:07 |显示全部楼层
回复 6# david_95


    写这个的时候或许作者还不知道 JSON 语法不完全符合,要不能节省你很多生命。写个简单情况能工作的
  1. use strict;
  2. use warnings;

  3. use Data::Dumper;

  4. my @stack = {};

  5. while (<>) {
  6.     #删除空白
  7.     s/^\s*//;
  8.     s/[\s,]*$//;
  9.     next if $_ eq '';

  10.     if ($_ eq '{') {
  11.         push @stack, {};
  12.     } elsif ($_ eq '[') {
  13.         push @stack, [];
  14.     } elsif ($_ eq '}' or $_ eq ']') {
  15.         if (ref $stack[-2]) { #上一级是数组
  16.             push @{$stack[-2]}, $stack[-1];
  17.             pop @stack;
  18.         } else { #上一级是哈希时栈中还保存了key, ref 字符串返回 false
  19.             $stack[-3]->{$stack[-2]} = $stack[-1];
  20.             pop @stack;
  21.             pop @stack;
  22.         }
  23.     } elsif (/(\w+)\s*:\s*"?(.*?)"?$/) {
  24.         if ($2 eq '{') {
  25.             push @stack, $1, {};
  26.         } elsif ($2 eq '[') {
  27.             push @stack, $1, [];
  28.         } else {
  29.             $stack[-1]->{$1} = $2;
  30.         }
  31.     } else {
  32.         die "line: $. '$_'";
  33.     }
  34. }

  35. die "unmatch bracket." if @stack != 1;


  36. $Data::Dumper::Indent = 1;
  37. print Dumper $stack[0];
复制代码

评分

参与人数 1信誉积分 +50 收起 理由
L_WC + 50 很给力,长见识了

查看全部评分

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
发表于 2015-07-02 23:30 |显示全部楼层
27行正则表达式少了个 ^

论坛徽章:
0
发表于 2015-07-03 11:21 |显示全部楼层
谢谢,先收藏研究一下

论坛徽章:
0
发表于 2015-07-07 09:54 |显示全部楼层
本帖最后由 huyang_ 于 2015-07-07 14:17 编辑

动手写了下,不知道符不符合你的需求,把符合条件的字符串都提取出来了,怎么输出你就自己决定吧
  1. #!/usr/bin/perl -w
  2. use strict;
  3. use Data::Dumper;
  4. my $str = $ARGV[0];   #获取想要匹配的字符串,比如width
  5. my $stack = {};
  6. my $n = 0;            #记录当前读取文件的行数
  7. my $left = 0;         #左大括号
  8. my $right = 0;
  9. my $start = 0;
  10. open( FILE,"1.txt" ) ;   #替换为具体的文件路径
  11. while( <FILE> )
  12. {
  13.         chomp;
  14.   $n++;

  15.   if(/$str:\s*\{/)
  16.   {
  17.     $start = $n;
  18.     $left++;
  19.     $stack->{$start}->{$n} = $_;
  20.     next;
  21.   }

  22.   unless($left == 0)
  23.   {
  24.     if(/([\{}])/)
  25.     {
  26.             if($1 eq '{')
  27.             {
  28.                     $left++;
  29.             }else{
  30.                     $right++;
  31.             }
  32.       if($left == $right)
  33.       {
  34.               $left = 0;
  35.               $right = 0;
  36.       }
  37.       $stack->{$start}->{$n} = $_;
  38.     }else{
  39.       $stack->{$start}->{$n} = $_;
  40.     }
  41.   }
  42. }
  43. close(FILE);
  44. print Dumper($stack);
复制代码
执行脚本的时候需要加上你要搜索的字符串,比如perl  xx.pl width
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP