免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 24594652 | 回复: 24594652
打印 上一主题 下一主题

【求助】提取文本数据 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-12-12 22:17 |只看该作者 |倒序浏览
各位大侠,我想从txt文本(样本数据如下)中根据关键词(TI\SO\ID\C1\RP)提取后面的内容,如果一段记录中没有出现这一关键词,则以空行表示。但是现在空行的问题无法实现。

源数据:
**********************************
TI The New Public Service: Serving rather than steering
SO PUBLIC ADMINISTRATION REVIEW
ID REINVENTING GOVERNMENT MOVEMENT; MANAGEMENT
C1 Arizona State Univ, Sch Publ Affairs, Tempe, AZ 85287 USA.
RP Denhardt, RB (reprint author), Univ Delaware, Newark, DE 19716 USA.


TI Individual conceptions of public service motivation
SO PUBLIC ADMINISTRATION REVIEW
C1 Syracuse Univ, Syracuse, NY 13244 USA.
   Univ Georgia, Carl Vinson Inst Govt, Athens, GA 30602 USA.
RP Brewer, GA (reprint author), Syracuse Univ, Syracuse, NY 13244 USA.


TI The political theory of reinvention
SO PUBLIC ADMINISTRATION REVIEW
ID PUBLIC ENTREPRENEURSHIP; GOVERNMENT; MANAGEMENT; DEMOCRACY; MOVEMENT
C1 Univ Colorado, Grad Sch Publ Affairs, Execut Master Publ Adm Program, Denver, CO 80202 USA.
   Univ Colorado, Grad Sch Publ Affairs, Rocky Mt MPA Program, Denver, CO 80202 USA.
   Arizona State Univ, Tempe, AZ 85287 USA.


TI Performance measurement in US counties: Capacity for reform
SO PUBLIC ADMINISTRATION REVIEW
ID GOVERNMENT; STATE; MANAGEMENT
RP Berman, E (reprint author), Univ Cent Florida, Dept Publ Adm, Orlando, FL 32816 USA.

...

*********************************

期望得到的结果,比如提取ID,在第二段里面没有ID,则以空行标出:
+++++++++++
ID REINVENTING GOVERNMENT MOVEMENT; MANAGEMENT

ID PUBLIC ENTREPRENEURSHIP; GOVERNMENT; MANAGEMENT; DEMOCRACY; MOVEMENT
ID GOVERNMENT; STATE; MANAGEMENT
+++++++++++

怎样实现空行呢,谢谢各位了!!万分感谢~

评分

参与人数 1信誉积分 +5 收起 理由
sunzhiguolu + 5 好问题!

查看全部评分

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2015-12-12 22:49 |只看该作者
本帖最后由 sunzhiguolu 于 2015-12-12 22:56 编辑

回复 1# Tina0910
TI Individual conceptions of public service motivation
SO PUBLIC ADMINISTRATION REVIEW
C1 Syracuse Univ, Syracuse, NY 13244 USA.
   Univ Georgia, Carl Vinson Inst Govt, Athens, GA 30602 USA.
RP Brewer, GA (reprint author), Syracuse Univ, Syracuse, NY 13244 USA.

以上文本除了黄色背景的文字 (以空行表示) 外是否全部显示? 以下输出结果是否符合要求?
TI Individual conceptions of public service motivation
SO PUBLIC ADMINISTRATION REVIEW
C1 Syracuse Univ, Syracuse, NY 13244 USA.

RP Brewer, GA (reprint author), Syracuse Univ, Syracuse, NY 13244 USA.


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2015-12-12 23:48 |只看该作者
回复 1# Tina0910

$ perl get_key.pl
    Usage  : get_key.pl keyword file
    Example: get_key.pl ID FILE

$ perl get_key.pl ID FILE
ID REINVENTING GOVERNMENT MOVEMENT; MANAGEMENT

ID PUBLIC ENTREPRENEURSHIP; GOVERNMENT; MANAGEMENT; DEMOCRACY; MOVEMENT
ID GOVERNMENT; STATE; MANAGEMENT

$ cat get_key.pl
use strict;
use warnings;

sub message{
  print<<EOF;
    Usage  : $0 keyword file
    Example: $0 ID FILE
EOF
  exit(1);
}

message() if(@ARGV < 2);
my $sKey = shift;
my $sOut = "\n";
my $sSeg = 0;
my $sMatch = 0;
while(<>){
  if(m/^\s*$/){
    print "$sOut" if $sSeg;
    $sOut = "\n";
    $sSeg = 0;
    $sMatch = 0;
  }
  else{
    $sSeg = 1;
  }
  $sMatch=0 if(/^\S/);
  if(m/^$sKey /){
    $sOut = $_;
    $sMatch = 1;
    next;
  }
  if($sMatch){
    $sOut .= $_;
  }
}
print $sOut if($sOut ne "");

   

评分

参与人数 1信誉积分 +10 收起 理由
sunzhiguolu + 10 您这个代码逻辑非常给力!

查看全部评分

论坛徽章:
0
4 [报告]
发表于 2015-12-13 10:53 |只看该作者
谢谢!
不是的,源数据是由TI\SO\ID\C1\RP 这些关键词组成的。在第二个数据中,没有出现ID,C1出现了两行(C1后面的一行表示是C1的第二条数据)。我是想分别提取TI\SO\ID\C1\RP后面的数据。如果每一段数据都有这些关键词还好,但是现在有的数据里面没有ID,在这种情况下,提取ID 的时候,我想让空行代替没有ID的。所以请大家帮忙。非常感谢!

回复 2# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
5 [报告]
发表于 2015-12-13 14:49 |只看该作者
本帖最后由 sunzhiguolu 于 2015-12-13 14:51 编辑

回复 4# Tina0910
听您这么一说, 问题看似简单其实挺难的. Jason680 大神的回复的帖子应该没什么问题. 而且效率也不是问题!
不知道您是如何解决这个问题的, 能否展示一下代码?

   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
6 [报告]
发表于 2015-12-13 15:14 |只看该作者
本帖最后由 sunzhiguolu 于 2015-12-13 15:23 编辑

回复 4# Tina0910
如果文件不大的话, 可以试下:
perl abc.pl key uFile.txt

  1. #!/usr/bin/perl
  2. use warnings;
  3. use strict;

  4. my $sKey = shift;
  5. foreach (split /\n{2,}/, join '', <>){
  6.     if (m/^$sKey/m){
  7.         print $+{hit} if (m/^(?<hit>${sKey}.*\n)/m);
  8.         next;
  9.     }
  10.     print "\n";
  11. }
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
7 [报告]
发表于 2015-12-13 16:52 |只看该作者
本帖最后由 sunzhiguolu 于 2015-12-13 16:54 编辑

回复 4# Tina0910
向您提供一个解决思路:
1.> 收集一个段落的文本;
2.> 在段落分割处对其进行处理, 匹配其 ID 的话输出 匹配行 否则输出 空行;
   

论坛徽章:
0
8 [报告]
发表于 2015-12-14 23:29 |只看该作者
您好,非常感谢帮助。我用perl处理数据的时间不长,我自己参考你的代码没有实现。
我想问一下,如果源文件是abc.txt(数据内容类似提问题时贴的内容),想输入ID的内容到result.txt.
您的代码应该怎么修改呢?我自己研究了一下,始终输出不了正确结果。
谢谢!

回复 3# jason680


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2015-12-15 08:16 |只看该作者
回复 8# Tina0910

>> ...如果源文件是abc.txt, ... 想输入ID的内容到result.txt.

$ perl get_key.pl
    Usage  : get_key.pl keyword file
    Example: get_key.pl ID FILE

$ perl get_key.pl ID abc.txt > result.txt

$ cat result.txt
ID REINVENTING GOVERNMENT MOVEMENT; MANAGEMENT

ID PUBLIC ENTREPRENEURSHIP; GOVERNMENT; MANAGEMENT; DEMOCRACY; MOVEMENT
ID GOVERNMENT; STATE; MANAGEMENT

论坛徽章:
0
10 [报告]
发表于 2015-12-23 15:06 |只看该作者
my $test='TI Individual conceptions of public service motivation
SO PUBLIC ADMINISTRATION REVIEW
C1 Syracuse Univ, Syracuse, NY 13244 USA.
   Univ Georgia, Carl Vinson Inst Govt, Athens, GA 30602 USA.
RP Brewer, GA (reprint author), Syracuse Univ, Syracuse, NY 13244 USA.';

$test=~s/^[^(SO|C1|RP)].*//mg;
print "$test\n";
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP