免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3373 | 回复: 2

perl 如何查找两个文件中有相同字段的行然后按其中一个文件格式输出? [复制链接]

论坛徽章:
0
发表于 2018-05-09 14:52 |显示全部楼层
比如说现在有两个文件(都是以制表符分隔):
1.txt(有4列)
aaa 111 TTTTT 1234
bbb 111 AAAA 2345

2.txt(有10多列)
aaa 12 111 TTTT asb ajhs asja 1234
ccc 14 134 AAAA asg jjjs asjk 1278
bbb 21 111 AAAA ash kkka aksk 2345

最后输出结果:
aaa 12 111 TTTT asb ajhs asja 1234
bbb 21 111 AAAA ash kkka aksk 2345

就是说文件1中的1、2、3、4列是对应文件2中的1、3、4、8列,由于排列顺序不一样,没办法把文件1作为哈希来处理

论坛徽章:
0
发表于 2018-05-19 16:22 |显示全部楼层
tricky一点,你可以直接把文件1的四列直接作为hash的key,处理了文件2时单独取出对应的列组成key值在前面的hash里去查找。这样一般没什么问题,当然取决于你的数据。
严谨一点,你就把文件1创建为多重hash,例如$hash{aaa}{111}{TTTTT}{1234},这样文件2查询时会稍微复杂点

论坛徽章:
11
子鼠
日期:2014-10-11 16:46:4815-16赛季CBA联赛之山东
日期:2017-11-10 14:32:142016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:532016科比退役纪念章
日期:2018-03-16 10:24:05
发表于 2018-05-19 17:31 |显示全部楼层
本帖最后由 523066680 于 2018-05-19 17:36 编辑

1.txt(有4列)
aaa 111 TTTTT 1234

2.txt(有10多列)
aaa 12 111 TTTT asb ajhs asja 1234

5个T 和 4个T ?示例内容是不是有错?

假设都是四个T吧,如果数据量不大,可以用拆分后用正则去匹配对应的行并列出。

  1. use File::Slurp;
  2. STDOUT->autoflush(1);

  3. my @src_a = read_file( "a.txt" );
  4. my $str_b = read_file( "b.txt" );

  5. for my $a ( @src_a )
  6. {
  7.     $a=~s/\n//;
  8.     my @g = split( /\s/, $a );

  9.     if ( $str_b =~/(^|\n)($g[0].*?$g[1].*?$g[2].*?$g[3].*?)(\n|$)/ )
  10.     {
  11.         print $2, "\n";
  12.     }
  13. }
复制代码


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

数据风云,十年变迁
DTCC 第十届中国数据库技术大会已启航!

2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度盛会和交流平台。与SACC2018类似,本届大会将采用“3+2”模式:3天传统技术演讲+2天深度主题培训。大会不仅提供超100场的主题演讲,还会提供连续2天的深度课程培训,深化数据领域的项目落地实践方案。
DTCC2019,一场值得期待的数据技术盛会,殷切地希望您报名参与!

活动入口>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP