免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3312 | 回复: 11
打印 上一主题 下一主题

[文本处理] 求助使用gawk处理两个文本取异 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-09-24 00:35 |只看该作者 |正序浏览

file1.txt
=========
1
2
3
4
5
6
7
8
9

file2.txt
===========

1
2
3
11
22
33
44

================

打印结果为:

11
22
33
44


取File2.txt的文本行,不存在file1.txt的文本行中打印出来,


论坛徽章:
3
CU十二周年纪念徽章
日期:2013-10-24 15:41:34子鼠
日期:2013-12-14 14:57:19射手座
日期:2014-04-25 21:23:23
12 [报告]
发表于 2012-09-26 14:26 |只看该作者
本帖最后由 mcshell 于 2012-09-26 14:27 编辑

  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;
  4. my %hash;
  5. open FA,"a" or die "$!";
  6. map{$hash{$_}++}<FA>;
  7. close FA;
  8. open FB,"b" or die "$!";
  9.   map{if(exists($hash{$_})){ }else{print $_}}<FB>;
  10. close FB;
复制代码
回复 11# Tr4c3e


论坛徽章:
0
11 [报告]
发表于 2012-09-26 12:30 |只看该作者
grep: memory exhausted   内存耗尽了。物理内存16G ,文本300多M, 回复 9# Shell_HAT


   

论坛徽章:
0
10 [报告]
发表于 2012-09-25 11:48 |只看该作者
  1. #!/usr/bin/env python  
  2. #-*- coding:utf-8 -*-  

  3. f1 = open('1.txt')
  4. f2 = open('2.txt')

  5. for i in  sorted(set(f2) - set(f1)):
  6.     print i,

  7. f1.close()
  8. f2.close()
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
9 [报告]
发表于 2012-09-24 23:13 |只看该作者
回复 8# Tr4c3e


    报错信息是什么?有没有观察一下内存使用率的变化?

论坛徽章:
0
8 [报告]
发表于 2012-09-24 12:17 |只看该作者
经测试对上G的文本不支持。回复 5# Shell_HAT


   

论坛徽章:
0
7 [报告]
发表于 2012-09-24 12:10 |只看该作者
感谢版主。回复 2# rdcwayx


   

论坛徽章:
0
6 [报告]
发表于 2012-09-24 12:07 |只看该作者
非常感谢提供方法,论坛有你们这些老前辈,会更加精彩。回复 5# Shell_HAT


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
5 [报告]
发表于 2012-09-24 11:27 |只看该作者
  1. grep -vxFf file1 file2 > file3
  2. grep -vxFf file2 file1 > file4
复制代码

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
4 [报告]
发表于 2012-09-24 08:20 |只看该作者
看看cmp命令
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP