免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: cjxulicong
打印 上一主题 下一主题

[文本处理] 比较两个文本的重复问题--想了很多办法,真没招了 [复制链接]

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
11 [报告]
发表于 2014-03-17 14:44 |只看该作者
回复 10# cjxulicong

看上去像两句,其实是一样的,只是改变了文件的顺序而已
原理就是先将第一个文件每行的内容存入数组并对其计数,然后在处理第二个文件时,没出现一次就减少一次计数,直到小于等于0,小于等于0就表示这行在前一个文件中没有出现过或者是多余的
其实写成这样会好一些:
  1. awk 'NR==FNR{a[$0]++;next}--a[$0]<0'
复制代码

论坛徽章:
0
12 [报告]
发表于 2014-03-17 17:17 |只看该作者
回复 11# yestreenstars


    yestreenstars   谢谢,又涨姿势了!{:2_168:}

论坛徽章:
11
CU十二周年纪念徽章
日期:2013-10-24 15:41:342015年辞旧岁徽章
日期:2015-03-03 16:54:15丑牛
日期:2015-01-14 10:36:40技术图书徽章
日期:2015-01-12 15:46:11白羊座
日期:2014-11-14 09:35:36狮子座
日期:2014-10-30 13:18:49巳蛇
日期:2014-10-11 12:52:08子鼠
日期:2014-09-28 14:11:06双鱼座
日期:2014-04-22 13:05:48午马
日期:2014-02-11 17:58:002015年迎新春徽章
日期:2015-03-04 09:55:28
13 [报告]
发表于 2014-03-17 18:34 |只看该作者
涨姿势,路过。。。

论坛徽章:
0
14 [报告]
发表于 2014-03-17 19:05 |只看该作者
sort a.txt >a_sort.txt
sort b.txt>b_sort.txt
comm a_sort.txt b_sort.txt > res.log
cut -f 1 res.log >a_only.txt
cut -f 2 res.log >b_only.txt
cut -f 3 res.log >a_b_comm.txt

不知道对于十几万行的文件执行sort,cut需要多久
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP