免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2364 | 回复: 5
打印 上一主题 下一主题

[文本处理] 如何多文件比对去重? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-10-27 14:48 |只看该作者 |倒序浏览
我这里有10几个文本文件,每个文件都超过千万行,文件名为:
基础词典.txt    辅助词典01.txt   辅助词典02.txt   辅助词典03.txt   ...................   辅助词典15.txt
让辅助词典和基础词典比对,当发现辅助词典中有和基础词典中相同的行时,删除辅助词典文件里的重复行
当这些文件不在同一目录时,如何操作?
能不能把每个辅助词典中删除的行分别提取出来,生成对应的文件,这样方便查看每个辅助文件中都有什么内容和基础词典重复
感谢!!

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
2 [报告]
发表于 2016-10-27 14:59 |只看该作者

有样例数据吗?  基础词典.txt 及 辅助词典0x.txt的数据是怎样?
希望得到什么效果?

论坛徽章:
0
3 [报告]
发表于 2016-10-27 15:08 |只看该作者
词典数据

information technology, IT@信息技术
information industry*信息产业
computing technology%计算技术
computer science(6计算机科学
computer technology#计算机技术
computer engineering|计算机工程


需要的结果是,基础词典不改动,用辅助词典和基础词典比对,发现有和基础词典相同的行时,删除辅助词典中的那一行,感谢

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-10-27 15:21 |只看该作者
本帖最后由 moperyblue 于 2016-10-27 15:24 编辑

回复 3# nssn

more 00.txt #基础词典
  1. information technology, IT@信息技术
  2. information industry*信息产业
  3. computing technology%计算技术
  4. computer science(6计算机科学
  5. computer technology#计算机技术
  6. computer engineering|计算机工程
复制代码

more 01.txt #辅助词典
  1. aa
  2. information technology, IT@信息技术
  3. information industry*信息产业
  4. computing technology%计算技术
  5. computer science(6计算机科学
  6. computer technology#计算机技术
  7. computer engineering|计算机工程
  8. bb
复制代码

  1. grep -vFf 00.txt 01.txt > 01.txt.newFile
  2. grep -Ff 00.txt 01.txt > 01.txt.same #与基础词典重复
复制代码

more 01.txt.*
  1. ::::::::::::::
  2. 01.txt.same
  3. ::::::::::::::
  4. information technology, IT@信息技术
  5. information industry*信息产业
  6. computing technology%计算技术
  7. computer science(6计算机科学
  8. computer technology#计算机技术
  9. computer engineering|计算机工程
  10. ::::::::::::::
  11. 01.txt.newFile
  12. ::::::::::::::
  13. aa
  14. bb
复制代码

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
5 [报告]
发表于 2016-10-27 15:24 |只看该作者
cat 1
information technology, IT@信息技术
information industry*信息产业
computing technology%计算技术
computer science(6计算机科学
computer technology#计算机技术
computer engineering|计算机工程
computer engineering|计算4

cat 2
information technology, IT@信息技术
information industry*信息产业
computing technology%计算技术
computer science(6计算机科学
computer technology#计算机技术
computer engineering|计算机工程
computer engineering|计算机1
computer engineering|计算机2
computer engineering|计算机3

grep -Ff 1 2
information technology, IT@信息技术
information industry*信息产业
computing technology%计算技术
computer science(6计算机科学
computer technology#计算机技术
computer engineering|计算机工程

grep -vFf 1 2
computer engineering|计算机1
computer engineering|计算机2
computer engineering|计算机3

grep -vFf 2 1
computer engineering|计算4

论坛徽章:
0
6 [报告]
发表于 2016-10-27 15:28 |只看该作者
感谢,我去试试
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP