免费注册 查看新帖 |

Chinaunix

广告
  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1704 | 回复: 7
打印 上一主题 下一主题

[文本处理] 请教个问题【已解决】 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-04-17 11:00 |只看该作者 |倒序浏览
本帖最后由 V_客 于 2013-04-17 11:37 编辑

我有两个文件  
2825559  list_3
1881730 list_4
前面是行数 后面是内容,现在要求在list_3中找出除list_4之外的账号, 现在文件已经扔到内存盘 然后用grep 依然非常慢,有什么快速的分析方法吗
文件内容类似 xxx@xxx.com xxx@xxx.cn xxx@xxx.com.cn

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [报告]
发表于 2013-04-17 11:19 |只看该作者
本帖最后由 wenhq 于 2013-04-17 11:19 编辑

for i in `sort list_3|uniq`
  do  
      grep $i list_4 && echo "found  $i in list_4"
  done

论坛徽章:
0
3 [报告]
发表于 2013-04-17 11:24 |只看该作者
回复 2# wenhq


    谢啦 不过这个是没有效率的 刚才朋友说了个comm 我去试试

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
4 [报告]
发表于 2013-04-17 11:28 |只看该作者
回复 3# V_客


    sorry。看错题目了。

论坛徽章:
0
5 [报告]
发表于 2013-04-17 11:37 |只看该作者
用了下comm 解决了速度非常快

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
6 [报告]
发表于 2013-04-18 13:37 |只看该作者
  1. grep -vxFf list_4 list_3
复制代码

论坛徽章:
0
7 [报告]
发表于 2013-04-18 20:54 |只看该作者
回复 6# Shell_HAT


    x 这个选项有新意 回头我试试 直接按照行匹配会提升多少速度 谢啦 嘿嘿
   fgrep 的的一些注意事项 我也去看看

论坛徽章:
0
8 [报告]
发表于 2013-04-19 16:56 |只看该作者
回复 6# Shell_HAT


    昨天测试了,在同样数据的时候 grep 这个执行时间是23s comm执行是5s
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP