免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 4720 | 回复: 22
打印 上一主题 下一主题

[文本处理] 精神急救啊 awk [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-23 10:17 |只看该作者 |倒序浏览
最近碰到一个awk的问题,完全颠覆了我对awk的世界观,以往总是觉得awk无往不利,迎头向前,但现在被人问到一个很简单的文件处理问题,竟然把我弄倒了,试了很多次,不得果,快疯了,难倒我哪里弄错啦?

more file1 :
  1. DSM_18933
  2. DSM_19284
  3. DSM_19394
  4. DSM_19395
  5. DSM_19519
  6. DSM_19674
  7. DSM_19703
  8. DSM_19906
  9. DSM_19909
  10. DSM_19910
  11. DSM_19971
  12. DSM_20003
  13. DSM_20004
  14. DSM_20019
  15. DSM_20057
  16. DSM_20072
  17. DSM_20088
  18. DSM_20089
  19. DSM_20092
  20. DSM_20093
  21. DSM_20098
  22. DSM_20099
  23. DSM_20102
  24. DSM_20184
  25. DSM_20203
  26. DSM_20211
  27. DSM_20213
  28. DSM_20214
  29. DSM_20216
  30. DSM_20222
  31. DSM_20249
复制代码
more file2:
  1. SAMN02442006    DSM_15837
  2. SAMN02442007    DSM_16992
  3. SAMN02442008    DSM_17755
  4. SAMN02442009    DSM_17777
  5. SAMN02442010    DSM_19703
  6. SAMN02442011    DSM_20088
  7. SAMN02442012    DSM_20089
  8. SAMN02442013    DSM_20092
  9. SAMN02442014    DSM_20093
复制代码
2个文件,file1 的$1 与 file2 的$2 比较,若是 file2 的$2 在 file1 的$1 有出现,则输出,awk命令:
  1. awk 'NR==FNR{a[$1]; next}{if($2 in a){print}}' t1.txt t2.txt | more
复制代码
明明有存在的,却没有输出,以为是文件格式有错,改了多次还是一样,晕啊

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-01-23 10:27 |只看该作者
我这里显示结果很正常:
  1. $ awk 'NR==FNR{a[$1];next}$2 in a' a b
  2. SAMN02442010    DSM_19703
  3. SAMN02442011    DSM_20088
  4. SAMN02442012    DSM_20089
  5. SAMN02442013    DSM_20092
  6. SAMN02442014    DSM_20093
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-01-23 10:33 |只看该作者
yestreenstars 发表于 2014-01-23 10:27
我这里显示结果很正常:


可能是那原文件有问题

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
4 [报告]
发表于 2014-01-23 10:35 |只看该作者
cat -A t1.txt t2.txt

比较下

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
5 [报告]
发表于 2014-01-23 10:37 |只看该作者
回复 1# iamline


    目测是文件格式问题......
    cat -A 看看, 确定格式有问题的话再 dos2unix

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2014-01-23 10:38 |只看该作者
回复 1# iamline

1. check your file (t1.txt, t2.txt)
  cat -A UR_FILE
  hexdump -C UR_FILE

2. check your awk version
  awk --version

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
7 [报告]
发表于 2014-01-23 10:38 |只看该作者
用 grep 会不会更快些 ?

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2014-01-23 10:41 |只看该作者
回复 7# q1208c


    grep怎也写?

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
9 [报告]
发表于 2014-01-23 10:48 |只看该作者
回复 8# Shell_HAT


grep -Ff file1 file2



我前面问过的问题.

论坛徽章:
0
10 [报告]
发表于 2014-01-23 10:48 |只看该作者
  1. grep -f 1.txt 2.txt
复制代码
回复 8# Shell_HAT


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP