免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3868 | 回复: 11
打印 上一主题 下一主题

[文本处理] 使用AWK选取相同字段并打印 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-06-20 13:45 |只看该作者 |倒序浏览
有两个文件:
# cat a
13407736618|07712350965|20140602000036|20140602000335|27|27|0|
077113607713712|07762618985|20140601231824|20140602000528|1413|1413|0|
# cat b
0|213|1|1|07712350965|213213|13407736618|2000|127|07712350965|20140602000036|20140602000335|180|27||8|0||||27|0|0|13407736618|27|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|1|07713912575|-1||0|0|27|0|
0|213|1|1|07762618985|213213|077113607713712|2004|127|07762618985|20140601231824|20140602000528|2824|1413||10|0||||1413|0|0|013607713712|1413|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|0||-1||0|0|1413|0|


使用awk查询b文件中

1、  a是从b里面取的某些行记录,但仅为部分字段

如附件的样例

a的内容如下

13407736618|07712350965|20140602000036|20140602000335|27|27|0|

077113607713712|07762618985|20140601231824|20140602000528|1413|1413|0|

b的内容中,有两条记录与上述的有关联,如下

0|213|1|1|07712350965|213213|13407736618|2000|127|07712350965|20140602000036|20140602000335|180|27||8|0||||27|0|0|13407736618|27|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|1|07713912575|-1||0|0|27|0|

0|213|1|1|07762618985|213213|077113607713712|2004|127|07762618985|20140601231824|20140602000528|2824|1413||10|0||||1413|0|0|013607713712|1413|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|0||-1||0|0|1413|0|

2、  使用awk来生成两个文件

1)  从b里剔除a中有的行,生成一个文件other.unl

2)  从b里提取a中有的行,生成一个文件in.unl

3)  也就是说这两个文件合并就是原来的b

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
2 [报告]
发表于 2014-06-20 13:48 |只看该作者
这 不是月经问题吗,grep似乎都能搞掂的。

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
3 [报告]
发表于 2014-06-20 13:53 |只看该作者
回复 1# xuezhonghuo


    grep 行不行:

1)  从b里剔除a中有的行,生成一个文件other.unl    #grep -vf a b >other.unl

2)  从b里提取a中有的行,生成一个文件in.unl   #grep -f a b >in.unl






论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
4 [报告]
发表于 2014-06-20 13:56 |只看该作者
本帖最后由 关阴月飞 于 2014-06-20 13:58 编辑

awk:
1)  从b里剔除a中有的行,生成一个文件other.unl    #awk 'FNR==NR{a[NR]=$0;next}!/a[FNR]/' a b >other.unl

2)  从b里提取a中有的行,生成一个文件in.unl         #awk 'FNR==NR{a[NR]=$0;next}/a[FNR]/' a b >in.unl


合在一起:
  1. awk 'FNR==NR{a[NR]=$0;next}!/a[FNR]/{print >"other.unl";next}{print > "in.unl"}' a b
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2014-06-20 14:04 |只看该作者
回复 1# xuezhonghuo

what's your match rule when get the two or more the same data in a file

...|27|27|0|
...|1413|1413|0|

论坛徽章:
0
6 [报告]
发表于 2014-06-20 15:01 |只看该作者
关阴月飞 发表于 2014-06-20 13:56
awk:
1)  从b里剔除a中有的行,生成一个文件other.unl    #awk 'FNR==NR{a[NR]=$0;next}!/a[FNR]/' a b  ...
还是不行,或者说,我只需要匹配a中第2个字段和b的第10个字段匹配,a中的第3个字段和b的第11个字段匹配,a的第4个字段和b的第12个字段匹配;这三个字段都匹配上的行,则输入到in中;匹配不上的,放入到other中

论坛徽章:
0
7 [报告]
发表于 2014-06-20 15:03 |只看该作者
expert1 发表于 2014-06-20 13:48
这 不是月经问题吗,grep似乎都能搞掂的。
grep不行吧?

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
8 [报告]
发表于 2014-06-20 16:08 |只看该作者
回复 6# xuezhonghuo


    你这完全是另一个需求了,等会有空再过来看看

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
9 [报告]
发表于 2014-06-20 17:22 |只看该作者
回复 6# xuezhonghuo
  1. 1)  从b里剔除a中有的行,生成一个文件other.unl    #awk 'FNR==NR{a[$2$3$4]=1;next}! a[$10$11$12]' a b >other.unl

  2. 2)  从b里提取a中有的行,生成一个文件in.unl       #awk 'FNR==NR{a[$2$3$4]=1;next}a[$10$11$12]' a b >in.unl
复制代码

论坛徽章:
0
10 [报告]
发表于 2014-06-20 18:33 |只看该作者
rm -f in.unl other.unl
awk -F"|" '{
if(FILENAME=="a"){ARR[$0]=1}
if(FILENAME=="b")
{
   Str=$7"|"$10"|"$11"|"$12"|"$14"|"$25"|"$47"|"
   if(ARR[Str]==1){ print $0 >> "in.unl" } else { print $0 >> "other.unl" }
}
}' a b
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP