免费注册 查看新帖 |

Chinaunix

广告
  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 8415 | 回复: 21
打印 上一主题 下一主题

一个awk过滤文本的脚本 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-08-10 09:32 |只看该作者 |倒序浏览
cat 1.txt
10 2841312          0
10 2843969          0
10 3546080          0
10 3052191          0
10 3052191         85
10 3052230          0
10 3052230          3
10 3052210          0
11 2843969          0
11 3546080          0
11 3052191          0
11 3052191         85
11 3052230          0
11 3052230          3
11 3052210          0

第一列,第二列有重复的数据找出来,然后把找出来的数据第三列等于0的过滤掉
最终输出:
10 2841312          0
10 2843969          0
10 3546080          0
10 3052191         85
10 3052230          3
10 3052210          0
11 2843969          0
11 3546080          0
11 3052191         85
11 3052230          3
11 3052210          0



我的脚本是:
awk 'a[$1,$2,$3=0]++ {print NR}' 1.txt >2.txt  可以找出重复的数据的行
5
7
12
14


for num in `cat 2.txt`
do
      sed -i "$num"d 2.txt
done

因为是-i操作 num不会跟随改变,请教达人有正解么?

论坛徽章:
0
2 [报告]
发表于 2011-08-10 09:34 |只看该作者
awk 'a[$1,$2,$3=0]++ {print $0}'  找出该删除的数据
10 3052191 0
10 3052230 0
11 3052191 0
11 3052230 0

论坛徽章:
0
3 [报告]
发表于 2011-08-10 09:38 |只看该作者
额 是不是可以这样  把找出的符合规则的要删除的数据>2.txt,然后比对1.txt和2.txt  找出不重复的的数据就是想要的结果了?

论坛徽章:
0
4 [报告]
发表于 2011-08-10 09:53 |只看该作者
求高手帮忙解惑 谢谢

论坛徽章:
0
5 [报告]
发表于 2011-08-10 09:59 |只看该作者
回复 1# sunlizhourong


    如果第一列和第二列有重复,并且第三列都等于0呢,这样的情况怎么处理,是留一个呢,还是都删除
10 2841312          0
10 2841312          0

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2011-08-10 09:59 |只看该作者
本帖最后由 jason680 于 2011-08-10 10:00 编辑
cat 1.txt
10 2841312          0
10 2843969          0
10 3546080          0
10 3052191           ...
sunlizhourong 发表于 2011-08-10 09:32


# awk '{n=$1" "$2;if(a[n]==""c++;a[n]+=$3;b[c]=n}END{for(n=0;n++<cprint b[n]"\t"a[b[n]]}' 1.txt
10 2841312        0
10 2843969        0
10 3546080        0
10 3052191        85
10 3052230        3
10 3052210        0
11 2843969        0
11 3546080        0
11 3052191        85
11 3052230        3
11 3052210        0

论坛徽章:
0
7 [报告]
发表于 2011-08-10 10:06 |只看该作者
回复 5# where27


    理想是留一个,但是这种情况出现的概率是0,因为之前我已经处理过了,不会同时出现相同值都是0的

论坛徽章:
0
8 [报告]
发表于 2011-08-10 10:08 |只看该作者
回复 6# jason680


    真的谢谢  可以了

论坛徽章:
0
9 [报告]
发表于 2011-08-10 10:10 |只看该作者
回复 7# sunlizhourong


    但是不太明白具体脚本内容的处理步骤

论坛徽章:
0
10 [报告]
发表于 2011-08-10 10:27 |只看该作者
回复 1# sunlizhourong
  1. awk '$3==0{a[$1$2]=$0;next}{b[$1$2];print}END{for(i in a)if(!(i in b))print a[i]}' file
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP