忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 1391 | 回复: 18

[文本处理] 文本处理 [复制链接]

论坛徽章:
0
发表于 2018-05-15 15:08 |显示全部楼层
本帖最后由 elaine2017 于 2018-05-15 15:10 编辑

有个以制表符分隔的数据。格式如下:
aa 111 222 123
aa 122 111 123
bb 111 222 -123
bb 222 111 -123
cc 222 111 75
cc 111 111 75
cc 333 111 75
cc 222 111 -75
cc 444 111 -75
cc 111 444 -75
...
...
...
第四列,如果取绝对值,那么相等的数是4个,否则就丢掉,所以上述数据最后想找的就是
aa 111 222 123
aa 122 111 123
bb 111 222 -123
bb 222 111 -123


请问想达到这个目的应该怎么写脚本啊?

论坛徽章:
9
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:482016科比退役纪念章
日期:2018-01-19 12:45:59CU十四周年纪念徽章
日期:2018-03-16 13:09:5315-16赛季CBA联赛之北京
日期:2018-03-23 15:24:0715-16赛季CBA联赛之辽宁
日期:2018-04-02 14:03:3915-16赛季CBA联赛之深圳
日期:2018-05-04 21:53:0815-16赛季CBA联赛之广东
日期:2018-05-14 09:52:42CU十四周年纪念徽章
日期:2018-05-15 11:36:38
发表于 2018-05-15 16:08 |显示全部楼层
本帖最后由 wh7211 于 2018-05-15 16:11 编辑

回复 1# elaine2017


  1. awk '{a=sqrt($4*$4);if(!b[a]++&&c==4){print d;d=""};c=b[a];d=d?d"\n"$0:$0}END{if(c==4){print d}}' file
复制代码

论坛徽章:
0
发表于 2018-05-15 16:29 |显示全部楼层
本帖最后由 elaine2017 于 2018-05-15 16:30 编辑

回复 2# wh7211

你这个是不是不太对啊

1.PNG

2.PNG

我多加了4行就没用了?

论坛徽章:
105
ChinaUnix元老
日期:2015-02-02 08:55:39CU十二周年纪念徽章
日期:2015-02-02 08:55:50午马
日期:2014-04-30 10:30:44双子座
日期:2013-08-20 08:22:52双鱼座
日期:2013-08-20 17:47:58丑牛
日期:2013-09-13 13:10:45水瓶座
日期:2013-09-13 21:15:33寅虎
日期:2013-09-25 11:23:51戌狗
日期:2013-09-26 13:21:25丑牛
日期:2013-09-26 14:23:42亥猪
日期:2013-09-27 17:42:00亥猪
日期:2013-09-27 17:45:14
发表于 2018-05-15 17:36 |显示全部楼层
  1. awk '{x=$4>=0?$4:-$4;a[x]++;b[x","n++%4]=$0}END{for(i in a){if(a[i]==4){for(j=0;j<4;j++)print b[i","j]}}}' 1.txt
复制代码

论坛徽章:
9
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:482016科比退役纪念章
日期:2018-01-19 12:45:59CU十四周年纪念徽章
日期:2018-03-16 13:09:5315-16赛季CBA联赛之北京
日期:2018-03-23 15:24:0715-16赛季CBA联赛之辽宁
日期:2018-04-02 14:03:3915-16赛季CBA联赛之深圳
日期:2018-05-04 21:53:0815-16赛季CBA联赛之广东
日期:2018-05-14 09:52:42CU十四周年纪念徽章
日期:2018-05-15 11:36:38
发表于 2018-05-15 17:54 |显示全部楼层
回复 3# elaine2017


  1. awk '{a=sqrt($4*$4);if(!b[a]++){if(c==4){print d;d=""}else{d=""}};c=b[a];d=d?d"\n"$0:$0}END{if(c==4){print d}}' file
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2018-05-16 09:11 |显示全部楼层
try:
  1. awk 'NR==FNR{a[$4^2]++;next}a[$4^2]==4' urfile urfile
复制代码

论坛徽章:
0
发表于 2018-05-16 09:22 |显示全部楼层
回复 6# blackold
这个不太对吧,最后结果只有8条,不可能这么点的

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2018-05-16 09:26 |显示全部楼层
回复 7# elaine2017

数据说话。

论坛徽章:
0
发表于 2018-05-16 09:27 |显示全部楼层
回复 4# Shell_HAT

结果不对啊

论坛徽章:
0
发表于 2018-05-16 09:34 |显示全部楼层
回复 8# blackold

真正的数据格式是这样的:这里展示了4行,每一行19列
E00548:177:HKH53CCXY:4:2101:31629:73229 ATGCGTACCACA    TACCAGCAGTTC    163     chr21   5013083 0       138M    =       5013132 187     CACACAGGCACACTACGTGCACACATACTCACACCACACACATACAGCCTTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGT      JJJJJJJJJJJJJJJJJFF<JJJJJJJJJJJJJJJJJJJJJJJJFJJFJJAJJJAJJJJJJJJJAJ<JJJJ<JFJFJFJJJJJJJJ<7J-777FFF-A7AFJFJJAJJ<JFJJJJJJJJJJJJJJ<JAA777FJJ-F)      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,-44250277,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2214:23957:16516 TACCAGCAGTTC    ATGCGTACCACA    99      chr21   5013083 0       138M    =       5013132 187     CACACAGGCACACTACGTGCACACATACTCACACCACACACATACAGCCTTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGT      JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJFJF      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,-44250277,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2101:31629:73229 ATGCGTACCACA    TACCAGCAGTTC    83      chr21   5013132 0       138M    =       5013083 -187    TTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGTTCCAGACACTTCCAGGGTTGGGGAGGGACGGCCACACCTCAGCCACAGG      7-FFJFFJJJFFF7F-F7FJJJJJJFAA-JJ7<JJJAJFA7-JJJFFJJFF<JJJAAJJJFFJJJJJJJJJJJJJJJFJJ<JJJFJJF7-JJJFFJJJFJJJJ<JJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJ      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,+44250228,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2214:23957:16516 TACCAGCAGTTC    ATGCGTACCACA    147     chr21   5013132 0       138M    =       5013083 -187    TTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGTTCCAGACACTTCCAGGGTTGGGGAGGGACGGCCACACCTCAGCCACAGG      JJJJJJAJAFAJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJAJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,+44250228,138M,0;    RG:Z:L004



我想要的是第11列,取绝对值后连着相同的数字是4或者8,即这里的187、187、-187、-187
然后用了你的代码:
$ awk 'NR==FNR{a[$11^2]++;next}a[$11^2]==4' whole_duplex_2.txt whole_duplex_2.txt|wc -l
0

结果为0?

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP