免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3313 | 回复: 18

[文本处理] 文本处理 [复制链接]

论坛徽章:
0
发表于 2018-05-15 15:08 |显示全部楼层
本帖最后由 elaine2017 于 2018-05-15 15:10 编辑

有个以制表符分隔的数据。格式如下:
aa 111 222 123
aa 122 111 123
bb 111 222 -123
bb 222 111 -123
cc 222 111 75
cc 111 111 75
cc 333 111 75
cc 222 111 -75
cc 444 111 -75
cc 111 444 -75
...
...
...
第四列,如果取绝对值,那么相等的数是4个,否则就丢掉,所以上述数据最后想找的就是
aa 111 222 123
aa 122 111 123
bb 111 222 -123
bb 222 111 -123


请问想达到这个目的应该怎么写脚本啊?

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-05-15 16:08 |显示全部楼层
本帖最后由 wh7211 于 2018-05-15 16:11 编辑

回复 1# elaine2017


  1. awk '{a=sqrt($4*$4);if(!b[a]++&&c==4){print d;d=""};c=b[a];d=d?d"\n"$0:$0}END{if(c==4){print d}}' file
复制代码

论坛徽章:
0
发表于 2018-05-15 16:29 |显示全部楼层
本帖最后由 elaine2017 于 2018-05-15 16:30 编辑

回复 2# wh7211

你这个是不是不太对啊

1.PNG

2.PNG

我多加了4行就没用了?

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
发表于 2018-05-15 17:36 |显示全部楼层
  1. awk '{x=$4>=0?$4:-$4;a[x]++;b[x","n++%4]=$0}END{for(i in a){if(a[i]==4){for(j=0;j<4;j++)print b[i","j]}}}' 1.txt
复制代码

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-05-15 17:54 |显示全部楼层
回复 3# elaine2017


  1. awk '{a=sqrt($4*$4);if(!b[a]++){if(c==4){print d;d=""}else{d=""}};c=b[a];d=d?d"\n"$0:$0}END{if(c==4){print d}}' file
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2018-05-16 09:11 |显示全部楼层
try:
  1. awk 'NR==FNR{a[$4^2]++;next}a[$4^2]==4' urfile urfile
复制代码

论坛徽章:
0
发表于 2018-05-16 09:22 |显示全部楼层
回复 6# blackold
这个不太对吧,最后结果只有8条,不可能这么点的

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2018-05-16 09:26 |显示全部楼层
回复 7# elaine2017

数据说话。

论坛徽章:
0
发表于 2018-05-16 09:27 |显示全部楼层
回复 4# Shell_HAT

结果不对啊

论坛徽章:
0
发表于 2018-05-16 09:34 |显示全部楼层
回复 8# blackold

真正的数据格式是这样的:这里展示了4行,每一行19列
E00548:177:HKH53CCXY:4:2101:31629:73229 ATGCGTACCACA    TACCAGCAGTTC    163     chr21   5013083 0       138M    =       5013132 187     CACACAGGCACACTACGTGCACACATACTCACACCACACACATACAGCCTTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGT      JJJJJJJJJJJJJJJJJFF<JJJJJJJJJJJJJJJJJJJJJJJJFJJFJJAJJJAJJJJJJJJJAJ<JJJJ<JFJFJFJJJJJJJJ<7J-777FFF-A7AFJFJJAJJ<JFJJJJJJJJJJJJJJ<JAA777FJJ-F)      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,-44250277,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2214:23957:16516 TACCAGCAGTTC    ATGCGTACCACA    99      chr21   5013083 0       138M    =       5013132 187     CACACAGGCACACTACGTGCACACATACTCACACCACACACATACAGCCTTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGT      JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJFJF      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,-44250277,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2101:31629:73229 ATGCGTACCACA    TACCAGCAGTTC    83      chr21   5013132 0       138M    =       5013083 -187    TTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGTTCCAGACACTTCCAGGGTTGGGGAGGGACGGCCACACCTCAGCCACAGG      7-FFJFFJJJFFF7F-F7FJJJJJJFAA-JJ7<JJJAJFA7-JJJFFJJFF<JJJAAJJJFFJJJJJJJJJJJJJJJFJJ<JJJFJJF7-JJJFFJJJFJJJJ<JJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJ      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,+44250228,138M,0;    RG:Z:L004

E00548:177:HKH53CCXY:4:2214:23957:16516 TACCAGCAGTTC    ATGCGTACCACA    147     chr21   5013132 0       138M    =       5013083 -187    TTTTCTTCACACGTCTGAATCCTGATTGTCAGAGCAGCCACTTTTGGACTCAGCGGATGGGTCCCCTCTGGGGCTGATGGGCCGGGTGTTCCAGACACTTCCAGGGTTGGGGAGGGACGGCCACACCTCAGCCACAGG      JJJJJJAJAFAJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJAJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ      NM:i:0  MD:Z:138        AS:i:138        XS:i:138        XA:Z:chr21,+44250228,138M,0;    RG:Z:L004



我想要的是第11列,取绝对值后连着相同的数字是4或者8,即这里的187、187、-187、-187
然后用了你的代码:
$ awk 'NR==FNR{a[$11^2]++;next}a[$11^2]==4' whole_duplex_2.txt whole_duplex_2.txt|wc -l
0

结果为0?

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP