免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2773 | 回复: 7
打印 上一主题 下一主题

[文本处理] awk计数问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-10-13 10:25 |只看该作者 |倒序浏览
本帖最后由 iamline 于 2015-10-13 10:26 编辑

本人有两个文件, 区间文件region, 待计数的文件results.bed:

more region
1       30428
30429   60856
60857   91284
91285   121712
121713  152140
152141  182568
182569  212996


more results.bed

Chr1    3106    3286
Chr1    4541    4594
Chr1    4596    4597
Chr1    4626    4631
Chr1    5941    5981
Chr1    6519    6521
Chr1    6522    6524
Chr1    36233   36235
Chr1    37821   38305
Chr1    38311   38315
Chr1    44929   45175
Chr1    46046   46054
Chr1    46071   46195
Chr1    46399   46452
Chr1    88803   88863
Chr1    88876   88887
Chr1    91276   91426
Chr1    92272   92305
Chr1    93387   93697
Chr1    93698   93699


根据坐标关联2个文件,如果results.bed行的$2、$3落在region某个区间(即$1、$2),则认为是该区间的行,累计求得落在region每个区间的行数总和……

寻求各位大虾的帮助!

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
2 [报告]
发表于 2015-10-13 10:58 |只看该作者
本帖最后由 tc1989tc 于 2015-10-13 12:39 编辑
  1. awk 'NR==FNR{a[$1]=$2;next} { for (i in a){if (strtonum(i)<=$2 && $3<=strtonum(a[i])){++ b[i"-"a[i]];next}}} END{for (i in b){printf "%-20s %d\n", i,b[i]}}' a.txt b.txt |sort
复制代码

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
3 [报告]
发表于 2015-10-13 11:16 |只看该作者
本帖最后由 Herowinter 于 2015-10-13 11:22 编辑

回复 1# iamline

如果你确定result文件里的坐标不会跨区间的话可以这样.

  1. awk 'NR==FNR{a[++n]=$1;b[n]=$0;next} {i=1;while($2>=a[i])i++;c[i-1]++} END{for(i=1;i<=n;i++)print b[i]"\t"c[i]}' region results.bed
  2. 1       30428   7
  3. 30429   60856   7
  4. 60857   91284   3
  5. 91285   121712  3
  6. 121713  152140
  7. 152141  182568
  8. 182569  212996
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
4 [报告]
发表于 2015-10-13 14:12 |只看该作者
回复 1# iamline
  1. awk 'FNR==NR{a[++n]=$1" "$2;next;}{for(j=1;j<=n;j++) {split(a[j],b," ");if($2>b[1]&&$2<b[2]&&$3>b[1]$$$3<b[2]) c[a[j]]++}}END{for(i=1;i<=n;i++) print a[i],c[a[i]]}' file1 file2
复制代码

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
5 [报告]
发表于 2015-10-13 16:56 |只看该作者
多谢LikeLx指出错误,

这一行Chr1    91276   91426跨越了两个区间
60857   91284
91285   121712
算落在第一个区间不大好, 改了下代码.

  1. awk 'NR==FNR{a[++n]=$1;b[n]=$0;next} {i=1;while($2>=a[i])i++;if($3<=a[i])c[i-1]++} END{for(i=1;i<=n;i++)print b[i]"\t"c[i]}' region results.bed
  2. 1       30428   7
  3. 30429   60856   7
  4. 60857   91284   2
  5. 91285   121712  3
  6. 121713  152140
  7. 152141  182568
  8. 182569  212996
复制代码

论坛徽章:
0
6 [报告]
发表于 2015-10-14 10:48 |只看该作者
回复 2# tc1989tc


    谢谢啊,大侠高人!!

论坛徽章:
0
7 [报告]
发表于 2015-10-14 11:42 |只看该作者
回复 3# Herowinter

谢谢大侠,写法有点特别啊,我看了好久
   

论坛徽章:
0
8 [报告]
发表于 2015-10-14 15:00 |只看该作者
回复 4# zxy877298415


    谢谢大侠的帮助,不胜感激!!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP