免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2290 | 回复: 8

[文本处理] 如何将有重叠的序列合并 [复制链接]

论坛徽章:
0
发表于 2018-05-08 09:41 |显示全部楼层
A文件分别为序列号,起始位置和终止位置,如何将有重叠的序列合并为B文件
Chr01    530   613
Chr01    552   646
Chr01    1605  1765
Chr01    1702  1929
Chr01    2276  2387  
Chr02    2347  2405
Chr02    4551  4631
Chr06    4567  4639
Chr06    4837  5063
Chr06    4862  5038
B文件
Chr01    530   646
Chr01    1605  1929
Chr01    2276  2387
Chr02    2347  2405
Chr02    4551  4631
Chr06    4567  4639
Chr06    4837  5063
哪个大神帮忙解答下?

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-10-11 06:20:0015-16赛季CBA联赛之山东
日期:2016-05-28 18:18:5615-16赛季CBA联赛之新疆
日期:2017-04-12 22:55:4715-16赛季CBA联赛之青岛
日期:2017-06-26 18:30:0315-16赛季CBA联赛之四川
日期:2017-09-04 12:27:0315-16赛季CBA联赛之福建
日期:2018-02-09 14:28:3315-16赛季CBA联赛之同曦
日期:2018-04-17 12:43:3415-16赛季CBA联赛之浙江
日期:2018-07-14 13:27:4015-16赛季CBA联赛之吉林
日期:2018-09-13 15:48:2915-16赛季CBA联赛之新疆
日期:2016-05-07 05:05:3215-16赛季CBA联赛之八一
日期:2016-03-14 12:32:06程序设计版块每日发帖之星
日期:2015-12-12 06:20:00
发表于 2018-05-08 10:01 |显示全部楼层
合并规则??

论坛徽章:
0
发表于 2018-05-08 10:14 |显示全部楼层
回复 2# baby_神

应该是先对区间排序,相邻的判断是否重叠,重叠的合并区间。

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-05-08 10:53 |显示全部楼层
本帖最后由 wh7211 于 2018-05-08 10:56 编辑

回复 1# wd_my


  1. awk 'function p(){if(b&&c&&d){print b" "c" "d>"B"};b=$1;c=$2;d=$3};!a[$1]++{p();next}{if($2>=c&&$2<=d||$3>=c&&$3<=d){c=$2>=c?c:$2;d=$3<=d?d:$3}else{p()}}END{p()}' A

  2. cat B
  3. Chr01 530 646
  4. Chr01 1605 1929
  5. Chr01 2276 2387
  6. Chr02 2347 2405
  7. Chr02 4551 4631
  8. Chr06 4567 4639
  9. Chr06 4837 5063
复制代码

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
发表于 2018-05-08 11:09 |显示全部楼层
  1. awk '!a[$1]{print d;a[$1]=$1;b[$1]=$2;c[$1]=$3;d=$0};a[$1]&&$2>b[$1]&&$2<c[$1]&&$3>c[$1]{c[$1]=$3;d=$0};a[$1]&&$2>c[$1]{print a[$1],b[$1],c[$1];a[$1]=$1;b[$1]=$2;c[$1]=$3;d=$0}END{print d}' aa.log

  2. Chr01 530 646
  3. Chr01 1605 1929
  4. Chr01    2276  2387  
  5. Chr02 2347 2405
  6. Chr02    4551  4631
  7. Chr06 4567 4639
  8. Chr06    4837  5063
复制代码

论坛徽章:
0
发表于 2018-05-22 16:39 |显示全部楼层
回复 4# wh7211
你好,输出并无反应

论坛徽章:
0
发表于 2018-05-22 16:50 |显示全部楼层
回复 4# wh7211

你好,如果我的数据后面多了个限定条件,又该如何将重叠的合并呢?A文件4列,序列ID,起始位置,终止位置,注释。目的是将同一注释重叠部分合并

Chr01    530   613   Gypsy
Chr01    552   646   Gypsy
Chr01    1605  1765  Gypsy
Chr01    1702  1929   Gypsy
Chr01    2276  2387    BEL
Chr02    2347  2405    BEL
Chr02    4551  4631    BEL
Chr06    4567  4639    DIRS
Chr06    4837  5063    DIRS
Chr06    4862  5038    DIRS
B文件
Chr01    530   646   Gypsy
Chr01    1605  1929  Gypsy
Chr01    2276  2387   BEL
Chr02    2347  2405   BEL
Chr02    4551  4631   BEL
Chr06    4567  4639   DIRS
Chr06    4837  5063   DIRS

希望大神帮忙看下,感激

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-05-22 17:42 |显示全部楼层
回复 6# wd_my


按你的需求生成了B文件,用命令『cat B』查看输出结果

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-05-23 12:01 |显示全部楼层
回复 7# wd_my


  1. cat A
  2. Chr01    530   613   Gypsy
  3. Chr01    552   646   Gypsy
  4. Chr01    1605  1765  Gypsy
  5. Chr01    1702  1929   Gypsy
  6. Chr01    2276  2387    BEL
  7. Chr02    2347  2405    BEL
  8. Chr02    4551  4631    BEL
  9. Chr06    4567  4639    DIRS
  10. Chr06    4837  5063    DIRS
  11. Chr06    4862  5038    DIRS
  12. Chr06    4864  5099    BEL

  13. awk 'function p(){if(b&&c&&d&&e){print b" "c" "d" "e>"B"};b=$1;c=$2;d=$3;e=$4};!a[$1]++{p();next}{if($2>=c&&$2<=d&&$4==e||$3>=c&&$3<=d&&$4==e){c=$2>=c?c:$2;d=$3<=d?d:$3}else{p()}}END{p()}' A

  14. cat B
  15. Chr01 530 646 Gypsy
  16. Chr01 1605 1929 Gypsy
  17. Chr01 2276 2387 BEL
  18. Chr02 2347 2405 BEL
  19. Chr02 4551 4631 BEL
  20. Chr06 4567 4639 DIRS
  21. Chr06 4837 5063 DIRS
  22. Chr06 4864 5099 BEL
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP