免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2913 | 回复: 13
打印 上一主题 下一主题

这个问题还没有解决呢,请高手帮下忙了 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-24 12:47 |只看该作者 |倒序浏览
本帖最后由 超级细菌 于 2011-03-24 21:26 编辑

>2010
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
>2009
------------------------------------------------------------
------------TCCAGAATGTACAATGGTTATGCAGGTGGTTTTGAAGTGCAGGTGATC
CTCGCGGGGAACGCGTTCA--CCGCCGGAAAAATTATATTTGCAGCAGTCCCACCAAATT
T-----------------TCCAACTGAAGGCTTGAGTCCCAGCC---AGGTCACTATGTT
CCCCCATATAATAGTGGATGTTAGGCAATT-------GGAACCTGTGTT-GATCCC----
-------------------CTTACCTGAT-------GTTAGGAATAATTTCTATCACTAT
AATCAGTCAAATGATTCTACCATTA----------AATTGATAGCAATGCTGTATACACC
ACTTAGGGCTAATAATGCTGGG--------------GATGATGTCTTCACAGTCTCTTGA
以上是我比对完之后的序列,不止这两条。我的目的是去掉中间--------较多的那一段区域,好像是设定一个什么值就可以解决的,请高手指教,谢谢!
比如这两条序列中的最后一行那块GGG--------------GAT
                                             GGG--------------GAT,像这种情况就是--比较多的,也不是说不能含有--标记,只是不能太多,我不知道如何设定这个值。我觉得用匹配的话肯定会比较麻烦。

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
2 [报告]
发表于 2011-03-24 13:08 |只看该作者
awk '{print gsub("-","-",$0)}' file
可以得到每行有几个“-”

论坛徽章:
0
3 [报告]
发表于 2011-03-24 13:36 |只看该作者
回复 2# yinyuemi


    你好,感谢你的回答,但是我还不是很明白,你的代码中的gsub,awk都是什么意思啊?我还没学到这么高深的程度,还有其他的方法吗?

论坛徽章:
0
4 [报告]
发表于 2011-03-24 13:50 |只看该作者
回复 2# yinyuemi


    你好,我刚在终端运行了一下你说的那个命令,也显示了我每行有多少个--符号,但是这并不能达到我的最终目的啊?谢谢!

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
5 [报告]
发表于 2011-03-24 13:54 |只看该作者
perl的:

perl -ane  '{@field=split(/-/,$_); if ($#field<num) {print}}'

论坛徽章:
0
6 [报告]
发表于 2011-03-24 14:00 |只看该作者
回复 5# yinyuemi


    你好,我再补充一下我的问题,就是假如连续出现了比方说20个“-”符号,那么我就要把含有20个“-”符号的这些列全都删掉,因为有的序列在这20个“-”这块区域是碱基,不是说只找到了就可以了,据说,好像只要设定一个什么值就能解决,谢谢!

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
7 [报告]
发表于 2011-03-24 14:02 |只看该作者
本帖最后由 yinyuemi 于 2011-03-24 14:04 编辑

回复 6# 超级细菌


    5楼的代码应该可以满足你的要求,把num换成20,试试

如果只删除20个“-”的,把“<” 改成 "!="

论坛徽章:
0
8 [报告]
发表于 2011-03-24 14:24 |只看该作者
回复 7# yinyuemi


    这个好像不行,结果是,运行完直接把一行全都删掉了,也就是说删掉的东西多了

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
9 [报告]
发表于 2011-03-24 14:33 |只看该作者
回复 8# 超级细菌


    这个……,perl还在学习中,我试试awk能解决不?

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
10 [报告]
发表于 2011-03-24 14:38 |只看该作者
回复 8# 超级细菌


    是这个意思么?
  1. awk -v FS= -v l=20 '/^>/{print;next}gsub("-","-",$0)==l{gsub("-","",$0)}1'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP