免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 13153 | 回复: 32
打印 上一主题 下一主题

’求助!!!求助!!!文件匹配输出特定的内容‘ [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-06-15 15:01 |显示全部楼层 |倒序浏览
本帖最后由 little_joe 于 2016-06-15 16:21 编辑

文件A:
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_000567766.1-1
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        79
        79
        79
        80
        80
        80
        80
        80
        80
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_001341795.1-1
        24
        24
        24
        24
        24
文件B:
BLASTP 2.2.29+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.


Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
"Improving the accuracy of PSI-BLAST protein database searches with

Query= WP_001386572.1-1

Length=21


***** No hits found *****



Lambda      K        H        a         alpha
   0.314    0.134    0.424    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1206911076


Query= WP_000636925.1-1

Length=105
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c...    104   2e-29


>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score =   104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
           +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1   MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56



Lambda      K        H        a         alpha
   0.325    0.135    0.407    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1406358592
Query= WP_000636925.1-1

Length=105
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c...    104   2e-29


>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score =   104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
           +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1   MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56



Lambda      K        H        a         alpha
   0.325    0.135    0.407    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1406358592
通过文件A中的WP_000636925.1-1匹配到文件B:Query= WP_000636925.1-1
读取文件A下面的数值,该数值将作为序号查找文件BQuery行即红色行对应的内容
Query行刚开头的8即为第一个字母L的序号,则62,63对应Query行中的KK
输出为Sbjct行即蓝色行中Query找出的KK对应的NK
并且分别计算输出的NK的个数
例如:
N:2
K:2

论坛徽章:
0
2 [报告]
发表于 2016-06-15 15:53 |显示全部楼层
不好意思,没说明白,L的序号是8,62,63也是序号,Query后面的8就是第一个L的序号,后面的KK就是序号62,63对应的内容,

论坛徽章:
0
3 [报告]
发表于 2016-06-15 16:03 |显示全部楼层
是的,文件A那个>号是没有的,例子有些问题我在改改,列举的Query行是对的,
就是说通过文件A的ID匹配到文件B中相应的ID,用文件A中的序号找到Query行该序号相对应的内容,例子中是KK,
这时则输出Subject行即下面有蓝色NK的那行,
输出内容即KK对应的NK,
并且输出N:个数
K:个数
谢谢!!!回复 2# sunzhiguolu


   

论坛徽章:
0
4 [报告]
发表于 2016-06-15 16:04 |显示全部楼层
谦虚,是我描述的原因,我在组织组织语言,谢谢回复 5# sunzhiguolu


   

论坛徽章:
0
5 [报告]
发表于 2016-06-17 00:09 |显示全部楼层
谢谢您的关注和指导,文件B其实是使用生物学软件做得序列比对跑出来的文件,
图中列出来的就是序列比对后匹配上的序列,Query是之前的查询序列,Sbjct  是在数据库中找到的相对应的序列,序列中的每一个字母代表了一种氨基酸,文件A:62,63其实是序列Query行的序号,比如在事例中KK的序号即为62,63,现在需要统计Query行序号对应的Sbjct行的氨基酸种类及其个数例如62,63(KK)对应的就是Sbjct 行的NK,
匹配序号可以读取Query,第一个数字8即为第一个氨基酸(图中为L)的序号后面以此类推为9(L)、10(F)、11(T) 一直读取至62(K),63(K),此时输出KK对应的Sbjct行的NK并且进行计数,具体的文件比较大,我可以截取部分给您看看,谢谢! 回复 8# sunzhiguolu


   

论坛徽章:
0
6 [报告]
发表于 2016-06-17 10:19 |显示全部楼层
本帖最后由 little_joe 于 2016-06-17 10:22 编辑

A.word (785 Bytes, 下载次数: 8) B.word (1.99 MB, 下载次数: 6) 这是两个文件A和B,是重新做的文件,比较小,应该好找一些,您看看能不能够帮助您理解,麻烦了回复 2# sunzhiguolu


   

论坛徽章:
0
7 [报告]
发表于 2016-06-17 15:08 |显示全部楼层
本帖最后由 little_joe 于 2016-06-17 15:09 编辑

您说的很关键,再次感谢, 这样的结果是不匹配的,我们可以把这行Query行看作是一个序号区间[77,133]我们要找的134并不在这个区间内,所以不输出结果, 图中的Query和下面紧跟着的Sbjct是一个对应的关系,主要是想通过Query序号区间判断文件A的序号在不在该区间内,在则找到该序号对应的字母(即氨基酸),此时需要输出的是Query行对应的字母对应的Sbjct 行的字母(输出),并且是对该对应的字母进行计数的。举例如数字Query:123456789
                                                                        Sbjct  :235698725我们找到了4则输出6并且计数,还有可能是存在—[即序列中插入了空格]时需要避开不读,
比如Query:12-3456789
      Sbjct   2356987250 此时Query行照样看作是有9个序号,但Sbjct输出时应该输出9,也就是说其实就是找Query对应的Sbjct的内容并计数。 这种状况也有可能存在,就是一行排不下了,会在起一行,比如匹配到了该图中的113位则
       Query  112  SMRRKRILRVYLV  124
                         SMRRKRILRVYLV
       Sbjct  61     SMRRKRILRVYLV  73
匹配该Query113位的M输出对应的Sbjct的M并且计数加1。下次若在次匹配到M则M再加1,循环累计。
可以再举例如:Query  1 ASDFGHOKL 9
                    Sbjct   4 ZVLUTVLNL 13
文件A数值为5,1<5>9则找到Query行对应的G,输出T,并对T计数;
再如:
                    Query  1 AS-DFGHOKL 9
                    Sbjct   4 ZVLUTVLNL 13
此时Query行由于插入-,G对应为V但是G的序号依然是5,因为-不计数
您看看能不能更好的理解,再次感谢
                    回复 11# sunzhiguolu


   

论坛徽章:
0
8 [报告]
发表于 2016-06-17 16:41 |显示全部楼层
图中所示的两个Query的序号是连续的,第一个Query最后的序号是111,第二个Query的序号则为112,它俩是连续的,文件B有可能会出现这种情况。
它俩都找到M,Query的M是113对应的字母,而Sbjct的M则是QueryM对应的M,只是要统计Sbjct(此示例是M)中的个数和种类回复 13# sunzhiguolu


   

论坛徽章:
0
9 [报告]
发表于 2016-06-17 17:26 |显示全部楼层
谢谢谢谢,用文件A匹配文件B可以吗?回复 15# sunzhiguolu


   

论坛徽章:
0
10 [报告]
发表于 2016-06-17 17:31 |显示全部楼层
文件A不大几兆,文件B比较大300兆左右的,麻烦您了回复 17# sunzhiguolu


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP