免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 13002 | 回复: 67
打印 上一主题 下一主题

’求助!!!求助!!!文件匹配输出特定的内容‘ [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-06-15 15:01 |只看该作者 |倒序浏览
本帖最后由 little_joe 于 2016-06-15 16:21 编辑

文件A:
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_000567766.1-1
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        79
        79
        79
        80
        80
        80
        80
        80
        80
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_001341795.1-1
        24
        24
        24
        24
        24
文件B:
BLASTP 2.2.29+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.


Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
"Improving the accuracy of PSI-BLAST protein database searches with

Query= WP_001386572.1-1

Length=21


***** No hits found *****



Lambda      K        H        a         alpha
   0.314    0.134    0.424    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1206911076


Query= WP_000636925.1-1

Length=105
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c...    104   2e-29


>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score =   104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
           +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1   MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56



Lambda      K        H        a         alpha
   0.325    0.135    0.407    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1406358592
Query= WP_000636925.1-1

Length=105
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c...    104   2e-29


>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score =   104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
           +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1   MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56



Lambda      K        H        a         alpha
   0.325    0.135    0.407    0.792     4.96

Gapped
Lambda      K        H        a         alpha    sigma
   0.267   0.0410    0.140     1.90     42.6     43.6

Effective search space used: 1406358592
通过文件A中的WP_000636925.1-1匹配到文件B:Query= WP_000636925.1-1
读取文件A下面的数值,该数值将作为序号查找文件BQuery行即红色行对应的内容
Query行刚开头的8即为第一个字母L的序号,则62,63对应Query行中的KK
输出为Sbjct行即蓝色行中Query找出的KK对应的NK
并且分别计算输出的NK的个数
例如:
N:2
K:2

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-06-15 15:33 |只看该作者
回复 1# little_joe
我有两问题, 不太明白, 请解释下:
1.> 这个问题感觉与文件 A 没啥事, 请说明下必然联系;
2.> 文件A与文件B匹配WP_000636925.1-1后读取文件B下面的Query找到对应的文件A数值62,63在文件B中的位置,即Query行并且以L为8向后读取至红色KK即对应的62,63位并且输出Sbjct下面对应的蓝色NK,并且分别计算找到的所有NK的个数.

下面这个是 Query 行?
Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63

文件A数值62,63在文件B中的位置
这里没看懂, 请解释下...

即Query行并且以L为8向后读取至红色KK即对应的62,63位并且输出Sbjct下面对应的蓝色NK,并且分别计算找到的所有NK的个数
由于前面文件 A 关于 62,63 那里没弄懂, 到这里晕菜了...

哈哈, 我的问题比你还多...




   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
3 [报告]
发表于 2016-06-15 15:45 |只看该作者
即Query行并且以L为8向后读取至红色KK即对应的62,63位并且输出Sbjct下面对应的蓝色NK
以L为8 是啥意思? 大家有看明白的, 能否给提个醒?

论坛徽章:
0
4 [报告]
发表于 2016-06-15 15:53 |只看该作者
不好意思,没说明白,L的序号是8,62,63也是序号,Query后面的8就是第一个L的序号,后面的KK就是序号62,63对应的内容,

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
5 [报告]
发表于 2016-06-15 15:58 |只看该作者
不成, 我理解能力有点弱, 我还是给您顶贴吧...

论坛徽章:
0
6 [报告]
发表于 2016-06-15 16:03 |只看该作者
是的,文件A那个>号是没有的,例子有些问题我在改改,列举的Query行是对的,
就是说通过文件A的ID匹配到文件B中相应的ID,用文件A中的序号找到Query行该序号相对应的内容,例子中是KK,
这时则输出Subject行即下面有蓝色NK的那行,
输出内容即KK对应的NK,
并且输出N:个数
K:个数
谢谢!!!回复 2# sunzhiguolu


   

论坛徽章:
0
7 [报告]
发表于 2016-06-15 16:04 |只看该作者
谦虚,是我描述的原因,我在组织组织语言,谢谢回复 5# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
8 [报告]
发表于 2016-06-16 21:06 |只看该作者
本帖最后由 sunzhiguolu 于 2016-06-16 21:07 编辑

回复 1# little_joe
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_000567766.1-1
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        77
        79
        79
        79
        80
        80
        80
        80
        80
        80
WP_000636925.1-1
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
        63
        62
WP_001341795.1-1
        24
        24
        24
        24
        24

我还是没弄明白, 比如找到文件 A 中 WP_000636925.1-1 下面的数值. 那么 62,63 与 文件 B WP_000636925.1-1 下面的 行的匹配依据是什么, 就是依靠文件 A WP_000636925.1-1 下面的 62,63 挨个与 对应 B 文件的
Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63 进行匹配, 找到的话就将
Query  8   LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
Sbjct  1   MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56
上面这两行的计数分别加1, 这样? 我好像把字母 L 的事还是没有能与匹配的事联系到一起, 对于上述 A, B 文件的完整结果是啥, 弄出来瞧瞧 可能看的更直观些, 不明白我再问...

论坛徽章:
0
9 [报告]
发表于 2016-06-17 00:09 |只看该作者
谢谢您的关注和指导,文件B其实是使用生物学软件做得序列比对跑出来的文件,
图中列出来的就是序列比对后匹配上的序列,Query是之前的查询序列,Sbjct  是在数据库中找到的相对应的序列,序列中的每一个字母代表了一种氨基酸,文件A:62,63其实是序列Query行的序号,比如在事例中KK的序号即为62,63,现在需要统计Query行序号对应的Sbjct行的氨基酸种类及其个数例如62,63(KK)对应的就是Sbjct 行的NK,
匹配序号可以读取Query,第一个数字8即为第一个氨基酸(图中为L)的序号后面以此类推为9(L)、10(F)、11(T) 一直读取至62(K),63(K),此时输出KK对应的Sbjct行的NK并且进行计数,具体的文件比较大,我可以截取部分给您看看,谢谢! 回复 8# sunzhiguolu


   

论坛徽章:
0
10 [报告]
发表于 2016-06-17 10:19 |只看该作者
本帖最后由 little_joe 于 2016-06-17 10:22 编辑

A.word (785 Bytes, 下载次数: 8) B.word (1.99 MB, 下载次数: 6) 这是两个文件A和B,是重新做的文件,比较小,应该好找一些,您看看能不能够帮助您理解,麻烦了回复 2# sunzhiguolu


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP