论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2016-06-15 15:01 |显示全部楼层 |倒序浏览

本帖最后由 little_joe 于 2016-06-15 16:21 编辑

文件A:
WP_000636925.1-1
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
WP_000567766.1-1
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
79
79
79
80
80
80
80
80
80
WP_000636925.1-1
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
63
62
WP_001341795.1-1
24
24
24
24
24
文件B:
BLASTP 2.2.29+

Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.

Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
"Improving the accuracy of PSI-BLAST protein database searches with

Query= WP_001386572.1-1

Length=21

***** No hits found *****

Lambda    K       H       a       alpha
0.314 0.134 0.424 0.792    4.96

Gapped
Lambda    K       H       a       alpha sigma
0.267 0.0410 0.140    1.90    42.6    43.6

Effective search space used: 1206911076

Query= WP_000636925.1-1

Length=105
                                                                  Score    E
Sequences producing significant alignments:                         (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c... 104 2e-29

>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score = 104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8 LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
         +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1 MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56

Lambda    K       H       a       alpha
0.325 0.135 0.407 0.792    4.96

Gapped
Lambda    K       H       a       alpha sigma
0.267 0.0410 0.140    1.90    42.6    43.6

Effective search space used: 1406358592
Query= WP_000636925.1-1

Length=105
                                                                  Score    E
Sequences producing significant alignments:                         (Bits)  Value

lcl|CU928161.2_prot_CAR03545.1_2173  [gene=ECS88_2260] [protein=c... 104 2e-29

>lcl|CU928161.2_prot_CAR03545.1_2173 [gene=ECS88_2260] [protein=conserved hypothetical protein] [protein_id=CAR03545.1]
[location=2240570..2240740]
Length=56

Score = 104 bits (260),  Expect = 2e-29, Method: Compositional matrix adjust.
Identities = 49/56 (88%), Positives = 52/56 (93%), Gaps = 0/56 (0%)

Query  8 LLFTIMRSLYLKIRFPSDLRSINALNYLQVPSIDWSDSGYVQHFINVIEKMLTRKK  63
         +LFTIMRSLYLK RFPSDL+SINALNYLQVPSIDWSDSGY+QHFINVIEKM T  K
Sbjct  1 MLFTIMRSLYLKSRFPSDLKSINALNYLQVPSIDWSDSGYIQHFINVIEKMPTTNK  56

Lambda    K       H       a       alpha
0.325 0.135 0.407 0.792    4.96

Gapped
Lambda    K       H       a       alpha sigma
0.267 0.0410 0.140    1.90    42.6    43.6

Effective search space used: 1406358592
通过文件A中的WP_000636925.1-1匹配到文件B：Query= WP_000636925.1-1
读取文件A下面的数值，该数值将作为序号查找文件BQuery行即红色行对应的内容
Query行刚开头的8即为第一个字母L的序号，则62,63对应Query行中的KK
输出为Sbjct行即蓝色行中Query找出的KK对应的NK
并且分别计算输出的NK的个数
例如：
N:2
K:2

文库|博客

little_joe

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2016-06-15 15:53 |显示全部楼层

不好意思，没说明白，L的序号是8，62,63也是序号，Query后面的8就是第一个L的序号，后面的KK就是序号62,63对应的内容，

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2016-06-15 16:03 |显示全部楼层

是的，文件A那个>号是没有的，例子有些问题我在改改，列举的Query行是对的，
就是说通过文件A的ID匹配到文件B中相应的ID，用文件A中的序号找到Query行该序号相对应的内容，例子中是KK,
这时则输出Subject行即下面有蓝色NK的那行，
输出内容即KK对应的NK，
并且输出N:个数
K：个数
谢谢！！！回复 2# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2016-06-15 16:04 |显示全部楼层

谦虚，是我描述的原因，我在组织组织语言，谢谢回复 5# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2016-06-17 00:09 |显示全部楼层

谢谢您的关注和指导，文件B其实是使用生物学软件做得序列比对跑出来的文件，

图中列出来的就是序列比对后匹配上的序列，Query是之前的查询序列，Sbjct 是在数据库中找到的相对应的序列，序列中的每一个字母代表了一种氨基酸，文件A：62,63其实是序列Query行的序号，比如在事例中KK的序号即为62，63，现在需要统计Query行序号对应的Sbjct行的氨基酸种类及其个数例如62，63（KK）对应的就是Sbjct 行的NK,
匹配序号可以读取Query，第一个数字8即为第一个氨基酸（图中为L）的序号后面以此类推为9（L）、10(F)、11(T) 一直读取至62（K）,63(K),此时输出KK对应的Sbjct行的NK并且进行计数，具体的文件比较大，我可以截取部分给您看看，谢谢！ 回复 8# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2016-06-17 10:19 |显示全部楼层

本帖最后由 little_joe 于 2016-06-17 10:22 编辑

A.word (785 Bytes, 下载次数: 8)

B.word (1.99 MB, 下载次数: 6) 这是两个文件A和B,是重新做的文件，比较小，应该好找一些，您看看能不能够帮助您理解，麻烦了回复 2# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2016-06-17 15:08 |显示全部楼层

本帖最后由 little_joe 于 2016-06-17 15:09 编辑

您说的很关键，再次感谢，

这样的结果是不匹配的，我们可以把这行Query行看作是一个序号区间[77,133]我们要找的134并不在这个区间内，所以不输出结果，

图中的Query和下面紧跟着的Sbjct是一个对应的关系，主要是想通过Query序号区间判断文件A的序号在不在该区间内，在则找到该序号对应的字母（即氨基酸），此时需要输出的是Query行对应的字母对应的Sbjct 行的字母（输出），并且是对该对应的字母进行计数的。举例如数字Query：123456789
Sbjct ：235698725我们找到了4则输出6并且计数，还有可能是存在—[即序列中插入了空格]时需要避开不读，
比如Query：12-3456789
Sbjct 2356987250 此时Query行照样看作是有9个序号，但Sbjct输出时应该输出9，也就是说其实就是找Query对应的Sbjct的内容并计数。

这种状况也有可能存在，就是一行排不下了，会在起一行，比如匹配到了该图中的113位则
   Query  112  SMRRKRILRVYLV  124
                     SMRRKRILRVYLV
   Sbjct  61    SMRRKRILRVYLV  73
匹配该Query113位的M输出对应的Sbjct的M并且计数加1。下次若在次匹配到M则M再加1，循环累计。
可以再举例如：Query  1 ASDFGHOKL 9
                  Sbjct 4 ZVLUTVLNL 13
文件A数值为5，1<5>9则找到Query行对应的G,输出T,并对T计数；
再如：
                  Query  1 AS-DFGHOKL 9
                  Sbjct 4 ZVLUTVLNL 13
此时Query行由于插入-，G对应为V但是G的序号依然是5，因为-不计数
您看看能不能更好的理解，再次感谢
                  回复 11# sunzhiguolu