123 4 5 6 7 8 9 10 ... 2461587 / 2461587 页下一页

’求助！！！求助！！！文件匹配输出特定的内容‘ [复制链接]

sunzhiguolu

巨富豪门

论坛徽章:: 307

11楼 [报告]

发表于 2016-06-17 11:43 |只看该作者

本帖最后由 sunzhiguolu 于 2016-06-17 11:44 编辑

回复 10# little_joe
按照你提供的示例文件 A, B 我分别举个例子, 看如何处理下面的这种情况:
A: (行范围:9~16行)
NP_415088.1-1
134
NP_415088.1-1
134
NP_415088.1-1
134
NP_415088.1-1
134

B: (行范围:16650~16677行)
Query= NP_415088.1-1

Length=153
                                                                  Score    E
Sequences producing significant alignments:                         (Bits)  Value

lcl|NC_000913.3_prot_YP_588440.1_550  [gene=rzoD] [protein=DLP12 ... 122 1e-35
lcl|CP011323.1_prot_SG47_0559_549  [gene=rzoD] [protein=DLP12 pro... 122 1e-35
lcl|CP011322.1_prot_SG46_0559_548  [gene=rzoD] [protein=DLP12 pro... 122 1e-35
lcl|CP006698.1_prot_N840_0565_549  [gene=rzoD] [protein=DLP12 pro... 122 1e-35
lcl|NC_002695.1_prot_NP_309651.1_1555  [gene=ECs1624] [protein=li... 118 6e-34
lcl|NC_000913.3_prot_YP_588452.1_1351  [gene=rzoR] [protein=Rac p... 115 9e-33
lcl|CP011323.1_prot_SG47_1388_1349  [gene=rzoR] [protein=Rac prop... 115 9e-33
lcl|CP011322.1_prot_SG46_1388_1348  [gene=rzoR] [protein=Rac prop... 115 9e-33
lcl|CP006698.1_prot_N840_1389_1364  [gene=rzoR] [protein=Rac prop... 115 9e-33
lcl|CP013029.1_prot_AKK22_02365_443  [gene=AKK22_02365] [protein=...  84.0 9e-21

>lcl|NC_000913.3_prot_YP_588440.1_550 [gene=rzoD] [protein=DLP12 prophage; putative lipoprotein] [protein_id=YP_588440.1]
[location=578327..578509]
Length=60

Score = 122 bits (307),  Expect = 1e-35, Method: Compositional matrix adjust.
Identities = 60/60 (100%), Positives = 60/60 (100%), Gaps = 0/60 (0%)

Query  74 MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  133
         MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG
Sbjct  1 MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  60

第一个问题:
A 文件 NP_415088.1-1 (在这里共四组) 行下面的 134 与 B 文件的 Query 行后面的 133 匹配结果如何? (匹配 | 不匹配)
假设按照匹配计算:
1)如何判断 Query  74 MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  133 行下面的
Sbjct  1 MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  60 此行是否加入此次统计的结果? (像你说的分别统计出现的次数)
还是假设, 假设 Sbjct 1 也匹配成功进行统计时, 结果格式是啥样的?
比如用这个举例来说:
假设 A 中的
NP_415088.1-1
134
出现了 4 次, 分别与 B 中 Query 74 行和其下面的 Sbjct 行匹配成功 4 次. 那么结果是 RG 共计匹配了 8 次, 这样?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2016-06-17 15:08 |只看该作者

本帖最后由 little_joe 于 2016-06-17 15:09 编辑

您说的很关键，再次感谢，

这样的结果是不匹配的，我们可以把这行Query行看作是一个序号区间[77,133]我们要找的134并不在这个区间内，所以不输出结果，

图中的Query和下面紧跟着的Sbjct是一个对应的关系，主要是想通过Query序号区间判断文件A的序号在不在该区间内，在则找到该序号对应的字母（即氨基酸），此时需要输出的是Query行对应的字母对应的Sbjct 行的字母（输出），并且是对该对应的字母进行计数的。举例如数字Query：123456789
Sbjct ：235698725我们找到了4则输出6并且计数，还有可能是存在—[即序列中插入了空格]时需要避开不读，
比如Query：12-3456789
Sbjct 2356987250 此时Query行照样看作是有9个序号，但Sbjct输出时应该输出9，也就是说其实就是找Query对应的Sbjct的内容并计数。

这种状况也有可能存在，就是一行排不下了，会在起一行，比如匹配到了该图中的113位则
   Query  112  SMRRKRILRVYLV  124
                     SMRRKRILRVYLV
   Sbjct  61    SMRRKRILRVYLV  73
匹配该Query113位的M输出对应的Sbjct的M并且计数加1。下次若在次匹配到M则M再加1，循环累计。
可以再举例如：Query  1 ASDFGHOKL 9
                  Sbjct 4 ZVLUTVLNL 13
文件A数值为5，1<5>9则找到Query行对应的G,输出T,并对T计数；
再如：
                  Query  1 AS-DFGHOKL 9
                  Sbjct 4 ZVLUTVLNL 13
此时Query行由于插入-，G对应为V但是G的序号依然是5，因为-不计数
您看看能不能更好的理解，再次感谢
                  回复 11# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

13楼 [报告]

发表于 2016-06-17 16:16 |只看该作者

回复 12# little_joe
第二个问题:

... 比如匹配到了该图中的113位则
   Query  112  SMRRKRILRVYLV  124
                     SMRRKRILRVYLV
   Sbjct  61    SMRRKRILRVYLV  73

如果Query 112 这一行排不下了再起一行的话第二行与第一行之间区别在哪里?
假设 A 中的 113 在 B 的
   Query  112  SMRRKRILRVYLV  124
                     SMRRKRILRVYLV
   Sbjct  61    SMRRKRILRVYLV  73
Query, Sbjct 分别找到了 M, 那么 M 的计数是分别计数还是累加即可?
我这里假设 A 中总共包含 3 个 113, 输出的结果格式是啥样的?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2016-06-17 16:41 |只看该作者

图中所示的两个Query的序号是连续的，第一个Query最后的序号是111，第二个Query的序号则为112，它俩是连续的，文件B有可能会出现这种情况。

它俩都找到M，Query的M是113对应的字母，而Sbjct的M则是QueryM对应的M,只是要统计Sbjct（此示例是M)中的个数和种类回复 13# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

15楼 [报告]

发表于 2016-06-17 17:23 |只看该作者

回复 14# little_joe
好的, 再有问题我再问, 我该如何处理 A, B 文件?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2016-06-17 17:26 |只看该作者

谢谢谢谢，用文件A匹配文件B可以吗？回复 15# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

17楼 [报告]

发表于 2016-06-17 17:28 |只看该作者

本帖最后由 sunzhiguolu 于 2016-06-17 17:28 编辑

回复 16# little_joe
A, B 文件的大小大概有多大? (我是说实际文件)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

little_joe

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2016-06-17 17:31 |只看该作者

文件A不大几兆，文件B比较大300兆左右的，麻烦您了回复 17# sunzhiguolu

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

19楼 [报告]

发表于 2016-06-17 17:58 |只看该作者

本帖最后由 sunzhiguolu 于 2016-06-17 18:25 编辑

回复 18# little_joe
我看了下 B 文件,
比如:
Query= NP_414562.1-1
下面的
Query  35  VTSSSARKWTNSGAMSGLNRASAGCFTRMTVSGRRLLRTYSVNALWRRWGVL  86
         V + +W GA S    SAGCFTRMT SGRRLLRTYSVNALWRRWGVL
Sbjct  39  VCAEMDEQWGYVGAKS----RSAGCFTRMTGSGRRLLRTYSVNALWRRWGVL  86

第二行的内容是第一行内容的衔接吗? 那么其中的空白该如何处理, '+' 又该如何处理?
第二行的第一个非空白字符即: 字母 V 的序号是 87 吗?

在真实环境中, 有没有可能 Query= NP_414562.1-1 行下面的这些
...
Query  35  VTSSSARKWTNSGAMSGLNRASAGCFTRMTVSGRRLLRTYSVNALWRRWGVL  86
         V + +W GA S    SAGCFTRMT SGRRLLRTYSVNALWRRWGVL
Sbjct  39  VCAEMDEQWGYVGAKS----RSAGCFTRMTGSGRRLLRTYSVNALWRRWGVL  86
...
Query  2 RATARIMGVGLNTILRHLKNSGRSR  26
         RATARIMGVGLNTILRHLKNSGRSR
Sbjct  67  RATARIMGVGLNTILRHLKNSGRSR  91

出现序号错乱的情况 (大的在前, 小的在后), 对于这种情况对于 A 文件中对应的数值查询 B 文件时该如何处理?
假设 A 数值在 B 文件序号的断档位置该如何处理? (比如:此处 B 的Query 行的起始序号 26, 35 就没有顺序出现)
在 A 文件中对应的数值查询 B 文件 Query 行的时候, B 中对应的 Query 行的序号是先拼接在一起再处理, 还是直接进行判断不在其范围内的直接忽略掉.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

20楼 [报告]

发表于 2016-06-17 18:10 |只看该作者

回复 18# little_joe
另外追问一下, A 文件下面的
NP_414894.2-1
77
NP_414894.2-1
77
NP_414894.2-1
77
NP_414894.2-1
77

这种冗余数据该如何处理?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 4 5 6 7 8 9 10 ... 2461587 / 2461587 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › ’求助！！！求助！！！文件匹配输出特定的内容‘

’求助！！！求助！！！文件匹配输出特定的内容‘ [复制链接]

浏览过的版块