免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: little_joe
打印 上一主题 下一主题

’求助!!!求助!!!文件匹配输出特定的内容‘ [复制链接]

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
11 [报告]
发表于 2016-06-17 11:43 |只看该作者
本帖最后由 sunzhiguolu 于 2016-06-17 11:44 编辑

回复 10# little_joe
按照你提供的示例文件 A, B 我分别举个例子, 看如何处理下面的这种情况:
A: (行 范围:9~16行)
NP_415088.1-1
134
NP_415088.1-1
134
NP_415088.1-1
134
NP_415088.1-1
134

B: (行 范围:16650~16677行)
Query= NP_415088.1-1

Length=153
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|NC_000913.3_prot_YP_588440.1_550  [gene=rzoD] [protein=DLP12 ...    122   1e-35
lcl|CP011323.1_prot_SG47_0559_549  [gene=rzoD] [protein=DLP12 pro...    122   1e-35
lcl|CP011322.1_prot_SG46_0559_548  [gene=rzoD] [protein=DLP12 pro...    122   1e-35
lcl|CP006698.1_prot_N840_0565_549  [gene=rzoD] [protein=DLP12 pro...    122   1e-35
lcl|NC_002695.1_prot_NP_309651.1_1555  [gene=ECs1624] [protein=li...    118   6e-34
lcl|NC_000913.3_prot_YP_588452.1_1351  [gene=rzoR] [protein=Rac p...    115   9e-33
lcl|CP011323.1_prot_SG47_1388_1349  [gene=rzoR] [protein=Rac prop...    115   9e-33
lcl|CP011322.1_prot_SG46_1388_1348  [gene=rzoR] [protein=Rac prop...    115   9e-33
lcl|CP006698.1_prot_N840_1389_1364  [gene=rzoR] [protein=Rac prop...    115   9e-33
lcl|CP013029.1_prot_AKK22_02365_443  [gene=AKK22_02365] [protein=...  84.0    9e-21


>lcl|NC_000913.3_prot_YP_588440.1_550 [gene=rzoD] [protein=DLP12 prophage; putative lipoprotein] [protein_id=YP_588440.1]
[location=578327..578509]
Length=60

Score =   122 bits (307),  Expect = 1e-35, Method: Compositional matrix adjust.
Identities = 60/60 (100%), Positives = 60/60 (100%), Gaps = 0/60 (0%)

Query  74   MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  133
            MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG
Sbjct  1    MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  60

第一个问题:
A 文件 NP_415088.1-1 (在这里共四组) 行下面的 134 与 B 文件的 Query 行后面的 133 匹配结果如何? (匹配 | 不匹配)
假设按照匹配计算:
1)如何判断 Query  74   MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  133 行下面的
   Sbjct  1    MRKLKMMLCVMMLPLVVVGCTSKQSVSQCVKPPRPPAWIMQPPPDWQTPLNGIISPSERG  60 此行是否加入此次统计的结果? (像你说的分别统计出现的次数)
还是假设, 假设 Sbjct 1 也匹配成功 进行统计时, 结果格式是啥样的?
比如用这个举例来说:
假设 A 中的
NP_415088.1-1
134
出现了 4 次, 分别与 B 中 Query 74 行 和其下面的 Sbjct 行匹配成功 4 次. 那么结果是 RG 共计匹配了 8 次, 这样?


   

论坛徽章:
0
12 [报告]
发表于 2016-06-17 15:08 |只看该作者
本帖最后由 little_joe 于 2016-06-17 15:09 编辑

您说的很关键,再次感谢, 这样的结果是不匹配的,我们可以把这行Query行看作是一个序号区间[77,133]我们要找的134并不在这个区间内,所以不输出结果, 图中的Query和下面紧跟着的Sbjct是一个对应的关系,主要是想通过Query序号区间判断文件A的序号在不在该区间内,在则找到该序号对应的字母(即氨基酸),此时需要输出的是Query行对应的字母对应的Sbjct 行的字母(输出),并且是对该对应的字母进行计数的。举例如数字Query:123456789
                                                                        Sbjct  :235698725我们找到了4则输出6并且计数,还有可能是存在—[即序列中插入了空格]时需要避开不读,
比如Query:12-3456789
      Sbjct   2356987250 此时Query行照样看作是有9个序号,但Sbjct输出时应该输出9,也就是说其实就是找Query对应的Sbjct的内容并计数。 这种状况也有可能存在,就是一行排不下了,会在起一行,比如匹配到了该图中的113位则
       Query  112  SMRRKRILRVYLV  124
                         SMRRKRILRVYLV
       Sbjct  61     SMRRKRILRVYLV  73
匹配该Query113位的M输出对应的Sbjct的M并且计数加1。下次若在次匹配到M则M再加1,循环累计。
可以再举例如:Query  1 ASDFGHOKL 9
                    Sbjct   4 ZVLUTVLNL 13
文件A数值为5,1<5>9则找到Query行对应的G,输出T,并对T计数;
再如:
                    Query  1 AS-DFGHOKL 9
                    Sbjct   4 ZVLUTVLNL 13
此时Query行由于插入-,G对应为V但是G的序号依然是5,因为-不计数
您看看能不能更好的理解,再次感谢
                    回复 11# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
13 [报告]
发表于 2016-06-17 16:16 |只看该作者
回复 12# little_joe
第二个问题:
... 比如匹配到了该图中的113位则
       Query  112  SMRRKRILRVYLV  124
                         SMRRKRILRVYLV
       Sbjct  61     SMRRKRILRVYLV  73

如果Query 112 这一行排不下了 再起一行的话 第二行第一行 之间区别在哪里?
假设 A 中的 113 在 B 的
       Query  112  SMRRKRILRVYLV  124
                        SMRRKRILRVYLV
       Sbjct  61     SMRRKRILRVYLV  73
Query, Sbjct 分别找到了 M, 那么 M 的计数是分别计数还是累加即可?
我这里假设 A 中总共包含 3 个 113, 输出的结果格式是啥样的?




   

论坛徽章:
0
14 [报告]
发表于 2016-06-17 16:41 |只看该作者
图中所示的两个Query的序号是连续的,第一个Query最后的序号是111,第二个Query的序号则为112,它俩是连续的,文件B有可能会出现这种情况。
它俩都找到M,Query的M是113对应的字母,而Sbjct的M则是QueryM对应的M,只是要统计Sbjct(此示例是M)中的个数和种类回复 13# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
15 [报告]
发表于 2016-06-17 17:23 |只看该作者
回复 14# little_joe
好的, 再有问题 我再问, 我该如何处理 A, B 文件?  

   

论坛徽章:
0
16 [报告]
发表于 2016-06-17 17:26 |只看该作者
谢谢谢谢,用文件A匹配文件B可以吗?回复 15# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
17 [报告]
发表于 2016-06-17 17:28 |只看该作者
本帖最后由 sunzhiguolu 于 2016-06-17 17:28 编辑

回复 16# little_joe
A, B 文件的大小 大概有多大? (我是说实际文件)

   

论坛徽章:
0
18 [报告]
发表于 2016-06-17 17:31 |只看该作者
文件A不大几兆,文件B比较大300兆左右的,麻烦您了回复 17# sunzhiguolu


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
19 [报告]
发表于 2016-06-17 17:58 |只看该作者
本帖最后由 sunzhiguolu 于 2016-06-17 18:25 编辑

回复 18# little_joe
我看了下 B 文件,
比如:
Query= NP_414562.1-1
下面的
Query  35  VTSSSARKWTNSGAMSGLNRASAGCFTRMTVSGRRLLRTYSVNALWRRWGVL  86
           V +    +W   GA S     SAGCFTRMT SGRRLLRTYSVNALWRRWGVL
Sbjct  39  VCAEMDEQWGYVGAKS----RSAGCFTRMTGSGRRLLRTYSVNALWRRWGVL  86

第二行的内容是第一行内容的衔接吗? 那么其中的空白该如何处理, '+' 又该如何处理?
第二行的第一个非空白字符 即: 字母 V 的序号是 87 吗?

在真实环境中, 有没有可能 Query= NP_414562.1-1 行下面的这些
...
Query  35  VTSSSARKWTNSGAMSGLNRASAGCFTRMTVSGRRLLRTYSVNALWRRWGVL  86
           V +    +W   GA S     SAGCFTRMT SGRRLLRTYSVNALWRRWGVL
Sbjct  39  VCAEMDEQWGYVGAKS----RSAGCFTRMTGSGRRLLRTYSVNALWRRWGVL  86
...
Query  2   RATARIMGVGLNTILRHLKNSGRSR  26
           RATARIMGVGLNTILRHLKNSGRSR
Sbjct  67  RATARIMGVGLNTILRHLKNSGRSR  91

出现 序号 错乱的情况 (大的在前, 小的在后), 对于这种情况 对于 A 文件中对应的数值 查询 B 文件时 该如何处理?
假设 A 数值 在 B 文件序号的断档位置该如何处理? (比如:此处 B 的Query 行的起始序号 26, 35 就没有顺序出现)
在 A 文件中对应的数值查询 B 文件 Query 行的时候, B 中对应的 Query 行的序号是先拼接在一起再处理, 还是直接进行判断 不在其范围内的直接忽略掉.


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
20 [报告]
发表于 2016-06-17 18:10 |只看该作者
回复 18# little_joe
另外追问一下, A 文件下面的
NP_414894.2-1
77
NP_414894.2-1
77
NP_414894.2-1
77
NP_414894.2-1
77

这种冗余数据该如何处理?

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP