12 / 2 页下一页

论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-09-10 11:42 |只看该作者 |倒序浏览

各位大大:
我想咨询一下,如果我现在有以下三个文件
__________________________________________________________________________
all.txt:
refseq1 refGene mRNA 1 2 .    +    .    NR_024540    WASH5P
refseq1 refGene exon 2 10 .    +    .    NR_024540    WASH5P  E1
refseq1 refGene intr 4 6 .    +    .    NR_024540    WASH5P  I1
refseq1 refGene exon 9 11 .    +    .    NR_024540    WASH5P  E2
refseq2 refGene exon 1  6  .    +    .    NM_001005221 OR4F29
refseq2 refGene exon 3  6  .    +    .    NM_001005221 OR4F29  E1
refseq2 refGene exon 7  9  .    +    .    NM_001005221 OR4F29  E1
refseq2 refGene mRNA 1  3  .    +    .    NM_001005224 OR4F3
refseq2 refGene exon 6  8  .    +    .    NM_001005224 OR4F3 E1

nm.txt
NR_024540
NM_001005221

seq.txt
>refseq1 chr1 + 1000000 [1,1000000] ""
AGCTCGGTCCCCCCCCCCCCCCCTTTTTTT

>refseq2 chr2 + 1000000 [1,1000000] ""
AGCCCCCCCTCGGTCCCCCCCCCTTTTTTT
_________________________________________________________________________

我想得到的是nm.txt的字符串对应all.txt的第9列且all.txt的第十一列以E开始/^E/(不确定是否每一行都有第11列)的对应行,匹配后根据第一列的信息匹配seq.txt上的序列信息,获取第四列到第五列数值间的碱基,如果同一NM号且碱基序列间有重叠,合并输出.

也就是说最后得到的结果应该是:
_______________________________________________________________

>NR_024540_E1 WASH5P  refseq1 +    2  10  9 11
GCTCGGTCCC

> NM_001005221_E1  OR4F29 refseq2 +    3  6
CCCC

> NM_001005221_E2  OR4F29 refseq2 +    7  9
CCC

可是我花费很多时间都得不出结果,怎么办呀??求助求助!

文库|博客

liion631818

富足长乐

论坛徽章:: 10

2楼 [报告]

发表于 2013-09-10 14:04 |只看该作者

回复 1# huang6894

declare -A seqArr
declare -A all
while read line; do
if [[ "$line" == "" ]]; then
continue
fi
if [[ "$line" =~ ">ref" ]]; then
ref=${line%% *}
ref=${ref:1}
continue
fi
seqArr["$ref"]="$line"
done <seq.txt
while read line; do
arr=($line)
if [[ ${arr[10]} =~ "E" ]]; then
ref=${arr[0]}
nm=${arr[8]}
if `grep $ref seq.txt &>/dev/null`; then
if `grep $nm nm.txt &>/dev/null`; then
echo \>${nm}_${arr[10]} ${arr[9]} $ref "+" ${arr[3]} ${arr[4]}
dna=${seqArr["$ref"]}
echo ${dna:(( ${arr[3]}-1)):(( ${arr[4]}-${arr[3]}+1 ))}
fi
fi
fi
done <all.txt

复制代码

评分

参与人数 1	可用积分 +4	收起理由
rdcwayx	+ 4	赞一个!

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

3楼 [报告]

发表于 2013-09-10 14:16 |只看该作者

回复 2# liion631818

大大，不知道为什么：
dna=${seqArr["$ref"]}
echo ${dna

${arr[3]}-1))

${arr[4]}-${arr[3]}+1 ))}
这段好像echo不出来

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rdcwayx

版主

论坛徽章:: 15

4楼 [报告]

发表于 2013-09-10 14:29 |只看该作者

回复 3# huang6894

在bash里运行。

bash script.sh

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rdcwayx

版主

论坛徽章:: 15

5楼 [报告]

发表于 2013-09-10 14:30 |只看该作者

回复 2# liion631818

没有实现这条: 如果同一NM号且碱基序列间有重叠,合并输出.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

6楼 [报告]

发表于 2013-09-10 15:39 |只看该作者

回复 5# rdcwayx

是呢，怎么办呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liion631818

富足长乐

论坛徽章:: 10

7楼 [报告]

发表于 2013-09-10 23:11 |只看该作者

回复 6# huang6894

#!/bin/bash
declare -A seqArr
declare -A all
while read line; do
if [[ "$line" == "" ]]; then
continue
fi
if [[ "$line" =~ ">ref" ]]; then
ref=${line%% *}
ref=${ref:1}
continue
fi
seqArr["$ref"]="$line"
done <seq.txt
while read line; do
arr=($line)
if [[ ${arr[10]} =~ "E" ]]; then
ref=${arr[0]}
nm=${arr[8]}
if `grep $ref seq.txt &>/dev/null`; then
if `grep $nm nm.txt &>/dev/null`; then
all[\>${nm}_${arr[10]} ${arr[9]} $ref]="${all[\>${nm}_${arr[10]} ${arr[9]} $ref]} ${arr[3]} ${arr[4]}"
fi
fi
fi
done <all.txt
for i in "${!all[@]}"; do
set -- $i
ref=$3
dna=${seqArr["$ref"]}
arr1=(`echo ${all[$i]} | xargs -n1 | sort -n` )
(( last=${#arr1[@]}-1 ))
echo $i" +"${all[$i]}
echo ${dna:(( ${arr1[0]}-1)):(( ${arr1[$last]}-${arr1[0]}+1 ))}
done

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

8楼 [报告]

发表于 2013-09-11 12:39 |只看该作者

本帖最后由 huang6894 于 2013-09-11 12:42 编辑

回复 7# liion631818

谢谢大大，我还有个问题：
我在执行这个脚本的时候，提示
——————————————————————————————————————————————————————————————————————

test.sh: line 3: declare: -A: invalid option
declare: usage: declare [-afFirtx] [-p] [name[=value] ...]
test.sh: line 4: declare: -A: invalid option
declare: usage: declare [-afFirtx] [-p] [name[=value] ...]
test.sh: line 26: >NR_024540_E1 WASH5P refseq1: syntax error: operand expected (error token is ">NR_024540_E1 WASH5P refseq1")

复制代码

——————————————————————————————————————————————————————————————————————
怎么解决呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liion631818

富足长乐

论坛徽章:: 10

9楼 [报告]

发表于 2013-09-11 12:49 |只看该作者

回复 8# huang6894

你的bash版本太旧了，不支持关联数组

$ bash -version
GNU bash, version 4.2.24(1)-release (i686-pc-linux-gnu)
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

10楼 [报告]

发表于 2013-09-11 13:27 |只看该作者

回复 9# liion631818

--------------------------------------------------------------------
$ bash -version
GNU bash, version 3.2.25(1)-release (x86_64-redhat-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.
-----------------------------------------------------------------
declare -a seqArr
declare -a all
是不是也可以定义数组呢？
————————————————————————————————
我不理解的是：
test.sh: line 26: >NR_024540_E1 WASH5P refseq1: syntax error: operand expected (error token is ">NR_024540_E1 WASH5P refseq1")
这条信息

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 多个文本的信息匹配问题求助

[文本处理] 多个文本的信息匹配问题求助 [复制链接]

评分