论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2016-01-14 20:27 |只看该作者 |倒序浏览

本帖最后由 joo_nimrod 于 2016-01-14 22:10 编辑

我有一個fasta 文件，格式爲：
>chr1|hos107.1#gene1
ACACTCCCGGGCCCCCCCCCCCC
ACCTTTCAAAAAAAAAAAAAAA
AATTTTCCCCCCAAAGGGG
>chr1|hos107.2#gene2
ACACTCCCGGGCCCCCCCCCCCC
ACCTTTCAAAAAAAAAAAAAAA
AATTTTC
>chr1|hos107.4#gene3
ACACTCCCGGGCCCCCCCCCCCC
ACCTTTCAAAAAAAAAAAAAAA
AATTTTC
>chr1|hos107.5#gene4
ACACTCCCGGGCCCCCCCCCCCC
ACCTTTCAAAAAAAAAAAAAAA
AATTTTC
.........................

我想分別提取chr1|hos107.×和序列sequence（ACACTCCCGGGCCCCCCCCCCCCACCTTTCAAAAAAAAAAAAAAAAATTTTCCCCCCAAAGGGG）组成一个字典。我用 ListInputName=line.split('\n')[0][1:]
sequence=''.join(myfile.split('\n')[1:]
得到的sequence連在一起了。請大神幫我看下

文库|博客

zhonghua7896321

小富即安

论坛徽章:: 6

2楼 [报告]

发表于 2016-01-14 22:00 |只看该作者

>>> f = open('test.txt')
>>> lines = f.readlines()
>>> f.close()
>>> ListInputName=lines[0].strip()[1:]
>>> print ListInputName
chr1|hos107.1
>>> sequece=''.join(lines[1:4]).strip()
>>> print sequece
ACACTCCCGGGCCCCCCCCCCCC
ACCTTTCAAAAAAAAAAAAAAA
AATTTTCCCCCCAAAGGGG
>>>

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

joo_nimrod

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2016-01-14 22:06 |只看该作者

[非常感谢，其实我是想批量地生成一个dict，hot1与sequence相互对应，便于后面的分析。而不是单独提取出一个，您看这可以实现吗？b]回复 2# zhonghua7896321

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

4楼 [报告]

发表于 2016-01-14 22:09 |只看该作者

biopython 没有对应的模块么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

joo_nimrod

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2016-01-14 22:11 |只看该作者

刚学python，不懂biopython，我去看下回复 4# MMMIX

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhonghua7896321

小富即安

论坛徽章:: 6

6楼 [报告]

发表于 2016-01-14 23:02 |只看该作者

本帖最后由 zhonghua7896321 于 2016-01-14 23:08 编辑

回复 4# MMMIX

可以的。下边是简单的字典收纳刚才生成的数据。
如果你要批量处理这样的数据文件，那么把刚才的内容封装成一个模块来处理最好，里边用循环和正则来分析规律，把数据存放在字典里边。

我对这样的数据不了解，不知道是否是生物相关的数据。如果是的话，你不妨考虑一下perl，perl对生物方面的编程支持比较好。python对生物方面的编程我没了解过。
但万变不离其宗，只要找准方法，python一样可以解决相应的问题。

>>> info = {}
>>> info[ListInputName] = sequece
>>> print info
{'chr1|hos107.1': 'ACACTCCCGGGCCCCCCCCCCCC\nACCTTTCAAAAAAAAAAAAAAA\nAATTTTCCCCCCAAAGGGG'}
>>>

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhonghua7896321

小富即安

论坛徽章:: 6

7楼 [报告]

发表于 2016-01-14 23:20 |只看该作者

找到一个python在生物方面的编程资料。

biopython中文指南_生物信息学_超强烈推荐.pdf

1.21 MB, 下载次数: 36

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhonghua7896321

小富即安

论坛徽章:: 6

8楼 [报告]

发表于 2016-01-14 23:30 |只看该作者

使用biopython的确很简单呐
你参考一下吧

[root@CentOS ~]# pip install biopython
You are using pip version 7.1.0, however version 7.1.2 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.
Collecting biopython
Downloading biopython-1.66.tar.gz (13.7MB)
100% |████████████████████████████████| 13.7MB 1.5kB/s
Installing collected packages: biopython
Running setup.py install for biopython
Successfully installed biopython-1.66
[root@CentOS ~]#
>>> from Bio import SeqIO
>>> data = {}
>>> with open("test.txt") as f:
... for seq in SeqIO.parse(f, "fasta"):
... print seq.id
... print repr(seq.seq)
... data[seq.id] = str(seq.seq)
...
chr1|hos107.1
Seq('ACACTCCCGGGCCCCCCCCCCCCACCTTTCAAAAAAAAAAAAAAAAATTTTCCC...GGG', SingleLetterAlphabet())
chr1|hos107.2
Seq('ACACTCCCGGGCCCCCCCCCCCCACCTTTCAAAAAAAAAAAAAAAAATTTTC', SingleLetterAlphabet())
>>> print data
{'chr1|hos107.1': 'ACACTCCCGGGCCCCCCCCCCCCACCTTTCAAAAAAAAAAAAAAAAATTTTCCCCCCAAAGGGG', 'chr1|hos107.2': 'ACACTCCCGGGCCCCCCCCCCCCACCTTTCAAAAAAAAAAAAAAAAATTTTC'}
>>>

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

joo_nimrod

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2016-01-15 00:25 |只看该作者

非常感谢，biopython真的很强大回复 7# zhonghua7896321

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › Fasta 序列提取模式匹配問題？

Fasta 序列提取模式匹配問題？ [复制链接]