免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4432 | 回复: 11

请教信息单元提取 [复制链接]

论坛徽章:
0
发表于 2014-03-15 05:03 |显示全部楼层
原文本文件如附件file1,每个信息单元均以“@HWI-ST1096”起始,基本上包含了4行,而需要提取的信息单元中第2行总是以“AAACTCGAA”起始,提取后输出文件格式不变,如附件file2.
file1.rar (1.16 KB, 下载次数: 1)

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
发表于 2014-03-15 10:57 |显示全部楼层
还是贴数据吧,下载的很少

论坛徽章:
0
发表于 2014-03-15 11:40 |显示全部楼层
---------------------------简单file例子:
file1:
@HWI-ST1096:222:C1HAWACXX:8:1101:1454:2107 1:N:0:TGACCA
CAATCTTTCCCAGCATCGGGGTCTTTTCCAGTGAGTTGGCTGGTTGTATC
+
CCCFFFFFHHHHHIJJJIJJJ@CBHIJGIGIHICI@FCHDHIG@FHF>FG
@HWI-ST1096:222:C1HAWACXX:8:1101:1408:2136 1:N:0:TGACCA
AAACTCGAAATCTTGGCTCCTGGCTTCCCAGGGCCAACCCTGTCTTCTGGTTGCT
+
CCCFFFFFHHHHHIJIJJJJIIJJGHIIIIJIHJJGIHIIIIJGIGIJGC
@HWI-ST1096:222:C1HAWACXX:8:1101:1468:2192 1:N:0:TGACCA
CGCTCTTCCGATGTCCCACGTGCACACCTGGTGGGAGTCGATCCTCGGCT
+
@@@FFFDBDHFDHFFGHGEHEHDGFDHC@GHCFGIIIIDG@GHCGIIIGC


得到file2:
@HWI-ST1096:222:C1HAWACXX:8:1101:1408:2136 1:N:0:TGACCA
AAACTCGAAATCTTGGCTCCTGGCTTCCCAGGGCCAACCCTGTCTTCTGGTTGCT
+
CCCFFFFFHHHHHIJIJJJJIIJJGHIIIIJIHJJGIHIIIIJGIGIJGC

谢谢!

论坛徽章:
0
发表于 2014-03-15 11:43 |显示全部楼层
回复 2# kernel69

谢谢兄弟。
   

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
发表于 2014-03-15 13:44 |显示全部楼层
  1. cat 11.txt
  2. @HWI-ST1096:222:C1HAWACXX:8:1101:1454:2107 1:N:0:TGACCA
  3. CAATCTTTCCCAGCATCGGGGTCTTTTCCAGTGAGTTGGCTGGTTGTATC
  4. +
  5. CCCFFFFFHHHHHIJJJIJJJ@CBHIJGIGIHICI@FCHDHIG@FHF>FG
  6. @HWI-ST1096:222:C1HAWACXX:8:1101:1408:2136 1:N:0:TGACCA
  7. AAACTCGAAATCTTGGCTCCTGGCTTCCCAGGGCCAACCCTGTCTTCTGGTTGCT
  8. +
  9. CCCFFFFFHHHHHIJIJJJJIIJJGHIIIIJIHJJGIHIIIIJGIGIJGC
  10. @HWI-ST1096:222:C1HAWACXX:8:1101:1468:2192 1:N:0:TGACCA
  11. CGCTCTTCCGATGTCCCACGTGCACACCTGGTGGGAGTCGATCCTCGGCT
  12. +
  13. @@@FFFDBDHFDHFFGHGEHEHDGFDHC@GHCFGIIIIDG@GHCGIIIGC

  14. [@~]$ grep -B 1 -A 2 ^AAACTCGAA 11.txt  > file2
  15. [@~]$ cat file2
  16. @HWI-ST1096:222:C1HAWACXX:8:1101:1408:2136 1:N:0:TGACCA
  17. AAACTCGAAATCTTGGCTCCTGGCTTCCCAGGGCCAACCCTGTCTTCTGGTTGCT
  18. +
  19. CCCFFFFFHHHHHIJIJJJJIIJJGHIIIIJIHJJGIHIIIIJGIGIJGC
  20. [@~]$
复制代码
回复 1# owwa


   

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
发表于 2014-03-15 14:30 |显示全部楼层
这个应该更靠谱点
  1. grep -A 1 -B 1 -P "^AAACTCGAA.*\n\+"
复制代码
回复 1# owwa


   

论坛徽章:
0
发表于 2014-03-15 15:18 |显示全部楼层
回复 6# kernel69

谢谢兄弟,其实想通过perl来解决。

   

论坛徽章:
0
发表于 2014-03-15 16:00 |显示全部楼层
本帖最后由 owwa 于 2014-03-15 16:15 编辑

回复 6# kernel69

grep -A 2 -B 1 "^AAACTCGAA" file1 >file2

如果信息单元都包括4行,这个好像靠谱。

论坛徽章:
0
发表于 2014-03-15 16:05 |显示全部楼层
但如果行数不确定,通过@HWI-ST1096”起始和“AAACTCGAA”起始2个条件更靠谱。所以还得想复杂点。

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
发表于 2014-03-15 16:39 |显示全部楼层
你要的行数都不确定,怎么取想要的内容?只要@HWI-ST1096和AAACTCGAA之间的内容?

回复 9# owwa


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP