Chinaunix

标题: 麻烦如和提取特定字符串后的内容，谢谢。 [打印本页]

作者: 2013fish 时间: 2019-10-10 13:21
标题: 麻烦如和提取特定字符串后的内容，谢谢。
某文件是这样类似的，很多行。

>gi|1137556677|ref|NW_017865437.1| Paralichthys olivaceus breed gynogenesis unplaced genomic scaffold,
TTAGTTAAGATAAGTTTGCTTTAGATTTTTTTGTTGGCAGATGAGTTCTGACTGGTTTTCTATAATTTTA
>gi|1137556676|ref|NW_017865438.1| Paralichthys olivaceus breed gynogenesis unplaced genomic scaffold,
TATTTTCATTTTATTAACTTATATAAACCAAGAACTTCCTCAGAGATCCTGCAAACGTATCATCTTGAGTTACT

希望得到如下的，就是得到> 和最后||之间的内容，其他的TTGGAA等没有变化。、
个人理解是找到>gi 所在行，提取 >加上最后||之间的内容。谢谢，

>NW_017865437.1
TTAGTTAAGATAAGTTTGCTTTAGATTTTTTTGTTGGCAGATGAGTTCTGACTGGTTTTCTATAATTTTA
>NW_017865438.1
TTAGTTAAGATAAGTTTGCTTTAGATTTTTTTGTTGGCAGATGAGTTCTGACTGGTTTTCTATAATTTTA

作者: 2013fish 时间: 2019-10-10 13:22
TTAGTTAAGATAAGTTTGCTTTAGATTTTTTTGTTGGCAGATGAGTTCTGACTGGTTTTCTATAA是随意写的。可能每行不一样。

作者: cfwyy 时间: 2019-10-10 13:57
TAGC和>gi是同一行的，还是分开两行的？

作者: legs 时间: 2019-10-10 15:10
本帖最后由 legs 于 2019-10-10 15:12 编辑

perl -pe's#(>).*\|([^|]*)\|(?2)$#$1$2\n#' file

复制代码

perl -F'\|' -lE'say/>/?">$F[-2]":$_' file

复制代码

类似sed,awk的两个思路，如果是那种固定的栏位或长度位置，办法很多。

作者: 2013fish 时间: 2019-10-10 16:03
回复 3# cfwyy

分开的行。谢谢。

作者: 2013fish 时间: 2019-10-10 16:12
回复 4# legs

谢谢这位大神，两个方法都可以。

作者: cfwyy 时间: 2019-10-10 16:24

awk -F\| '/>gi/{getline s;printf(">%s\n%s\n",$4,s)}' file

复制代码

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)