免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3374 | 回复: 7

[文本处理] 行列转换 [复制链接]

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2015-12-29 16:11 |显示全部楼层
10可用积分
整个的行列转换我可以,但是怎么才能使以>开头的行不被转换?
原始格式
>GCCACGTG        E-box/Arabidopsis-Promoters/Homer        6.212092        -1071.354139        0        T:2067.0(17.92%),B:1956.4(5.65%),P:1e-465
0.027        0.034        0.834        0.105
0.346        0.558        0.018        0.078
0.001        0.997        0.001        0.001
0.994        0.001        0.004        0.001
0.001        0.996        0.002        0.001
0.001        0.001        0.997        0.001
0.001        0.009        0.001        0.989
0.051        0.111        0.837        0.001
>HHCACGCGCBTN        FHY3(FAR1)/Arabidopsis-FHY3-ChIP-Seq(GSE30711)/Homer        6.927643        -625.906411        0        T:538.0(22.86%),B:1351.5(3.36%),P:1e-271
0.213        0.279        0.177        0.330
0.298        0.314        0.092        0.296
0.106        0.622        0.142        0.130
0.973        0.001        0.007        0.019
0.001        0.979        0.001        0.019
0.003        0.001        0.870        0.126
0.001        0.924        0.001        0.074
0.075        0.008        0.799        0.118
0.089        0.761        0.001        0.149
0.096        0.351        0.215        0.339
0.236        0.189        0.183        0.392
0.220        0.296        0.206        0.279


转换成
>GCCACGTG        E-box/Arabidopsis-Promoters/Homer        6.212092        -1071.354139        0        T:2067.0(17.92%),B:1956.4(5.65%),P:1e-465
0.027        0.346        0.001        0.994        0.001        0.001        0.001        0.051
0.034        0.558        0.997        0.001        0.996        0.001        0.009        0.111
0.834        0.018        0.001        0.004        0.002        0.997        0.001        0.837
0.105        0.078        0.001        0.001        0.001        0.001        0.989        0.001
>HHCACGCGCBTN        FHY3(FAR1)/Arabidopsis-FHY3-ChIP-Seq(GSE30711)/Homer        6.927643        -625.906411        0        T:538.0(22.86%),B:1351.5(3.36%),P:1e-271
0.213        0.298        0.106        0.973        0.001        0.003        0.001        0.075        0.089        0.096        0.236        0.22
0.279        0.314        0.622        0.001        0.979        0.001        0.924        0.008        0.761        0.351        0.189        0.296
0.177        0.092        0.142        0.007        0.001        0.87        0.001        0.799        0.001        0.215        0.183        0.206
0.33        0.296        0.13        0.019        0.019        0.126        0.074        0.118        0.149        0.339        0.392        0.279

最佳答案

查看完整内容

可以 []python2 p.py datafile > savefile起身又看一看屏幕,自己摇摇头说 [ ]python2 p.py datafile > savefile

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
发表于 2015-12-29 16:11 |显示全部楼层
本帖最后由 substr函数 于 2015-12-30 19:45 编辑

可以 []
python2 p.py datafile > savefile
  1. #!/usr/bin/python2
  2. # coding: utf-8

  3. import sys
  4. FILE = open(sys.argv[1])
  5. DATA = []

  6. for LINE in FILE:
  7.     if LINE.startswith('>'):
  8.         for LIST in DATA: print '\t'.join(LIST)
  9.         print LINE.rstrip()
  10.         DATA = []
  11.     elif not DATA:
  12.         DATA = [[ELEM] for ELEM in LINE.split()]
  13.     else:
  14.         for INDEX, ELEM in enumerate(LINE.split()):
  15.             DATA[INDEX].append(ELEM)

  16. for LIST in DATA: print '\t'.join(LIST)
复制代码
起身又看一看屏幕,自己摇摇头说 [ ]
python2 p.py datafile > savefile
  1. #!/usr/bin/python2
  2. # coding: utf-8

  3. import sys
  4. FILE = open(sys.argv[1])
  5. DATA = []

  6. for LINE in FILE:
  7.     if LINE.startswith('>'):
  8.         for LIST in DATA: print '\t'.join(LIST)
  9.         print LINE.rstrip()
  10.         DATA = [[ELEM] for ELEM in FILE.next().split()]
  11.     else:
  12.         for INDEX, ELEM in enumerate(LINE.split()):
  13.             DATA[INDEX].append(ELEM)

  14. for LIST in DATA: print '\t'.join(LIST)
复制代码

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-12-17 06:20:00
发表于 2015-12-29 16:52 |显示全部楼层
awk 'BEGIN{line1=line2=line3=line4="";} {if($0 ~/^[ ]*>/){if(NR>2){print  line1"\n"line2"\n"line3"\n"line4"\n";}line1=line2=line3=line4="";print $0}else{line1=line1"\t"$1;line2=line2"\t"$2;line3=line3"\t"$3;line4=line4"\t"$4}}END{print line1"\n"line2"\n"line3"\n"line4"\n"}' ufile

论坛徽章:
12
IT运维版块每日发帖之星
日期:2015-11-17 06:20:00程序设计版块每日发帖之星
日期:2016-01-19 06:20:0015-16赛季CBA联赛之江苏
日期:2016-01-17 15:31:3915-16赛季CBA联赛之上海
日期:2016-01-16 15:44:3015-16赛季CBA联赛之浙江
日期:2016-01-15 20:38:1815-16赛季CBA联赛之北京
日期:2016-01-09 14:30:15CU十四周年纪念徽章
日期:2016-01-07 12:31:5115-16赛季CBA联赛之四川
日期:2016-01-01 11:49:1515-16赛季CBA联赛之深圳
日期:2015-12-24 14:23:4115-16赛季CBA联赛之山西
日期:2015-12-15 16:22:31技术图书徽章
日期:2015-12-10 17:41:0015-16赛季CBA联赛之北控
日期:2016-02-03 10:03:24
发表于 2015-12-29 17:07 |显示全部楼层
  1. awk 'function out(){for(i=1;i<=length(a);i++){print a[i]};delete a}/^>/{if(NR>1){out()};print;next}{for(i=1;i<=NF;i++){a[i]=a[i]?a[i]"\t"$i:$i}}END{out()}'
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
发表于 2015-12-29 21:49 |显示全部楼层
本帖最后由 zxy877298415 于 2015-12-29 21:49 编辑
  1. awk '{if($0~/^>/) {print k;for(i=1;i<=t;i++){print a[i]}k=$0;delete a} else {for(i=1;i<=NF;i++) a[i]=a[i]?a[i]"\t"$i:$i;t=NF}}END{print k;for(i=1;i<=t;i++) print a[i]}' file
复制代码
回复 1# mswsg


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-12-29 22:06 |显示全部楼层

$ awk 'function T(t,n){for(n=1;n<=t;n++)print a[n];delete a;delete p;t=0}/^>/{T(t);print;next}{for(n=1;n<=NF;n++){a[n]=a[n]p[n]$n;p[n]="\t";t=NF}}END{T(t)}' FILE
>GCCACGTG        E-box/Arabidopsis-Promoters/Homer        6.212092        -1071.354139        0        T:2067.0(17.92%),B:1956.4(5.65%),P:1e-465
0.027        0.346        0.001        0.994        0.001        0.001        0.001        0.051
0.034        0.558        0.997        0.001        0.996        0.001        0.009        0.111
0.834        0.018        0.001        0.004        0.002        0.997        0.001        0.837
0.105        0.078        0.001        0.001        0.001        0.001        0.989        0.001
>HHCACGCGCBTN        FHY3(FAR1)/Arabidopsis-FHY3-ChIP-Seq(GSE30711)/Homer        6.927643        -625.906411        0        T:538.0(22.86%),B:1351.5(3.36%),P:1e-271
0.213        0.298        0.106        0.973        0.001        0.003        0.001        0.075        0.089        0.096        0.236        0.220
0.279        0.314        0.622        0.001        0.979        0.001        0.924        0.008        0.761        0.351        0.189        0.296
0.177        0.092        0.142        0.007        0.001        0.870        0.001        0.799        0.001        0.215        0.183        0.206
0.330        0.296        0.130        0.019        0.019        0.126        0.074        0.118        0.149        0.339        0.392        0.279

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2016-04-05 10:29 |显示全部楼层
抱歉,没想到真有大神用python解决了,非常长感谢,学习了。回复 2# substr函数


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP