免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2201 | 回复: 7
打印 上一主题 下一主题

[文本处理] 文本替换与转换 [复制链接]

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-10-22 17:11 |只看该作者 |倒序浏览
10可用积分
本帖最后由 mswsg 于 2014-10-22 17:16 编辑

文件,第一行是各列的名字,其中包括 亲本A,亲本B ,SSD1,SSD3,SSD4,SSD7。
转换:SSD1-SSD7各列,如果与亲本A一样,则标记为A,如果与亲本B一样则标记B,-表示缺失,不做处理,如果与亲本A和B都不一样,则标记为H。
  1. SNP        亲本A        亲本B        SSD1        SSD3        SSD4        SSD7
  2. SNP1        GG        AG        AG        AG        GG        AG
  3. SNP2        AG        GG        -        AG        AG        GG
  4. SNP3        CC        TT        CC        CC        CC        CC
  5. SNP4        AG        GG        -        AG        AG        AG
  6. SNP5        GG        AG        GG        AG        GG        GG
  7. SNP6        CC        TC        CC        CC        CC        TC
  8. SNP7        AG        GG        AG        AG        AG        AG
  9. SNP8        TC        CC        CC        CC        TC        -
  10. SNP9        TT        CC        TT        TT        TT        CC
  11. SNP10        CC        TC        CC        CC        TC        CC
  12. SNP11        TT        TG        TT        TG        TT        TT
  13. SNP12        AA        AG        AA        AA        AG        AA
  14. SNP13        AA        CC        AC        AA        AC        CC
复制代码
结果
  1. SNP        亲本A        亲本B        SSD1        SSD3        SSD4        SSD7
  2. SNP1        GG        AG        B        B        A        B
  3. SNP2        AG        GG        -        A        A        B
  4. SNP3        CC        TT        A        A        A        A
  5. SNP4        AG        GG        -        A        A        A
  6. SNP5        GG        AG        A        B        A        A
  7. SNP6        CC        TC        A        A        A        B
  8. SNP7        AG        GG        A        A        A        A
  9. SNP8        TC        CC        A        A        B        -
  10. SNP9        TT        CC        A        A        A        B
  11. SNP10        CC        TC        A        A        B        A
  12. SNP11        TT        TG        A        B        A        A
  13. SNP12        AA        AG        A        A        B        A
  14. SNP13        AA        CC        H        A        H        B
复制代码

最佳答案

查看完整内容

回复 1# mswsg try:

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-10-22 17:11 |只看该作者
回复 1# mswsg


try:
  1. awk 'BEGIN{FS=OFS="\t"}NR>1{for(i=4;i<=NF;i++){if($i=="-")continue;if($i==$2)$i="A";else if($i==$3)$i="B";else $i="H"}}1' file
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2014-10-23 09:56 |只看该作者
  1. [root@localhost ~]# awk -vOFS='\t' 'NR==1{$1=$1}NR>1{for(i=3;i++<NF;){if($i=="-")continue;else if($i==$2)$i="A";else if($i==$3)$i="B";else $i="H"}}1' i
  2. SNP        亲本A        亲本B        SSD1        SSD3        SSD4        SSD7
  3. SNP1        GG        AG        B        B        A        B
  4. SNP2        AG        GG        -        A        A        B
  5. SNP3        CC        TT        A        A        A        A
  6. SNP4        AG        GG        -        A        A        A
  7. SNP5        GG        AG        A        B        A        A
  8. SNP6        CC        TC        A        A        A        B
  9. SNP7        AG        GG        A        A        A        A
  10. SNP8        TC        CC        B        B        A        -
  11. SNP9        TT        CC        A        A        A        B
  12. SNP10        CC        TC        A        A        B        A
  13. SNP11        TT        TG        A        B        A        A
  14. SNP12        AA        AG        A        A        B        A
  15. SNP13        AA        CC        H        A        H        B
  16. [root@localhost ~]#
复制代码

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
4 [报告]
发表于 2014-10-23 10:07 |只看该作者
本帖最后由 LikeLx 于 2014-10-23 10:09 编辑
  1. awk 'NR>1{a[$2]="A";a[$3]="B";a["-"]="-";for(i=3;i++<NF;) if(a[$i])$i=a[$i];else $i="H";delete a}1'
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2014-10-23 10:09 |只看该作者
回复 1# mswsg
  1. $ awk 'BEGIN{FS=OFS="\t"}NR>1{delete a;a["-"]="-";a[$2]="A";a[$3]="B";for(n=4;n<=NF;n++)$n=a[$n]==""?"H":a[$n]}1' FILE
  2. SNP        亲本A        亲本B        SSD1        SSD3        SSD4        SSD7
  3. SNP1        GG        AG        B        B        A        B
  4. SNP2        AG        GG        -        A        A        B
  5. SNP3        CC        TT        A        A        A        A
  6. SNP4        AG        GG        -        A        A        A
  7. SNP5        GG        AG        A        B        A        A
  8. SNP6        CC        TC        A        A        A        B
  9. SNP7        AG        GG        A        A        A        A
  10. SNP8        TC        CC        B        B        A        -
  11. SNP9        TT        CC        A        A        A        B
  12. SNP10        CC        TC        A        A        B        A
  13. SNP11        TT        TG        A        B        A        A
  14. SNP12        AA        AG        A        A        B        A
  15. SNP13        AA        CC        H        A        H        B
复制代码

论坛徽章:
0
6 [报告]
发表于 2014-10-23 10:31 |只看该作者
cat test5 |awk -v ORS=" " '{for(i=4;i<=NF;++i) {if
1) print $i;else if($i=="-") print "-";else if($i==$2) print "A";else if($i==$3)
print "B";else if($i!=$2&&$i!=$3)print "H"}}{print "\n"}'

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
7 [报告]
发表于 2014-10-23 12:57 |只看该作者
awk -vOFS='\t' 'BEGIN{getline;print $0}{for(i=4;i<=NF;i++){if($i=="-")continue;else if($i==$2)$i="A";else if($i==$3)$i="B";else $i="H"}}1' 1.txt
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP