免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2968 | 回复: 6
打印 上一主题 下一主题

[文本处理] 如何计算两列数字的和并筛选得到和值最大的出来 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-11-01 10:13 |只看该作者 |倒序浏览
本帖最后由 chenjiali1 于 2014-11-01 10:14 编辑

大家好,我有个文件,格式如下
ENSMUSG00000178331 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237660,
ENSMUSG00000178332 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237668,
我想计算第四列和第五列用逗号分开的数值互相对应两两相减后(需要加个1)的总和,即第一行
3235929-3235526+1
+
3237412-3237285+1
+
3237660-3237591+1
= 602

第二行和第一行相同的算法,不过总和为610。
我现在想把第二列相同的ID,选取按照刚才算法得到总和最大的输出来,并把加好的和放到第六列,生成新的格式是这样的(只输出和最大的就OK了)
ENSMUSG00000178332 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237668,      610



请问各位改如何实现。谢谢大家!

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
2 [报告]
发表于 2014-11-01 11:11 |只看该作者
回复 1# chenjiali1
  1. awk -vFS='[ ,]+' '{_sum_=$7+$8+$9-$6-$5-$4+3;if(a[$2]&&a[$2]<_sum_)b[$2]=$0""_sum_;else if(!a[$2]){a[$2]=_sum_;b[$2]=$0""_sum_}}END{for(i in b)print b[i]}'
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-11-01 11:39 |只看该作者
回复 2# bulletmarquis


    我的文件,分割的那列不是只有3个的,所以不统一,得用for循环来做吧,我写老是有问题,求指点。

论坛徽章:
0
4 [报告]
发表于 2014-11-01 12:21 |只看该作者
本帖最后由 love_shift 于 2014-11-01 12:23 编辑

回复 3# chenjiali1
  1. awk '{sa=sc=0;split($4,a,",");split($5,c,",");for(i in a)sa+=a[i];for(i in c)sc+=c[i];_sum_=sc-sa+3;if(a[$2]&&a[$2]<_sum_)b[$2]=$0""_sum_;else if(!a[$2]){a[$2]=_sum_;b[$2]=$0""_sum_}}END{for(i in b)print b[i]}'  file
复制代码
直接根据2楼  bulletmarquis 大神修改就好了~
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2014-11-01 20:57 |只看该作者
回复 3# chenjiali1

$ cat FILE
ENSMUSG00000178331 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237660,
ENSMUSG00000178332 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237668,
ENSMUSG00000178331 ENSMUST00000178335      5      1,2,3,4,5,  6,7,8,9,10,
ENSMUSG00000178331 ENSMUST00000178335      5      11,12,13,14,15, 11,12,13,14,15

$ awk 'function sum(x,y,c,s){split(x,t,",");for(c in t)if(t[c]!="")s+=t[c]+y;return(s)}{d=sum($5,1)-sum($4);if(a[$2]==""||a[$2]<d){a[$2]=d;p[$2]=$0}}END{for(n in a)print p[n]"\t"a[n]}' FILE
ENSMUSG00000178332 ENSMUST00000178331      3      3235526,3237285,3237591,  3235929,3237412,3237668,        610
ENSMUSG00000178331 ENSMUST00000178335      5      1,2,3,4,5,  6,7,8,9,10,        30

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
6 [报告]
发表于 2014-11-03 10:26 |只看该作者
本帖最后由 yestreenstars 于 2014-11-03 10:31 编辑
  1. awk '{l=split($4,a,",");split($5,b,",");for(i=0;++i<l;)c[$2]+=b[i]-a[i]+1;if(c[$2]>d[$2]){d[$2]=c[$2];e[$2]=$0"\t"d[$2]};c[$2]=0}END{for(i in e)print e[i]}'
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2014-11-03 10:27 |只看该作者
回复 4# love_shift

目测超过3列你这个也有问题
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP