免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: mswsg
打印 上一主题 下一主题

[文本处理] 多文件第一列相同,第二列合并成一行 [复制链接]

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
11 [报告]
发表于 2015-12-18 17:36 |只看该作者
回复 9# substr函数

但是报错:

da@da:~/try$ cat a.txt
aa 11
bb 22
cc 33
dd 44
da@da:~/try$ cat b.txt
aa 111
bb 222
cc 333
da@da:~/try$ cat c.txt
aa 1111
bb 2222
cc 3333

da@da:~/try$ cat 1.py
#!/usr/bin/python2
# coding: utf-8

import sys

KEY = sys.argv[1:]
DIC = {}

for F in KEY:
    for L in open(F):
        k, v = L.split()
        DIC.setdefault(k, {})[F] = v

print 'name\t', '\t'.join(KEY)

for k, v in DIC.items():
    print k, '\t', '\t'.join(v if i in v else '0' for i in KEY)
da@da:~/try$ python2 1.py a.txt b.txt c.txt
Traceback (most recent call last):
  File "1.py", line 11, in <module>
    k, v = L.split()
ValueError: need more than 0 values to unpack
   

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
12 [报告]
发表于 2015-12-18 17:40 |只看该作者
回复 9# substr函数

但是报错:

da@da:~/try$ cat a.txt
aa 11
bb 22
cc 33
dd 44
da@da:~/try$ cat b.txt
aa 111
bb 222
cc 333
da@da:~/try$ cat c.txt
aa 1111
bb 2222
cc 3333

da@da:~/try$ cat 1.py
#!/usr/bin/python2
# coding: utf-8

import sys

KEY = sys.argv[1:]
DIC = {}

for F in KEY:
    for L in open(F):
        k, v = L.split()
        DIC.setdefault(k, {})[F] = v

print 'name\t', '\t'.join(KEY)

for k, v in DIC.items():
    print k, '\t', '\t'.join(v if i in v else '0' for i in KEY)
da@da:~/try$ python2 1.py a.txt b.txt c.txt
Traceback (most recent call last):
  File "1.py", line 11, in <module>
    k, v = L.split()
ValueError: need more than 0 values to unpack
   

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-12-17 06:20:00
13 [报告]
发表于 2015-12-18 17:54 |只看该作者
file_list=($*)

echo -e "NAME\t${file_list[*]}"
for str in `awk '{print $1}' ${file_list[@]}|sort -u`
do
echo -e "\n${str}\t\c"
   for((i=0;i<${#file_list[@]};i++))
      do

      content=0
if [ $(grep -c "${str}" ${file_list[${i}]}) -gt 0 ];then

content=$(awk -v s=${str} '{if($1==s)print $2}' ${file_list[${i}]})

fi
echo -e "${content} \c"

     done

done
echo ""
[root@db test]# ./tn.sh a.txt b.txt
NAME    a.txt b.txt

ACC     0 1.0
ATG     1.3 2.0
ATT     1.1 2.3
CTG     1.2 2.1
[root@db test]# ./tn.sh a.txt b.txt c.txt
NAME    a.txt b.txt c.txt

ABC     0 0 3.0
ACC     0 1.0 0
ATG     1.3 2.0 2.1
ATT     1.1 2.3 2.3
CTG     1.2 2.1 2.1

结果

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-12-24 06:20:00
14 [报告]
发表于 2015-12-21 14:51 |只看该作者
awk '{file_num+=FNR==1?1:0;len=length(a[$1]);if(len<file_num-1){for (i=1;i<=file_num-1;i++) a[$1]=a[$1]" 0.0"}a[$1]=a[$1]" "$2}END{for (i in a){for (k=1;k<=file_num-split(a[i],b," ");k++) a[i]=a[i]" 0.0";print i, a[i]}}' file1 file2 file3 .....

论坛徽章:
6
处女座
日期:2014-04-02 16:07:17酉鸡
日期:2014-04-14 10:09:22子鼠
日期:2014-04-17 11:57:30辰龙
日期:2014-09-01 17:14:08戌狗
日期:2014-10-28 12:25:54未羊
日期:2014-11-14 11:31:58
15 [报告]
发表于 2015-12-22 13:46 |只看该作者
本帖最后由 rulebook 于 2015-12-22 14:33 编辑
  1. awk 'FNR==1{f=f?f" "FILENAME:FILENAME} NR==FNR{a[$1]=$2;next} b[ARGIND]==0{for(i in a){a[i]=a[i]" @"};b[ARGIND]=1;s="";for(i=1;i<ARGIND;i++){s=s" "0}} {a[$1]=a[$1]?gensub(/@/,$2,"g",a[$1]):s" "$2} END{print "filename "f;for(i in a){gsub(/@/,0,a[i]);print i" "a[i]}}' s1 s2 s3
复制代码

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
16 [报告]
发表于 2015-12-22 18:36 |只看该作者
回复 10# drdachen

python2 p1.py a.txt b.txt c.txt

喔, 没有问题 [   ]
  1. name        a        b        c
  2. aa         11        111        1111
  3. cc         33        333        3333
  4. dd         44        0        0
  5. bb         22        222        2222
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP