忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 677 | 回复: 8

[文本处理] a.txt b.txt [复制链接]

论坛徽章:
0
发表于 2017-10-10 22:46 |显示全部楼层
cat a.txt
11 duowan.sdf.df.a1
10 duowan.sdf.df.a2
9  duowan.sdf.df.a3
8 duowan.sdf.df.a4
8 duowan.sdf.df.a5cat b.txt
sdf_sdf
ssdffd
sdfh
hdfh
fdhdfgh
dfhfh
ddfh
dfhfh
dfhfdh
dfhfdhhs
sdgdsg
sdfsd
fsdgfg
sdgfs

要求:a.txt中的与 b.txt中的拼接 每次复制a.txt中的数据和b.txt中的拼接,每次拼接之前的数字就+1,不能超过12,知道与b.txt中拼完为止

如下表格忽视)过程
12  duowan.sdf.df.a1=  sdf_sdf
  
11  duowan.sdf.df.a2=  ssdffd
  
10   duowan.sdf.df.a3=  sdfh
  
9  duowan.sdf.df.a4=  hdfh
  
9  duowan.sdf.df.a5=  fdhdfgh
  
12  duowan.sdf.df.a2=  dfhfh
  
11   duowan.sdf.df.a3=  ddfh
  
10  duowan.sdf.df.a4=  dfhfh
  
10  duowan.sdf.df.a5=  dfhfdh
  
12   duowan.sdf.df.a3=  dfhfdhhs
  
11  duowan.sdf.df.a4=  sdgdsg
  
11  duowan.sdf.df.a5=sdfsd
12  duowan.sdf.df.a4=fsdgfg
12  duowan.sdf.df.a5=sdgfs



最终的输出左边的数字可以不要:
duowan.sdf.df.a1=  sdf_sdf
  
duowan.sdf.df.a2=  ssdffd
  
duowan.sdf.df.a3=  sdfh
  
duowan.sdf.df.a4=  hdfh
  
duowan.sdf.df.a5=  fdhdfgh
  
duowan.sdf.df.a2=  dfhfh
  
duowan.sdf.df.a3=  ddfh
  
duowan.sdf.df.a4=  dfhfh
  
duowan.sdf.df.a5=  dfhfdh
  
duowan.sdf.df.a3=  dfhfdhhs
  
duowan.sdf.df.a4=  sdgdsg
  
duowan.sdf.df.a5=sdfsd
duowan.sdf.df.a4=fsdgfg
duowan.sdf.df.a5=sdgfs

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2017-10-11 09:03 |显示全部楼层
本帖最后由 sunzhiguolu 于 2017-10-11 09:09 编辑
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my @data = ();
  5. while(<DATA>){
  6.         last if(/\A\s*\z/);
  7.         my @ary = split;
  8.         next if($ary[0] >= 12);
  9.         push(@data, [@ary]);
  10. }

  11. while(<DATA>){
  12.         my $it;
  13.         do{
  14.                 $it = shift(@data);
  15.         }while(defined($it) and $it->[0]++ >= 12);
  16.         print("$it->[-1]\t$_");
  17.         push(@data, $it) if($it->[0] < 12);
  18. }

  19. __DATA__
  20. 11 duowan.sdf.df.a1
  21. 10 duowan.sdf.df.a2
  22. 9  duowan.sdf.df.a3
  23. 8 duowan.sdf.df.a4
  24. 8 duowan.sdf.df.a5

  25. sdf_sdf
  26. ssdffd
  27. sdfh
  28. hdfh
  29. fdhdfgh
  30. dfhfh
  31. ddfh
  32. dfhfh
  33. dfhfdh
  34. dfhfdhhs
  35. sdgdsg
  36. sdfsd
  37. fsdgfg
  38. sdgfs
复制代码

论坛徽章:
0
发表于 2017-10-11 10:27 |显示全部楼层
回复 2# sunzhiguolu

awk如何实现呢

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:48
发表于 2017-10-11 20:47 |显示全部楼层
回复 1# ma3501406


  1. awk 'function p(){if(j>s){j=1};a[j]++;if(a[j]<13){print b[j],"=",c[i];j++}else{j++;p()}};FILENAME==ARGV[1]{s=NR;a[NR]=$1;b[NR]=$2;next}{t=FNR;c[FNR]=$0}END{j=1;for(i=1;i<=t;i++){p()}}' a.txt b.txt
复制代码

论坛徽章:
0
发表于 2017-10-11 21:40 |显示全部楼层
回复 4# wh7211

大神能讲解下思路吗,不然的话我就自行领悟了...

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:48
发表于 2017-10-12 10:36 |显示全部楼层
本帖最后由 wh7211 于 2017-10-12 10:44 编辑

回复 5# ma3501406


对4楼代码做一下优化。
  1. awk -vf=12 'function p(){n=0;for(m=1;m<=s;m++){a[m]=a[m]>f?f:a[m];n=n?n+a[m]:a[m]};if(n<s*f){j=j>s?1:j;a[j]++;if(a[j]<=f){print b[j],"=",c[i];j++}else{j++;p()}}};FILENAME==ARGV[1]{s=NR;a[NR]=$1;b[NR]=$2;next}{t=FNR;c[FNR]=$0}END{j=1;for(i=1;i<=t;i++){p()}}' a.txt b.txt
复制代码

论坛徽章:
14
子鼠
日期:2014-10-10 15:56:00金牛座
日期:2014-10-10 15:56:20辰龙
日期:2014-10-10 15:56:24午马
日期:2014-10-10 15:56:35申猴
日期:2014-10-10 15:56:39酉鸡
日期:2014-10-10 15:56:57狮子座
日期:2014-10-17 13:32:31双鱼座
日期:2014-11-10 12:34:15双鱼座
日期:2014-10-10 15:57:01双鱼座
日期:2017-02-27 18:11:24摩羯座
日期:2014-11-10 12:33:45巨蟹座
日期:2014-10-10 15:57:15
发表于 2017-10-12 10:46 |显示全部楼层
本帖最后由 chengchow 于 2017-10-12 10:47 编辑
  1. [root@iZuf62sazcxqandkv55wyjZ tmp]# cat aa.py
  2. #!/usr/bin/env python

  3. import os
  4. import sys

  5. ListA=os.popen("awk '{print $NF}' a.txt").read().strip('\r\n').split()
  6. ListB=os.popen("awk '{print $0}' b.txt").read().strip('\r\n').split()

  7. try :
  8.         for i in range(1,len(ListB)) :
  9.                 for a in ListA :
  10.                         print a + ' = ' + ListB[0]
  11.                         del ListB[0]
  12.                 del ListA[0]
  13. except :
  14.         sys.exit(0)
  15. [root@iZuf62sazcxqandkv55wyjZ tmp]# ./aa.py
  16. duowan.sdf.df.a1 = sdf_sdf
  17. duowan.sdf.df.a2 = ssdffd
  18. duowan.sdf.df.a3 = sdfh
  19. duowan.sdf.df.a4 = hdfh
  20. duowan.sdf.df.a5 = fdhdfgh
  21. duowan.sdf.df.a2 = dfhfh
  22. duowan.sdf.df.a3 = ddfh
  23. duowan.sdf.df.a4 = dfhfh
  24. duowan.sdf.df.a5 = dfhfdh
  25. duowan.sdf.df.a3 = dfhfdhhs
  26. duowan.sdf.df.a4 = sdgdsg
  27. duowan.sdf.df.a5 = sdfsd
  28. duowan.sdf.df.a4 = fsdgfg
  29. duowan.sdf.df.a5 = sdgfs
复制代码

论坛徽章:
0
发表于 2017-10-13 02:49 |显示全部楼层
回复 7# chengchow

Python大佬,收徒弟吗

论坛徽章:
0
发表于 2017-11-09 15:26 |显示全部楼层
回复 7# chengchow

不能超过12,没有这个判断呀
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP