免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2862 | 回复: 18

[文本处理] 比较并打印两个定长文本各个字段的差异 [复制链接]

论坛徽章:
0
发表于 2015-06-18 23:42 |显示全部楼层
本帖最后由 Feyiz 于 2015-06-21 23:57 编辑

需求:
1)文件file1的内容如下:
     变量名   起始位置   长度
        A           1         4
        B           5         2
        C           7         3
        D           10       2
        ……
2)文件file2的内容如下:
     2015GZ200a1……
3)文件file3的内容如下:
     2015SZ200b1……
预期输出结果:
     实际与预期不相符的变量如下:
     B    <[GZ]   >[SZ]
     D    <[a1]    >[b1]
即根据文件file1中的变量定义,比较文件file2与文件file3的差异,并打印出有差异的变量名和两个文件file2与file3对应的变量值
个人感觉用awk应该可以实现,奈何本人对awk同时处理多个文件的方法了解的不够,希望有时间的大神指导一下,多谢

本帖5到8楼的几位高手已经给出以上需求的实现思路与具体脚本;现在升级下需求,具体如下:

升级后的需求:
1)文件file1的内容如下:
     第一组变量名   起始位置   长度
        A                   1         4
        B                   5         6
        ……
        ……
     第二组变量名   起始位置   长度
        C                   1         6
        D                   7         2
        E                   6         1
        F                   7         6
        ……
        ……
     第三组变量名   起始位置   长度
        G                   1        2
        H                   3        5
        ……
2)文件file2的内容如下:
     2015GZ200 a1……
     201506GZA1……
     114123cc66……
3)文件file3的内容如下:
     2015SZ0200a1……
     201505GZA1……
     111   cc66……
预期输出结果:
     实际与预期不相符的变量如下:
     第一组  B    <[GZ200 ]   >[GZ0200]
     第二组  C    <[201506]   >[201505]
     第三组  H    <[123cc]     >[   cc]
即根据文件file1中的变量定义,比较文件file2与文件file3的差异,并打印出有差异的变量名所在的组号和两个文件file2与file3对应的变量值
注:与升级前的需求相比,变量中可能会包含空格

本人现在能想到的方法是,可以通过把文件file1、文件file2与文件file3分别拆分为三个文件,然后按照5至8楼的思路去处理,可以实现;
请教一下各位,有没有比这简单的方法或者思路,请指点一下

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
发表于 2015-06-19 09:35 |显示全部楼层
awk -vFIELDWIDTH="4 2 5" 'BEGIN{split("ABC",s,"")}NR==FNR{for(i=1;i<=NF;i++)a[i]=$i;next}{for(i=1;i<=NF;i++){if($i!~"^"a[i]"$"){print s[i],"<["a[i]"]; >["$i"]"}}}' file1 file2
没测试~

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
发表于 2015-06-19 10:43 |显示全部楼层
不给样例文本样例结果的题看的略蛋疼

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2015-06-19 12:21 |显示全部楼层
回复 3# reyleon

深有同感,看得蛋好疼~
   

论坛徽章:
0
发表于 2015-06-20 22:20
回复 2# yinyuemi
你好,我重新编译了下需求,并给出了简短的样例,帮忙指导下怎么实现,谢谢

   

论坛徽章:
0
发表于 2015-06-20 22:21
回复 3# reyleon
你好,我重新编辑了下需求,并给出了简短的样例,帮忙看下如何实现可以吗,谢谢

   

论坛徽章:
0
发表于 2015-06-20 22:22
回复 4# yestreenstars
你好,补充了一下需求样例,帮忙看下如何实现,或者指点一下,谢谢

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2015-06-20 23:27 |显示全部楼层
回复 7# Feyiz
  1. awk 'ARGIND==1&&FNR>1{a[$1]=$2;b[$1]=$3}ARGIND==2{for(i in a)c[i]=substr($0,a[i],b[i])}ARGIND==3{for(i in a)d[i]=substr($0,a[i],b[i])}END{for(i in a)if(c[i]!=d[i])printf "%s\t<[%s]\t>[%s]\n",i,c[i],d[i]}' file1 file2 file3
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
发表于 2015-06-21 11:01 |显示全部楼层
本帖最后由 zxy877298415 于 2015-06-21 11:33 编辑
  1. awk 'ARGIND==1{a[$1]=$2" "$3;}ARGIND==2{b=$0}ARGIND==3{c=$0}
  2. END{for(i in a){split(a[i],e," ");s=substr(b,e[1],e[2]);k=substr(c,e[1],e[2]);if(s!=k) print i,"<["s"]",">["k"]"}}' file1 file2 file3
  3. B <[GZ] >[SZ]
  4. D <[a1] >[b1]
复制代码
回复 1# Feyiz


   

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
发表于 2015-06-21 13:34 |显示全部楼层
回复 1# Feyiz
  1. awk 'ARGIND==1{
  2.     if(FNR==1)next;
  3.     a[++i]=$1;
  4.     s=length(s)?s" "$NF:$NF;
  5.     next
  6. }
  7. {
  8.     FIELDWIDTHS=s;
  9.     $0=$0;
  10. }
  11. ARGIND==2{
  12.     for(i=1;i<=NF;i++)
  13.         b[FNR,i]=$i
  14. }
  15. ARGIND==3{
  16.     for(i=1;i<=NF;i++)
  17.     {
  18.         if (b[FNR,i] != $i)
  19.         {
  20.             printf("%s\t<[%s]\t>[%s]\n",a[i], b[FNR,i], $i);
  21.         }
  22.     }
  23. }
  24. ' 1 2 3

  25. B       <[GZ]   >[SZ]
  26. D       <[a1]   >[b1]
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP