12 / 2 页

论坛徽章:: 22

11楼 [报告]

发表于 2015-06-21 16:23 |只看该作者

cat file1
A 1 4
B 5 2
C 7 3
D 10 2
cat file2
2015GZ200a1
cat file3
2015SZ200b1
awk 'BEGIN{"cat file2"|getline var1;"cat file3"|getline var2}NR==FNR{print $1" <["substr(var1,$2,$3)"] >["substr(var2,$2,$3)"]"}' file1
A <[2015] >[2015]
B <[GZ] >[SZ]
C <[200] >[200]
D <[a1] >[b1]

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Feyiz

白手起家

论坛徽章:: 0

12楼

发表于 2015-06-22 00:00

回复 8# yestreenstars

大哥，之前的方法可以实现我的需求，谢谢了；现在需求升级了一下，有时间帮忙看下不

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Feyiz

白手起家

论坛徽章:: 0

13楼

发表于 2015-06-22 00:01

回复 9# zxy877298415

大哥，之前的方法可以实现我的需求，谢谢了；现在需求升级了一下，有时间帮忙看下不

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Feyiz

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2015-06-22 00:02 |只看该作者

回复 10# songyc_2015

大哥，之前的方法可以实现我的需求，谢谢了；现在需求升级了一下，有时间帮忙看下不

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Feyiz

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2015-06-22 00:03 |只看该作者

回复 11# 聆雨淋夜

大哥，之前的方法可以实现我的需求，谢谢了；现在需求升级了一下，有时间帮忙看下不

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

songyc_2015

小富即安

论坛徽章:: 20

16楼 [报告]

发表于 2015-06-22 01:08 |只看该作者

回复 1# Feyiz

awk 'ARGIND==1{
if($1~/^第/)
{
j=0;
a[++i,j]=substr($1,1,3);
next
}
a[i,++j]=$1;
b[i]=length(b[i])?b[i]" "$NF:$NF;
next
}
{
FIELDWIDTHS=b[FNR];
$0=$0;
}
ARGIND==2{
for(i=1;i<=NF;i++)
c[FNR,i]=$i
}
ARGIND==3{
for(i=1;i<=NF;i++)
{
if (c[FNR,i] != $i)
{
printf("%s\t%s\t<[%s]\t>[%s]\n",a[FNR,0],a[FNR,i], c[FNR,i], $i);
}
}
}
' 1 2 3
第一组 B <[GZ200 ] >[SZ0200]
第二组 C <[201506] >[201505]
第三组 H <[4123c] >[1 c]

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

substr函数

腰缠万贯

论坛徽章:: 26

17楼 [报告]

发表于 2015-06-22 11:00 |只看该作者

文件file1file2file3的内容如下：

file1:
第一组变量名起始位置长度
A 1 4
B 5 6
第二组变量名起始位置长度
C 1 6
D 7 2
E 6 1
F 7 6
第三组变量名起始位置长度
G 1 2
H 3 5
file2:
2015GZ200 a1
201506GZA1
114123cc66
file3:
2015SZ0200a1
201505GZA1
111 cc66

复制代码

输出结果

第一组 B <[GZ200 ] >[SZ0200]
第二组 C <[201506] >[201505]
第二组 E <[6] >[5]
第三组 H <[4123c] >[1 c]

复制代码

方法
python2 f123.py file1 file2 file3
代码

#!/usr/bin/python2
# coding: utf-8
# python2 f123.py file1 file2 file3
import sys
FILES = [open(f) for f in sys.argv[1:]]
group, file2, file3 = '', '', ''
for line in FILES[0]:
if line.startswith('第'):
end = line.index('变')
group = line[:end]
file2, file3 = [x.next() for x in FILES[1:]]
continue
ELEMENTS = line.split()
START, LEN = [int(i) for i in ELEMENTS[1:]]
SUB2, SUB3 = [l[START - 1:START + LEN - 1] for l in [file2, file3]]
if SUB2 != SUB3:
print "%s\t%s\t<[%s]\t>[%s]" % (group, ELEMENTS[0], SUB2, SUB3)
for f in FILES:
f.close()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

18楼 [报告]

发表于 2015-06-23 07:03 |只看该作者

回复 1# Feyiz

第一问牙膏挤不完...

$ bash diff.sh
第一组 B  <[GZ200 ]          >[SZ0200]          st=5,len=6
第二组 C  <[201506]          >[201505]          st=1,len=6
第二组 E  <[6]                >[5]                st=6,len=1
第三组 H  <[4123c]          >[1 c]          st=3,len=5

$ cat check.txt
第一组变量名起始位置长度
A                1       4
B                5       6
第二组变量名起始位置长度
C                1       6
D                7       2
E                6       1
F                7       6
第三组变量名起始位置长度
G                1       2
H                3       5

$ bash diff.sh
第一组 B  <[GZ200 ]          >[SZ0200]          st=5,len=6
第二组 C  <[201506]          >[201505]          st=1,len=6
第二组 E  <[6]                >[5]                st=6,len=1
第三组 H  <[4123c]          >[1 c]          st=3,len=5
jason@jason-VirtualBox:~
$ cat diff.sh
awk '
function get(file, data){
  getline data < file;
  return data;
}
match($0,/(第..)/,m){
  a=get("a.txt");
  b=get("b.txt");
  item = m[1];
  next;
}
{
as=substr(a, $2, $3);
bs=substr(b, $2, $3);
if(as != bs){
   printf("%s %c  %-20s %-20s st=%d,len=%d\n",
         item, $1, "<["as"]", ">["bs"]", $2, $3 );
}
}' check.txt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Feyiz

白手起家

论坛徽章:: 0

19楼 [报告]

发表于 2015-06-23 22:33 |只看该作者

本帖最后由 Feyiz 于 2015-06-23 22:49 编辑

首先，感谢：songyc_2015、substr函数、jason680 三位；你们精简的脚本让我学到了很多东西。
songyc_2015兄的这几句，个人感觉很妙，佩服
if($1~/^第/)
{
      j=0;
      a[++i,j]=substr($1,1,3);
      next
}
a[i,++j]=$1;
b=length(b)?b" "$NFNF;
next
}
-------------------------------------------------------
substr函数兄的python脚本想必也有其精妙所在，可惜本人暂时对python不太懂，只能拿来用
-------------------------------------------------------
jason680兄的自定义函数实在是高，以前只知道awk有自定义函数功能，但是一直不知道怎么使用

其次，对于jason680兄说的 “第一问牙膏挤不完...”；我是想学习一下你们从简单到复杂考虑问题的思路；一下把“牙膏挤完”，我怕自己看不懂跟不上你们的思路。其实这个需求还有一个终极版，本人想先结合你们给出的脚本与思路己学习尝试下自己能否搞定，再次感谢给位

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 比较并打印两个定长文本各个字段的差异

[文本处理] 比较并打印两个定长文本各个字段的差异 [复制链接]

浏览过的版块