论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2017-09-21 12:28 |只看该作者 |倒序浏览

有一个数据文件a：
# 990430_232320 000210_132231 0.0
YOS -0.22000003
YUL 0.079999924
# 990501_000720 000210_132231 0.0
LIJ -0.080000043
YUL 0.12 1 P
# 990707_214529 000210_132231 0.0
YOS 0.059999943
# 990907_090133 000210_132231 0.0
BAS 0.38 1 P
# 991027_211412 000210_132231 0.0
HEQ -0.65999997

其中#后的两列为ID（旧），此外还有一ID列表b，第一列为旧的ID，第二列为新的ID：
000210_132231 1001
990430_232320 1002
990501_000720 1003
990707_214529 1004
990907_090133 1005
991027_211412 1006
现在想把a中的所有旧ID替换成新的ID，生成文件c：
# 1002 1001 0.0
YOS -0.22000003
YUL 0.079999924
# 1003 1001 0.0
LIJ -0.080000043
YUL 0.12 1 P
# 1004 1001 0.0
YOS 0.059999943
# 1005 1001 0.0
BAS 0.38 1 P
# 1006 1001 0.0
HEQ -0.65999997

我之前用sed一个一个替换，但是由于数据太多，执行效率太低了，后来用awk的双文件处理，但是执行过程中会出错，命令如下：
awk 'NR==FNR{a[$1]=$2;next}NR>FNR{if($2 in a)print $1,a[$1],$3,$4;else print $0}' b a > temp
awk 'NR==FNR{a[$1]=$2;next}NR>FNR{if($3 in a)print $1,$2,a[$1],$4;else print $0}' b temp > c

请问是哪里出错了，应该怎样做，谢谢！

文库|博客

jason680

富可敌国

论坛徽章:: 145

2楼 [报告]

发表于 2017-09-21 12:41 |只看该作者

回复 1# ilovefushun

$ awk 'FNR==NR{a[$1]=$2;next}/^#/{for(n=2;n<NF;++n)if($n in a)$n=a[$n]}1' b a > c

$ cat c
# 1002 1001 0.0
YOS -0.22000003
YUL 0.079999924
# 1003 1001 0.0
LIJ -0.080000043
YUL 0.12 1 P
# 1004 1001 0.0
YOS 0.059999943
# 1005 1001 0.0
BAS 0.38 1 P
# 1006 1001 0.0
HEQ -0.65999997

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ilovefushun

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2017-09-21 13:06 |只看该作者

回复 2# jason680

可以了，谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

4楼 [报告]

发表于 2017-09-21 13:21 |只看该作者

#!/usr/bin/perl
use strict;
use warnings;
my $keys = {};
while(<DATA>){
last if(/\A\s*\z/);
my ($old, $new) = split;
$keys->{$old} = $new;
}
while(<DATA>){
if(!/\A#/){
print;
next;
}
foreach my $id (grep {exists($keys->{$_})} (split)[1, 2]){
s/$id/$keys->{$id}/;
}
print;
}
__DATA__
000210_132231 1001
990430_232320 1002
990501_000720 1003
990707_214529 1004
990907_090133 1005
991027_211412 1006
# 990430_232320 000210_132231 0.0
YOS -0.22000003
YUL 0.079999924
# 990501_000720 000210_132231 0.0
LIJ -0.080000043
YUL 0.12 1 P
# 990707_214529 000210_132231 0.0
YOS 0.059999943
# 990907_090133 000210_132231 0.0
BAS 0.38 1 P
# 991027_211412 000210_132231 0.0
HEQ -0.65999997

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

龙牙地主天

小富即安

论坛徽章:: 8

5楼 [报告]

发表于 2017-09-21 14:14 |只看该作者

本帖最后由龙牙地主天于 2017-09-21 14:23 编辑

awk 'NR==FNR{a[$1]=$2 ; next}/^#/{for(i in a) {if($2==i) $2=a[$2] ; if($3==i) $3=a[$3]}}1' b a

复制代码

awk 'NR==FNR{a[$1]=$2 ; next}/^#/{for(i in a) {if($2==i) $2=a[$2] ; if($3==i) $3=a[$3]}}{print > "c"}' b a

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wh7211

版主

论坛徽章:: 25

6楼 [报告]

发表于 2017-09-21 14:17 |只看该作者

本帖最后由 wh7211 于 2017-09-21 14:22 编辑

回复 1# ilovefushun

awk 'NR==FNR{a[$1]=$2;next}/^#/{$2=$2 in a?a[$2]:$2;$3=$3 in a?a[$3]:$3}{print>"c"}' b a

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

本友会机友会摄友会本友会机友会摄友会当前离线禁止发言好友博客消息论坛徽章: 0	7楼 [报告] 发表于 2017-09-21 15:10 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

ilovefushun

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2017-09-21 15:49 |只看该作者

本帖最后由 ilovefushun 于 2017-09-21 16:00 编辑

回复 2# jason680

不好意思，还有一个问题。if($2 in a)，表示如果$2的值在数组a中，则执行后面的命令，我想问一下如果$2的值不在数组a中应该怎么写？if(! $2 in a)，if !($2 in a)，!(if($2 in a))，这几种写法都试了，但是都运行不了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

9楼 [报告]

发表于 2017-09-21 16:02 |只看该作者

本帖最后由 jason680 于 2017-09-21 16:05 编辑

回复 8# ilovefushun

$ echo 1 2 3 4 x y z| awk 'BEGIN{a[1]=a[4]=a["y"]=1}{for(n=1;n<=NF;++n)if($n in a)print $n}'
1
4
y

$ echo 1 2 3 4 x y z| awk 'BEGIN{a[1]=a[4]=a["y"]=1}{for(n=1;n<=NF;++n)if(!($n in a))print $n}'
2
3
x
z

$ echo 1 2 3 4 x y z| awk 'BEGIN{a[1]=a[4]=a["y"]=1}{for(n=1;n<=NF;++n)if($n in a)print "yes:"$n;else print "no:"$n}'
yes:1
no:2
no:3
yes:4
no:x
yes:y
no:z

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ilovefushun

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2017-09-21 16:04 |只看该作者

回复 9# jason680

哦，知道了，谢谢您！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › linux下批量替换的问题

[文本处理] linux下批量替换的问题 [复制链接]

浏览过的版块