12 3 / 3 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-04-15 16:05 |只看该作者 |倒序浏览

将文本中含有相同数据（只要有一个数据相同就行）的行合并为一行并去除重复

cat test.2
2 3
8 9 10
7 8
12
3 4
6 11
5 7
8 12

复制代码

希望得到的结果

cat result.2
2 3 4
8 9 10 7 5 12
6 11

复制代码

数据这样得到的
{2,3}{3,4}因为有共同数3所以合并为一行
{8,9,10}{7,8}{5,7}{12}{8,12}因为分别有共同数，7,8,12也合并为一行
而{6,11}没有与其他行有共同数，单独成行
==========================================================================
贴子以前发过感谢 yinyuemi 的解答
但是那个帖子我的问题描述不清，导致得到的解答的结果有问题
==========================================================================
特从新贴出来，希望哪位大侠给予解答

文库|博客

ly5066113

巨富豪门

论坛徽章:: 23

2楼 [报告]

发表于 2013-04-15 16:51 |只看该作者

try:

sed -n '
s/.*/ & /
H
${
g
:a
s/\n$[0-9 ]*$$ [0-9]\{1,\} $$[0-9 ]*$$\n$$.*$\2/\4\5\1\2\3/
ta
s/^\n//p
}' file

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

debateshang

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-04-15 17:42 |只看该作者

回复 2# ly5066113
非常感谢您的回复，虽然对您的代码表示看不懂，但是执行情况很好
但是我的数据量非常大，有几千行数据，用您的算法，计算的时间非常长，
计算半小时了，结果还没有出来
所以有没有办法将算法加速呢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ly5066113

巨富豪门

论坛徽章:: 23

4楼 [报告]

发表于 2013-04-15 18:19 |只看该作者

回复 3# debateshang

真实的数据贴几行，看看是不是会造成有死循环，否则几千行数据没理由跑那么久。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

debateshang

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2013-04-15 18:25 |只看该作者

回复 4# ly5066113

data.tar.gz (78.09 KB, 下载次数: 23) 我将数据传上取了，但是请问我怎么看有没有死循环，确实计算一个小时也没有计算出来，应该是有死循环
那这说明数据有问题？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zooyo zooyo 当前离线禁止发言好友博客消息论坛徽章: 3	6楼 [报告] 发表于 2013-04-15 20:11 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
zooyo zooyo 当前离线禁止发言好友博客消息论坛徽章: 3	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

cao627

富足长乐

论坛徽章:: 6

7楼 [报告]

发表于 2013-04-15 23:30 |只看该作者

awk '{for(i=1;i<=NF;i++)c[NR]=$0;b[NR]=NF;++nr}END{for(k=nr;k>=2;k--){split(c[k],d);for(j=k-1;j>=1;j--){for(n=1;n<=b[k];n++)if(c[j] ~ d[n]){sub(d[n],"",c[k]);c[j]=c[j]" "c[k];b[j]=b[j]+b[k]-1;c[k]="";n=100000000;j=0}}}for(i=1;i<=nr;i++)if(c[i])print c[i]}' test.txt

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

debateshang

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2013-04-15 23:37 |只看该作者

本帖最后由 debateshang 于 2013-04-15 23:38 编辑

回复 7# cao627
感谢您的指点，但是程序好像有点问题

cat test1
2 3 4 5 9 8
7 8
5 6
11 12
4 2 3

复制代码

awk '{for(i=1;i<=NF;i++)c[NR]=$0;b[NR]=NF;++nr}END{for(k=nr;k>=2;k--){split(c[k],d);for(j=k-1;j>=1;j--){for(n=1;n<=b[k];n++)if(c[j] ~ d[n]){sub(d[n],"",c[k]);c[j]=c[j]" "c[k];b[j]=b[j]+b[k]-1;c[k]="";n=100000000;j=0}}}for(i=1;i<=nr;i++)if(c[i])print c[i]}' test1
2 3 4 5 9 8 11 12 3 6 7

复制代码

应该得到的结果

2 3 4 5 9 7 6 8
11 12

复制代码

将每一行如果有相同的元素，就去重复合并，没有就另起一行，对于每行输出的顺序没有要求

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rubyish

大富大贵

论坛徽章:: 7

9楼 [报告]

发表于 2013-04-16 06:24 |只看该作者

本帖最后由 rubyish 于 2013-04-16 04:39 编辑

看看:

#!/usr/bin/perl
# abc.pl
my %h;
while (<>) {
my ( @a, %g ) = split;
@g{@a} = (undef) x @a;
for (@a) {
next if !$h{$_} or $g{$_};
map $g{$_}++, keys %{ $h{$_} };
}
my @k = keys %g;
my $t = { map { $_, 1 } @k };
@h{@k} = ($t) x @k;
}
while ( my ( undef, $v ) = each %h ) {
my @v = keys $v;
print "@v$/";
delete @h{@v};
}

复制代码

perl abc.pl test.txt
复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ly5066113

巨富豪门

论坛徽章:: 23

10楼 [报告]

发表于 2013-04-16 08:55 |只看该作者

本帖最后由 ly5066113 于 2013-04-16 09:06 编辑

回复 5# debateshang

行与行之间的冗余项很多，原来的代码有点小问题，改成这样虽然可以得到正确的结果，但速度确实很慢很慢。

sed -n '
s/.*/ & /
H
${
g
:a
:b
s/ $[0-9]\{1,\}$ $[0-9 ]*$\1 / \1 \2/
tb
s/\n$[0-9 ]*$$ [0-9]\{1,\} $$[0-9 ]*$$\n$$.*$\2/\4\5\1\2\3/
ta
s/^\n//p
}' file

复制代码

用下面的awk试试，我这里3分钟可以跑出来。

awk '{m=NR;for(i=1;i<=NF;i++)if($i in a)m=m<a[$i]?m:a[$i];for(i=1;i<=NF;i++){k=a[$i];for(j in a)if(a[j]==k)a[j]=m}}END{for(i in a)b[a[i]]++;for(i in b){for(j in a)if(a[j]==i)printf j" ";print ""}}' file

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › [求助]将文本中数据合并

zooyo zooyo 当前离线禁止发言好友博客消息论坛徽章: 3	6楼 [报告] 发表于 2013-04-15 20:11 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
zooyo zooyo 当前离线禁止发言好友博客消息论坛徽章: 3	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

[文本处理] [求助]将文本中数据合并 [复制链接]

浏览过的版块