论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-03-31 15:32 |只看该作者 |倒序浏览

本帖最后由 orctyr 于 2010-03-31 16:07 编辑

我有一组大约10万行的数据，如下：
10000001 10000003
10000001 10000006
10000006 10000003
10000004 10000006
10000020 10000021
10000005 10000007
10000008 10000005
10000005 10000009
10000016 10000017
10000023 10000024
10000023 10000025
10000024 10000025
。。。。。。

每一行的两个数据是相关联的，不同行中的相同数据也是相关联的，我需要将它们归总在一起，得到的结果如下：
1 10000001
1 10000003
1 10000006
1 10000004
2 10000005
2 10000007
2 10000008
2 10000009
3 10000016
3 10000017
4 10000020
4 10000021
5 10000023
5 10000024
5 10000025

补充：比如第一行是“10000001 10000003”，那么这两个数是一组，以后出现任意一个含有这两个数的行，另外一个数据也可归在一起（“10000001 10000006”），此时10000001 10000003 10000006是一组。
处理之前先排序也是可以的，但是效果不明显。

awk, 归类, 数据, awk, 归类, 数据

文库|博客

wtuter

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2010-03-31 15:47 |只看该作者

回复 1# orctyr

没什么规历吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

709101040516

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2010-03-31 15:54 |只看该作者

完全看不懂。。强大！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Shell_HAT

版主

论坛徽章:: 33

4楼 [报告]

发表于 2010-03-31 15:59 |只看该作者

眼拙，看不错规律。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ywlscpl

富甲一方

论坛徽章:: 0

5楼 [报告]

发表于 2010-03-31 16:06 |只看该作者

awk '!($1 in a)&&!($2 in a){for (i in a) print n,i;n++;delete a}{a[$1];a[$2]}END{for (i in a) print n,i}' file | sort -k1,1n -k2,2n

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

709101040516

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2010-03-31 16:16 |只看该作者

这规律太强大了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

orctyr

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2010-03-31 16:29 |只看该作者

回复 5# ywlscpl
测试了一个4000行的数据，发现存在问题。附件中：比如10004895这个数出现在了两个不同组中。还有一些其他不对的地方。

test.tar.gz (48.29 KB, 下载次数: 59)
其中out.txt是我用c写的脚本得到的结果（速度极慢，不过是正确的）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ywlscpl

富甲一方

论坛徽章:: 0

8楼 [报告]

发表于 2010-03-31 16:34 |只看该作者

回复 7# orctyr

5楼的依赖于同组的是连续的
如
1 3
2 3
1 4
7 8

后面不会再出现第1组中的数据如2 4

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunbw001

家境小康

论坛徽章:: 0

9楼 [报告]

发表于 2010-03-31 23:00 |只看该作者

试试：

awk 'BEGIN{t=1;a[0]=1;b=1}{for(i=1;i<length(a);i++){if(index(a[i],$1)){a[i]=a[i]"\n"i"\t"$2;b=0}else{if(index(a[i],$2)){a[i]=a[i]"\n"i"\t"$1;b=0}else{b=1}}};if(b==1){a[t]=t"\t"$1"\n"t"\t"$2;t++}}END{for(j=1;j<length(a);j++){print a[j]}}' data |sort -u

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

709101040516

小富即安

论坛徽章:: 0

10楼 [报告]

发表于 2010-04-01 09:19 |只看该作者

怎么都流行单行脚本啊。。。。。脚本不一定非得写成一行啊。。。写的行多反倒比较好理解。好修正

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 / 4 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › ［awk］数据归类

［awk］数据归类 [复制链接]

浏览过的版块