1 2 3 45 / 5 页

论坛徽章:: 3

41楼 [报告]

发表于 2009-01-07 10:17 |只看该作者

原帖由 我是DBA 于 2009-1-7 10:08 发表
awk -F, '{delete a;for(i=1;i<=NF;i++)a[$i]++ ; for(j in a) {printf "%s,", j ;}print ""}' data |sed 's/.$//'

, 分割字段
读入新行处理
1 如果数组a存在，删除之
2 遍历字段，以字段值为索引创建数组a的元素，值为该字段值出现次数。（a[$i]++相当于a[$i] = a[$i] + 1）
3 遍历数组a, 输出索引（字段值）和1个逗号。（最后一个字段后会有个多余的逗号）
4 输出换行
5 用sed去掉末尾的逗号

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kelaisile

白手起家

论坛徽章:: 0

42楼 [报告]

发表于 2009-01-08 17:43 |只看该作者

简单的方法。弄到UE里。把逗号替换成换行。再贴到excel里。然后，筛选不重复记录，就行啦！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bangongshi_

白手起家

论坛徽章:: 0

43楼 [报告]

发表于 2009-01-09 09:27 |只看该作者

照《unix SHELL实例精解》书上实例改动一下。不知对不对。
awk -F "[, ]" '{ for (i=1; i<=NF; i++) id[$i]++ } END { for (j in id) print j }' file

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bangongshi_

白手起家

论坛徽章:: 0

44楼 [报告]

发表于 2009-01-09 09:54 |只看该作者

awk -F "[, ]" '{ for (i=1; i<=NF; i++) id[$i]++ } END { for (j in id) print j, id[$j] }' file
能将所有字段以及重复次数打印出来。
其中172.26.19.21字段有俩种，因为有一个172.26.19.21字段尾部有空格。awk将它另外归为一种。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunbw001

家境小康

论坛徽章:: 0

45楼 [报告]

发表于 2009-01-15 19:54 |只看该作者

awk -F, '{delete a;for(i=1;i<=NF;i++){a[$i]++};for(k in a){z++};for(j in a){x++;printf x==z?"%s":"%s,", j};print ""}' data

awk中怎么计算数组长度呢？
哪位高手知道，请教
除了for(k in a){z++}这种方式