Chinaunix

标题: 如何统计出现的不重复单词的 [打印本页]

作者: Jenny.Palmy 时间: 2008-12-09 15:10
标题: 如何统计出现的不重复单词的
例如有一个数据集:

A B C
B D G T
J E O W R

其中出现的不重复单词为A B C D E J O R T W,
请问用什么命令可以统计出上面的结果
谢谢

作者: blackold 时间: 2008-12-09 15:18
标题: 回复 #1 Jenny.Palmy 的帖子
不重复单词？ B不重复吗？

作者: welcome008 时间: 2008-12-09 15:18
tr " " "\n" <filename|sort -u|tr "\n" " "

作者: ly5066113 时间: 2008-12-09 15:20
awk 'BEGIN{RS="[ \n]+";ORS=" "}!a[$0]++' urfile

作者: smallstar001 时间: 2008-12-09 15:26

原帖由 welcome008 于 2008-12-9 15:18 发表
tr " " "\n"

tr " " "\n" <filename|sort|uniq -u|tr "\n" " "

作者: smallstar001 时间: 2008-12-09 15:27

原帖由 ly5066113 于 2008-12-9 15:20 发表
awk 'BEGIN{RS="[ \n]+";ORS=" "}!a[$0]++' urfile

有点问题吧

作者: ly5066113 时间: 2008-12-09 15:31
标题: 回复 #6 smallstar001 的帖子
不能只看标题。

我猜测楼主就是要!a[$0]++或sort -u这样的效果。

作者: welcome008 时间: 2008-12-09 15:42

原帖由 smallstar001 于 2008-12-9 15:26 发表

tr " " "\n"

呵呵，为啥呢？

作者: Jenny.Palmy 时间: 2008-12-09 15:44

原帖由 welcome008 于 2008-12-9 15:18 发表
tr " " "\n"

不好意思,标题没描述清楚. 上面的命令可以解决我的问题了, 谢谢

作者: smallstar001 时间: 2008-12-09 15:45

原帖由 welcome008 于 2008-12-9 15:42 发表

呵呵，为啥呢？

呵呵不知道是不是只要不重复的单词

作者: welcome008 时间: 2008-12-09 16:00

原帖由 smallstar001 于 2008-12-9 15:45 发表

呵呵不知道是不是只要不重复的单词

效果是一样的吧？

unique 和sort -u

作者: walkerxk 时间: 2008-12-09 22:12

原帖由 welcome008 于 2008-12-9 16:00 发表

效果是一样的吧？

unique 和sort -u

不一样，uniq不排序，只去除重复。

作者: welcome008 时间: 2008-12-10 01:08

原帖由 walkerxk 于 2008-12-9 22:12 发表

不一样，uniq不排序，只去除重复。

学习了，谢谢

作者: ubuntuer 时间: 2008-12-10 11:35
小细节...

作者: ynchnluiti 时间: 2008-12-10 12:09

原帖由 welcome008 于 2008-12-10 01:08 发表

学习了，谢谢

你原来的意思不是 sort | uniq -u 和 sort -u一样吗？

作者: welcome008 时间: 2008-12-10 12:33

原帖由 ynchnluiti 于 2008-12-10 12:09 发表

你原来的意思不是 sort | uniq -u 和 sort -u一样吗？

呵呵，没有
我用sort -u，他用uniq

我认为两者是一样的，他指明了区别，一个排序，一个不排序

作者: kaka_sun 时间: 2008-12-10 15:14

标准一些

tr -s " " "\n" <a.txt | sort -u | tr -s "\n" " "

作者: walkerxk 时间: 2008-12-10 21:01

原帖由 ynchnluiti 于 2008-12-10 12:09 发表

你原来的意思不是 sort | uniq -u 和 sort -u一样吗？

sort | uniq -u 和 sort -u也不一样，sort | uniq -u可以简单得加个c来计数，但是sort就做不到

，还有使用资源、执行时间、代码长度等方面不一样。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)