免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2895 | 回复: 5
打印 上一主题 下一主题

如何判断一个文件中是否有重复单词 [复制链接]

论坛徽章:
6
数据库技术版块每日发帖之星
日期:2015-10-11 06:20:00数据库技术版块每日发帖之星
日期:2015-10-12 06:20:00数据库技术版块每日发帖之星
日期:2015-10-15 06:20:00数据库技术版块每日发帖之星
日期:2015-10-30 06:20:00综合交流区版块每月发帖之星
日期:2015-12-02 14:59:01数据库技术版块每日发帖之星
日期:2015-12-15 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-11-15 11:47 |只看该作者 |倒序浏览
如何判断一个文件中是否有重复单词?
如:
一个文件的内容如下:
ls      chage   alias   dmesg   chattr  dd      vi      bc      help    cmp     at      bunzip2 bg
cd      chfn    env     free    chgrp   df      vimtutor        expr    info    cut     atq     bzip2   fg
cp      chsh    export  fuser   chmod   edquota vim     wc      lpq     diff    atrm    gunzip  jobs
mv      groupadd        history halt    chown   fdisk   sed     chsum   lpr     du      batch   gzip    chkconfig
cat     groupdel        ldconfig        lsof    lsattr  mkfs    awk             lprm    emacs   cron    rar     init
rm      groupmod        set     reboot  umask   mount   grep            man     file    atd     tar     ntsysv
mkdir   id      soure   shutdown                quota   tail            whatis  locate  atrun   unrar   ps
rmdir   last    unalias slabtop         quotaon head                    uniq    crontab unzip   kill
clear   passwd  umount  sysctl          swapoff find                    which   date    zip     killall
pwd     pwck    exit    top             swapon  strings                 pico    cal     compress        sync
ln      su      enable  uname           umount  xargs                   sort    time    rpm     nohup
touch   useradd fc      uptime          fsck    tee                     md5sum  sleep   uncommpress     pkill
less    userdel unset   vmstat          fstab   whereis                 mksock  ac      sort
more    usermod                                 egrep                   mktemp          zcat
        w                                       fold                    mkfifo          bzcat
        who                                     fgrep                   unlink          tgz
                                                tr                      ldd
                                                                        access

zcat
        wee                                       fold                    mkfifo          bzcat
        whdo                                     fgdrep                   unlink          tgz
                                                tr                      ldd
                                                                        acdcess

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
2 [报告]
发表于 2006-11-15 11:50 |只看该作者
xargs -n1 <urfile |sort|uniq -d

论坛徽章:
6
数据库技术版块每日发帖之星
日期:2015-10-11 06:20:00数据库技术版块每日发帖之星
日期:2015-10-12 06:20:00数据库技术版块每日发帖之星
日期:2015-10-15 06:20:00数据库技术版块每日发帖之星
日期:2015-10-30 06:20:00综合交流区版块每月发帖之星
日期:2015-12-02 14:59:01数据库技术版块每日发帖之星
日期:2015-12-15 06:20:00
3 [报告]
发表于 2006-11-15 11:51 |只看该作者
呵呵,谢谢了.

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
4 [报告]
发表于 2006-11-15 11:53 |只看该作者
  1. tr -cs '[:alnum:]' '[\n*]' <file|sort|uniq -c
复制代码

根据输出看看有没有重复的

waker的-d更省事
  1. tr -cs '[:alnum:]' '[\n*]' <file|sort|uniq -d
复制代码

[ 本帖最后由 r2007 于 2006-11-15 11:55 编辑 ]

论坛徽章:
0
5 [报告]
发表于 2006-11-15 12:20 |只看该作者
  1. xargs -n1 <cc.txt|awk 'word[$i]++'
复制代码

论坛徽章:
0
6 [报告]
发表于 2006-11-15 13:23 |只看该作者
每行一个单词,然后判断有没有重复行。有没有换药的阿?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP