免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2192 | 回复: 3

[已解决]关于单词排序的问题,请教.. [复制链接]

论坛徽章:
0
发表于 2008-10-08 13:28 |显示全部楼层
自己做题目时候发现有些单词查的不止3,4次了,决定写个小shell,把自己做阅读中查过得单词做个统计.格式如下:
======================
首先,假设创建 2个文本 08 ; 07 (假设是08年考题和07年考题)

假设08文本内容如下:
----------------------------------
infections:传染病
controversy:争议
breast:乳腺癌
intimately:密切的
+be selected to:被选来做...
+be prepared to:准备做...
+be obliged to:只能...,被迫...
+be pleased to:很高兴...
===================
假设07文本内容如下:
-------------------------------------
controversy:争议
breast:乳腺癌
intimately:密切的
+be selected to:被选
+be prepared to:准备
========================
其中,单词和意思是用冒号分隔,词组和意思也是冒号分隔,词组前面加“+“号表示是词组。

对于单词的统计shell如下:
  1. grep '^[a-z]' 0*|awk -F: '{print $3"\t"$2}'|sort +1 -2 | uniq -c -f1 | awk '{print $1"\t"$3"\t\t\t"$2}' | sort -r > word;
复制代码

=================
显示出来得结果是:
2    intimately            密切的
2    controversy            争议
2    breast            乳腺癌
1    infections            传染病

======================
另外,对于词组,统计的shell如下:
  1. grep -v '^[a-z]' 0*|cut -d+ -f2|tr ' ' '_'|awk -F: '{print $2"\t"$1}'|sort +1 -2 | uniq -c -f1|awk '{print $1"\t"$3"\t\t\t"$2}' | tr '_' ' '|sort -r > phrase;
复制代码

====================
显示结果如下:
2       be selected to                  被选
2       be prepared to                  准备
1       be pleased to                   很高兴...
1       be obliged to                   只能...,被迫...
=======================
现在的问题是,同次数得单词是按照逆序得方式排序得,情况如下:
======================

2       struggle                        努力,奋斗
2       consequence                     结果
1       witness                 目睹
1       vulnerable                      难防守的,易受伤的
1       viable                  可成立的,可实行的
1       value                   重视
1       upset                   不高兴
1       undesirable                     令人不快,不方便的
1       unconsciously                   无意识的
1       unaccountably                   不可数的
1       transplant                      移植

===========================
谁能帮忙做到,次数是从高到低,同时单词还是从a-z排序?

[ 本帖最后由 casio1374633 于 2008-10-8 13:43 编辑 ]

论坛徽章:
1
处女座
日期:2014-12-23 17:59:27
发表于 2008-10-08 13:34 |显示全部楼层
faint 那么多管道。

man sort
可以通过 -k 指定。

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
发表于 2008-10-08 13:38 |显示全部楼层
最后的sort -r改为sort -k1,1nr -k2

论坛徽章:
0
发表于 2008-10-08 13:43 |显示全部楼层
晕~~这回帖的速度~~cu真好~~

谢谢楼上几位了~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP