免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1936 | 回复: 3
打印 上一主题 下一主题

大家帮我想一个好的方法处理第一列重复的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-05-21 09:39 |只看该作者 |倒序浏览
我嫌 scim五笔输入的重码太多,我把码表导出来处理一下,大家帮我想一个好的处理方法
处理从9479行到32330行
如果第一列是一样的,删掉第二列不是一个汉字的行
比如
yyyy    言      32330
yyyy    方言    320
yyyy    谆谆    70
yyyy    文言    63
yyyy    言谈话语        2
xxxx    幽幽    364
xxxx    丝丝    346
xxxx    纟      34
处理之后是这样的
yyyy    言      32330
xxxx    纟      34

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
2 [报告]
发表于 2007-05-21 10:17 |只看该作者
awk 'NR<9479;
        NR==9749,NR==32330{if (!a[$1]++) print}
        NR>32330;' 码表文件

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
3 [报告]
发表于 2007-05-21 10:22 |只看该作者
如果第一列是排序的

  1. awk 'NR==1{a=$0;b=$1;c=$2;next}
  2. $1!=b{print a; a=$0;b=$1;c=$2;next}
  3. length($2)<length(c){a=$0;c=$2}
  4. END{print a} ' urfile
复制代码

论坛徽章:
0
4 [报告]
发表于 2007-05-21 11:33 |只看该作者
谢谢!
两位的方法都很好.
woodie的方法有点小问题,好像只保留最先找到的那一个
比如
dddd    大大    2145
dddd    硕大    290
dddd    大      65535
dddd    磕磕碰碰        19
dddd    大厦    727
处理后是dddd    大大    2145
我想要的是dddd    大      65535

[ 本帖最后由 fangdingj 于 2007-5-21 11:55 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP