免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5994 | 回复: 24
打印 上一主题 下一主题

[文本处理] 指定列去重问题 [复制链接]

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-14 10:11 |只看该作者 |倒序浏览
其实之前有人问过的,算是月经贴了~不过想问个复杂点的。比如一个文本,他只是第二第三列相同,其他列都不一样,我想把相同的变成一行,不同的合并起来怎么做呢?
ex:

  1. 1     hhh     YYY      1234566
  2. 2     hhh     YYY      166
  3. 3     YYY     hhh      dhu
  4. 4     hhh     YYY      12566
  5. 5     YYY     hhh      888
  6. 6     hhh     YYY      12566(注意这里)
  7. 7     YYY     hhh      d88
  8. 8     YYY     hhh      dhu
复制代码
然后得到:

  1. 1/2/4/6     hhh     YYY      1234566;166;12566;
  2. 3/5/7/8     YYY     hhh      dhu;888;d88;
复制代码
谢谢~

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
2 [报告]
发表于 2014-01-14 10:44 |只看该作者
  1. awk '{t=$2 FS $3;if(! a[t]++){s[t]=$1;e[t]=$4}else{s[t]=s[t]"/"$1;e[t]=(t$4 in b)?e[t]:e[t]";"$4}b[t$4]}END{for(i in s)print s[i],i,e[i]}' file
  2. 3/5/7/8 YYY hhh dhu;888;d88
  3. 1/2/4/6 hhh YYY 1234566;166;12566
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2014-01-14 10:49 |只看该作者
  1. $ awk -vOFS='\t' '{t=$2"\t"$3;if(!a[t]++)b[++n]=t;if(!c[t,$1]++)d[t]=d[t]!=""?d[t]"/"$1:$1;if(!d[t,$4]++)e[t]=e[t]!=""?e[t]$4";":$4";"}END{for(i=0;i++<n;)print d[b[i]],b[i],e[b[i]]}' i
  2. 1/2/4/6 hhh     YYY     1234566;166;12566;
  3. 3/5/7/8 YYY     hhh     dhu;888;d88;
复制代码

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
4 [报告]
发表于 2014-01-14 10:55 |只看该作者
回复 2# li0924


    get~谢谢你了,哈

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
5 [报告]
发表于 2014-01-14 10:55 |只看该作者
回复 3# yestreenstars


    大神威武,谢谢大神

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:58:11
6 [报告]
发表于 2014-01-14 11:05 |只看该作者
本帖最后由 这个冬天不冷 于 2014-01-14 11:23 编辑
  1. [root@everIover ~]# awk '{a[$2FS$3]=a[$2FS$3]?a[$2FS$3]"/"$1:$1;if(!d[$4])b[$2FS$3]=b[$2FS$3]?b[$2FS$3]";"$4:$4;d[$4]++}END{for(i in a)print a[i],i,b[i]}' a
  2. 1/2/4/6 hhh YYY 1234566;166;12566
  3. 3/5/7/8 YYY hhh dhu;888;d88
  4. [root@everIover ~]# cat a
  5. 1     hhh     YYY      1234566
  6. 2     hhh     YYY      166
  7. 3     YYY     hhh      dhu
  8. 4     hhh     YYY      12566
  9. 5     YYY     hhh      888
  10. 6     hhh     YYY      12566
  11. 7     YYY     hhh      d88
  12. 8     YYY     hhh      dhu
  13. [root@everIover ~]#
复制代码
请忽略了。。。。

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
7 [报告]
发表于 2014-01-14 11:09 |只看该作者
huang6894 发表于 2014-01-14 10:11
其实之前有人问过的,算是月经贴了~不过想问个复杂点的。比如一个文本,他只是第二第三列相同,其他列都不一
1     hhh     YYY      1234566
2     hhh     YYY      166
3     YYY     hhh      dhu
4     hhh     YYY      12566
5     YYY     hhh      888
6     hhh     YYY      12566(注意这里)
7     YYY     hhh      d88
8     YYY     hhh      dhu
...


为啥没人注意这个:

6     hhh     YYY      12566(注意这里)

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
8 [报告]
发表于 2014-01-14 11:16 |只看该作者
回复 6# 这个冬天不冷
你这代码有点瑕疵;若最后一行是“8     YYY     hhh      12566”;你看下结果


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
9 [报告]
发表于 2014-01-14 11:19 |只看该作者
回复 7# 关阴月飞
那是说明,不是原文本里的内容,他想表达的意思就是去重。

   

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
10 [报告]
发表于 2014-01-14 11:20 |只看该作者
本帖最后由 关阴月飞 于 2014-01-14 11:22 编辑

回复 9# yestreenstars


    刚刚才回过神来,懂了,被坑了
    还以为写个注意,是想让大家注意:这里有中文要去掉
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP