免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2490 | 回复: 11
打印 上一主题 下一主题

[文本处理] 如何还原重复的记录 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-05-14 11:44 |只看该作者 |倒序浏览
输入文件
  1. ##name        count        note
  2. aa        2        abc        123
  3. bb        3        bcd        234
复制代码
输出文件(除“count”列被摒弃,其余列均不做改变)
  1. ##name        note
  2. aa        abc        123
  3. aa        abc        123
  4. bb        bcd        234
  5. bb        bcd        234
  6. bb        bcd        234
复制代码
自己在用$ more file sort|uniq -c 统计记录重复次数想,如果反过来处理,是否可以通过count值还原重复的记录呢?
  1. $ uniq --h
  2. Usage: uniq [OPTION]... [INPUT [OUTPUT]]
  3. Discard all but one of successive identical lines from INPUT (or
  4. standard input), writing to OUTPUT (or standard output).

  5. Mandatory arguments to long options are mandatory for short options too.
  6.   -c, --count           prefix lines by the number of occurrences
复制代码

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
2 [报告]
发表于 2013-05-14 11:50 |只看该作者
  1. awk 'NR==1{print "##name        note"}
  2.       NR>1{for (i=1;i<=$2;i++) print $1,$3,$4}' infile
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
3 [报告]
发表于 2013-05-14 14:15 |只看该作者
简单起见就不处理第一行了
  1. [seesea@UC ~]$ cat file
  2. aa        2        abc        123
  3. bb        3        bcd        234
  4. [seesea@UC ~]$ sed -r 's/([^ ]*) *([^ ]*) *([^ ]*) *([^ ]*) */yes \1 \3 \4 | head -\2/e' file
  5. aa abc 123
  6. aa abc 123
  7. bb bcd 234
  8. bb bcd 234
  9. bb bcd 234
复制代码

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
4 [报告]
发表于 2013-05-14 14:43 |只看该作者
seesee的sed已经出神入化了啊。。。。。。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2013-05-14 15:36 |只看该作者
回复 4# dn833


    他是个经得起折腾的人

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
6 [报告]
发表于 2013-05-14 21:16 |只看该作者
这个如何?
  1. perl -ane 'print "@F[0,2..$#F]\n"  x $F[1]' filename
复制代码
回复 1# 怿_mao44


   

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
7 [报告]
发表于 2013-05-15 09:45 |只看该作者
回复 4# dn833

@yestreenstars

大牛说过用 e 命令的 sed 不纯洁,不算折腾。

论坛徽章:
0
8 [报告]
发表于 2013-05-15 11:54 |只看该作者
  1. 学习学习,哎!awk和sed很无奈
复制代码

论坛徽章:
0
9 [报告]
发表于 2013-05-16 19:31 |只看该作者
回复 2# rdcwayx

写下我的理解,希望能大家共同学习

    1. 利用“for”进行循环
    2. 设置“i”的初始数值为1
    3. 将“i”与第二列count的数值进行比较
    4. 只要"i"小于count值,则输出该行记录一次,并对“i”进行累加
    5. 直到“i”等于count值,则终止循环,同时已重复"i"次输出该记录

论坛徽章:
0
10 [报告]
发表于 2013-05-16 19:35 |只看该作者
回复 6# kernel69


    一行perl命令呢。。真不错,羡慕嫉妒恨


这个着实需要每个参数查查什么意义的了,自己对Perl还完全摸不着边。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP