免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: csdemo
打印 上一主题 下一主题

[文本处理] sed如何删除连续相同行 [复制链接]

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
21 [报告]
发表于 2013-05-30 13:29 |只看该作者
回复 19# 井蛙夏虫
  1. [seesea@UC ~]$ cat file
  2. aaa
  3. cccc
  4. ccc
  5. ddd
  6. ddd
  7. ddd
  8. xxx

  9. # 楼主自己的倒是没啥问题
  10. [seesea@UC ~]$ sed  -n '$!N;/^\(.*\)\n\1$/!{x;G;/^\(.*\)\n\1\n\1[\n]*.*/!{g;P;D};g;D};h;D' file
  11. aaa
  12. cccc
  13. ccc
  14. xxx

  15. # 这个和楼上的差不多bug
  16. [seesea@UC ~]$ sed -n ':a $!N;$!b a;G;s/\([^\n]\+\n\)\1\+//g;p' file        
  17. aaa
  18. cxxx
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
22 [报告]
发表于 2013-05-30 13:45 |只看该作者
回复 20# seesea2517


不用零宽断言的话,就要把定位的那个符号再补上了。不知道还有其它的bug没有:
  1. [seesea@UC ~]$ sed -r ':a; $!N; $!ba; s/([\n^])([^\n]*)(\n)(\2(\3|$))+/\1/g' file  
  2. aaa
  3. cccc
  4. ccc
  5. xxx
  6. [seesea@UC ~]$ cat file
  7. aaa
  8. cccc
  9. ccc
  10. ddd
  11. ddd
  12. ddd
  13. xxx
复制代码

论坛徽章:
0
23 [报告]
发表于 2013-05-30 14:02 |只看该作者
回复 22# seesea2517


    还有bug
  1. cat file
  2. aaa
  3. ccc
  4. ccc
  5. ddd
  6. ddd
  7. ddd
  8. ddd
  9. xxx
  10. bbb
  11. ccc
  12. ccc
  13. ccc
  14. eee
  15. eee
  16. eee
  17. [root@localhost ~]# sed -r ':a; $!N; $!ba; s/([\n^])([^\n]*)(\n)(\2(\3|$))+/\1/g' file
  18. aaa
  19. ddd
  20. xxx
  21. bbb
  22. eee

复制代码

论坛徽章:
0
24 [报告]
发表于 2013-05-30 14:04 |只看该作者
楼主的可以再改一改:
  1. sed  -n '$!N;/^\(.*\)\n\1$/!{x;G;/^\(.*\)\n\1\n\1[\n]*.*/!{g;P;D}};h'
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
25 [报告]
发表于 2013-05-30 14:09 |只看该作者
@seesea2517
@kk5234
综上所述,建议大家还是用awk吧~

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
26 [报告]
发表于 2013-05-30 14:16 |只看该作者
弄了一个打标记处理的,和楼主看上去处理流程相似:
  1. [seesea@UC ~]$ sed ':a; N; /^\(.*\)\n\1$/s//\1/; tb; x; /./!{x; P; D; ba}; s/.*//; x; D; ba; :b; x; s/.*/./; x; ba;' file
  2. aaa
  3. cccc
  4. ccc
  5. xxx
  6. mmm
  7. [seesea@UC ~]$ cat file
  8. aaa
  9. cccc
  10. ccc
  11. ddd
  12. ddd
  13. ddd
  14. xxx
  15. kkkk
  16. kkkk
  17. mmm
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
27 [报告]
发表于 2013-05-30 14:17 |只看该作者
回复 25# yestreenstars


    那你可吃香了。

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
28 [报告]
发表于 2013-05-30 14:26 |只看该作者
回复 23# kk5234


    这都被发现了。看来没有零宽断言真是不好用,虽然后面把匹配掉的\n给补上去了,但是这个符号不会被用于下一次匹配。这样的话,还是得用循环了:
  1. [seesea@UC ~]$ sed -r ':a; $!N; $!ba; :b; s/([\n^])([^\n]*)\n(\2(\n|$))+/\1/; tb' file
  2. aaa
  3. xxx
  4. bbb
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
29 [报告]
发表于 2013-05-30 15:36 |只看该作者
回复 28# seesea2517


    那就用perl来个零宽断言呗~

论坛徽章:
4
白羊座
日期:2013-09-17 21:59:30技术图书徽章
日期:2013-10-12 22:16:03白羊座
日期:2013-10-14 11:01:40双子座
日期:2013-12-17 18:26:39
30 [报告]
发表于 2013-05-30 15:40 |只看该作者
回复 28# seesea2517
  1. aaa
  2. aaa
  3. ccc
  4. ccc
  5. ddd
  6. ddd
  7. ddd
  8. xxx
复制代码
运行后
  1. aaa
  2. aaa
  3. xxx
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP