免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3347 | 回复: 14

[文本处理] 根据字符串出现的顺序提取字符串后面的段落 [复制链接]

论坛徽章:
0
发表于 2014-04-18 11:37 |显示全部楼层
本帖最后由 htzhanga 于 2014-04-18 15:36 编辑

$ cat tmp
M2
...
...
...
M2
...
...
...
M2
...
...
...

如何把第一个M2,第二个M2,第三个M2,等等,提取出来(卤煮觉得关键好像是如何检测M2第一次出现,第二次出现,等等),得到:
$ cat tmp1
M2
...
...
...
$ cat tmp2
M2
...
...
...
$ cat tmp3
M2
...
...
...

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
发表于 2014-04-18 11:44 |显示全部楼层
htzhanga 发表于 2014-04-18 11:37
$ cat tmp
M2
...
  1. [seesea@UC ~]# awk '/M2/{i++} {print $0 > "tmp" i ".txt"}' tmp.txt
  2. [seesea@UC ~]# head -20 tmp*
  3. ==> tmp1.txt <==
  4. M2
  5. ...
  6. a..
  7. ...

  8. ==> tmp2.txt <==
  9. M2
  10. ...
  11. b..
  12. ...

  13. ==> tmp3.txt <==
  14. M2
  15. ...
  16. c..
  17. ...

  18. ==> tmp.txt <==
  19. M2
  20. ...
  21. a..
  22. ...
  23. M2
  24. ...
  25. b..
  26. ...
  27. M2
  28. ...
  29. c..
  30. ...
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-04-18 11:47 |显示全部楼层
  1. awk '/M2/{i++}{print > FILENAME""i}' tmp
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
发表于 2014-04-18 13:07 |显示全部楼层
回复 3# yestreenstars


    咦,为啥我多了.txt,这不是画蛇加脚(本)嘛。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-04-18 13:34 |显示全部楼层
回复 4# seesea2517

说明你是Windows思维~
   

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
发表于 2014-04-18 14:38 |显示全部楼层
yestreenstars 发表于 2014-04-18 13:34
回复 4# seesea2517

说明你是Windows思维~


我这明明看着楼主有txt的,后来不见了

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2014-04-18 15:05 |显示全部楼层
回复 1# htzhanga
  1. csplit -z -f tmp urfile '/^M2/' '{*}'
复制代码

论坛徽章:
0
发表于 2014-04-18 15:31 |显示全部楼层
回复 3# yestreenstars

这个不行,我运行了,没得到想要的结果。。。


   

论坛徽章:
0
发表于 2014-04-18 15:32 |显示全部楼层
回复 2# seesea2517

实现了,非常感谢!再问一下head后面跟的-20是什么意思?

   

论坛徽章:
0
发表于 2014-04-18 15:35 |显示全部楼层
blackold 发表于 2014-04-18 15:05
回复 1# htzhanga


这个也可以,非常感谢!而且语句更加简洁明了!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP