免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3039 | 回复: 13
打印 上一主题 下一主题

[文本处理] 大文件内容处理,帮忙研究下怎么搞比较好; [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-07 12:25 |只看该作者 |倒序浏览
本帖最后由 hello|world 于 2012-11-07 15:46 编辑

需求描述: 文本文件,大概几十G, 内容如下:
  1. 描述 yyyy/mm/dd 2010/06/08
  2. [:a:]--------[id:uyux]--------[:/a:]
  3. 描述 yyyy/mm/dd 123123123
  4. [:b:]--------[id:uyux][nn:1234]----
  5. -------[:/b:]

  6. 描述 yyyy/mm/dd 2010/06/08
  7. [:a:]--------[id:werq]--------[:/a:]
  8. 描述 yyyy/mm/dd 2010/06/08
  9. [:b:]--------[id:werq][nn:1234]--------[:/b:]

  10. 描述 yyyy/mm/dd 2010/06/08
  11. [:a:]--------[id:zxcv]--------[:/a:]
  12. 描述 yyyy/mm/dd 2010/06/08
  13. [:b:]-----
  14. ---[id:zxcv][nn:1234]--------[:/b:]

  15. 描述 yyyy/mm/dd 2010/06/08
  16. [:b:]--------[id:sdfa][nn:1234]--------[:/b:]
  17. 描述 yyyy/mm/dd 2010/06/08
  18. [:a:]--------[id:sdfa]--------[:/a:]

  19. 描述 yyyy/mm/dd 2010/06/08
  20. [:a:]--------[id:stre]--------[:/a:]

  21. 描述 yyyy/mm/dd 2010/06/08
  22. [:a:]--------[id:sdfa]--------[:/a:]
  23. 描述 yyyy/mm/dd 123123123
  24. [:b:]------
  25. --[id:stre][nn:1300]--------[:/b:]
  26. 描述 yyyy/mm/dd 123123123
  27. [:b:]--------[id:sdfa][nn:1234]--------[:/b:]

  28. 描述 yyyy/mm/dd 2010/06/08
  29. [:a:]------
  30. --[id:eref]--------[:/a:]
  31. 描述 yyyy/mm/dd 123123123
  32. [:b:]--------[id:eref][nn:1301]--------[:/b:]

  33. ........
  34. ........

  35. 取出所有nn不等于1234的id的a,b标签及内容结果,如下:
  36. [:a:]--------[id:stre]--------[:/a:]
  37. [:b:]--------[id:stre][nn:1300]--------[:/b:]

  38. [:a:]--------[id:eref]--------[:/a:]
  39. [:b:]--------[id:eref][nn:1301]--------[:/b:]
复制代码
因为需要对每个提出来的每项进行数据处理, 所以用while read line做了一下, 速度不能接受, 不知道各位有没有好办法~

补充: 在[:a:]和[:/a:]之间的内容可能出现换行..
还有的情况,相同id的 a ,b 内容不一定是上下行挨着的,顺序是乱的...

论坛徽章:
0
2 [报告]
发表于 2012-11-07 12:50 |只看该作者
  1. sed -n '/^\[/!d;x;n;n;/nn:1234/d;H;x;p' file
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2012-11-07 13:23 |只看该作者
本帖最后由 yestreenstars 于 2012-11-07 13:30 编辑

awk
  1. awk '/:a:/{s=$0}/:b:/{if(!/1234/)print s"\n"$0}' urfile
复制代码
sed
  1. sed -n '/:a:/h;/:b:/{/1234/b;H;g;p}' urfile
复制代码

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
4 [报告]
发表于 2012-11-07 13:49 |只看该作者
本帖最后由 zhaopingzi 于 2012-11-07 13:54 编辑

  1. $  awk -vRS="" -vFS="\n" ' {if($4!~/nn:1234/) print $2"\n"$4"\n"}'  file
  2. [:a:]--------[id:stre]--------[:/a:]
  3. [:b:]--------[id:stre][nn:1300]--------[:/b:]

  4. [:a:]--------[id:eref]--------[:/a:]
  5. [:b:]--------[id:eref][nn:1301]--------[:/b:]
复制代码

论坛徽章:
0
5 [报告]
发表于 2012-11-07 15:14 |只看该作者
回复 3# yestreenstars


   非常感谢你的回答,学习了;
   如果文件内容并非我给的这么规律,在 [:a:][:\a:] ,[:b:][:/b:]之间的内容可以存在换行现象..  这样处理就不对了..

论坛徽章:
0
6 [报告]
发表于 2012-11-07 15:18 |只看该作者
问题少描述了内容:
补充: 在[:a:]和[:/a:]之间的内容可能出现换行..
还有的情况,相同id的 a ,b 内容不一定是上下行挨着的,顺序是乱的...

论坛徽章:
4
2015年亚洲杯之巴勒斯坦
日期:2015-04-09 11:23:192015年亚洲杯之约旦
日期:2015-04-10 12:08:322015年亚洲杯之科威特
日期:2015-04-10 12:23:222015亚冠之首尔
日期:2015-07-07 16:11:03
7 [报告]
发表于 2012-11-07 15:29 |只看该作者
你把所有的会出现的情况,都写到你的example文件里

论坛徽章:
0
8 [报告]
发表于 2012-11-07 15:46 |只看该作者
回复 7# wang_xue_m


    把文件例子修改了

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
9 [报告]
发表于 2012-11-07 15:47 |只看该作者
回复 5# hello|world

举个例子?
   

论坛徽章:
0
10 [报告]
发表于 2012-11-07 15:59 |只看该作者
回复 9# yestreenstars


  就是这个意思: [:b:]-----
---[id:stre][nn:1300]-----
---[:/b:]
并一定在同一行里
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP