- 论坛徽章:
- 0
|
本帖最后由 hello|world 于 2012-11-07 15:46 编辑
需求描述: 文本文件,大概几十G, 内容如下:- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:uyux]--------[:/a:]
- 描述 yyyy/mm/dd 123123123
- [:b:]--------[id:uyux][nn:1234]----
- -------[:/b:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:werq]--------[:/a:]
- 描述 yyyy/mm/dd 2010/06/08
- [:b:]--------[id:werq][nn:1234]--------[:/b:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:zxcv]--------[:/a:]
- 描述 yyyy/mm/dd 2010/06/08
- [:b:]-----
- ---[id:zxcv][nn:1234]--------[:/b:]
- 描述 yyyy/mm/dd 2010/06/08
- [:b:]--------[id:sdfa][nn:1234]--------[:/b:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:sdfa]--------[:/a:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:stre]--------[:/a:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]--------[id:sdfa]--------[:/a:]
- 描述 yyyy/mm/dd 123123123
- [:b:]------
- --[id:stre][nn:1300]--------[:/b:]
- 描述 yyyy/mm/dd 123123123
- [:b:]--------[id:sdfa][nn:1234]--------[:/b:]
- 描述 yyyy/mm/dd 2010/06/08
- [:a:]------
- --[id:eref]--------[:/a:]
- 描述 yyyy/mm/dd 123123123
- [:b:]--------[id:eref][nn:1301]--------[:/b:]
- ........
- ........
- 取出所有nn不等于1234的id的a,b标签及内容结果,如下:
- [:a:]--------[id:stre]--------[:/a:]
- [:b:]--------[id:stre][nn:1300]--------[:/b:]
- [:a:]--------[id:eref]--------[:/a:]
- [:b:]--------[id:eref][nn:1301]--------[:/b:]
复制代码 因为需要对每个提出来的每项进行数据处理, 所以用while read line做了一下, 速度不能接受, 不知道各位有没有好办法~
补充: 在[:a:]和[:/a:]之间的内容可能出现换行..
还有的情况,相同id的 a ,b 内容不一定是上下行挨着的,顺序是乱的... |
|