- 论坛徽章:
- 0
|
10可用积分
有一个数据库的导出文本,大体上一条记录导出为一个文本文件,内容大致如下:
标题="工作报告", 日期="20090612", [x8j1356dqd]内容=" 2009年工作报告
随着。。。。。
我们。。。。。。
所以。。。。。。
最后,。。。。。 "[x8j1356dqd]作者="张三" |
如例子中所示:
1、共有4个字段,分别是标题、日期、内容、作者(实际中可能比这个多),字段与字段之间可以换行,也可以在同一行上,以逗号分开。
2、每个字段的内容都可能包含换行符,内容前后可以加可选的边界字,此例中的“内容”中,[x8j1356dqd]就是用来确定“内容”字段的定义范围,x8j1356dqd是个随机值,确保唯一。
现在的想法是想通过LINUX下用文本处理提取特定的字段变量:
如果在vi里通过正则表达式查询应该可以确定字段区域,但不知道如何将内容提取出来(可能是跨行的,而且不是以整行为单位)
如果用sed或awk等处理,该如何做? |
最佳答案
查看完整内容
那能不能确定引号部分不包含的字符呢?如果等号、引号、逗号、中括号、“标题”、“日期”、“内容”、“作者”这些都包含,大眼一看还真有点蒙~
|