免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4062 | 回复: 18
打印 上一主题 下一主题

[文本处理] 求教各位大神怎么提取一个文件中两个标记之间的文本 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-24 11:19 |只看该作者 |倒序浏览
本帖最后由 roskin 于 2014-01-24 14:57 编辑

我现在有个文件 a.txt,需要提取其中“[begin]”和“[end]”之间的文本,并且把文本输入到 b.txt 中。求教各路大神怎么弄,不胜感激!!
b.txt输出的内容需要不包含“[begin]”和“[end]”

a.txt的内容如下:

  1. bbbbbbbbbbbbbb
  2. ffffff
  3. [begin]
  4. ggggggg
  5. eeeeeeee
  6. uuuuuuuu

  7. ooooooo
  8. [end]
  9. zzzzzzzz
复制代码
----------------我是分割线-----------------

感谢各路大神,我成功把文本拿出来了,大家好给力啊这么快就有了这么多答案,小弟不胜感激非常感动

不过新问题出来了,我想把[begin]和[end]输入到变量然后传入sed来提取文本,但是这样做之后反而把[begin]和[end]之外的文本提取出来了,二者之间的文本却没有出来,这个是怎么回事?
以6楼大神代码为例,代码如下
  1. c="\[begin\]"
  2. d="\[end\]"
  3. sed -n "/$c/,/$d/{//!p}"
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2014-01-24 11:32 |只看该作者
回复 1# roskin

$ sed -n '/\[begin\]/,/\[end\]/p' a.txt > b.txt

$ cat b.txt
[begin]
ggggggg
eeeeeeee
uuuuuuuu

ooooooo
[end]

   

论坛徽章:
0
3 [报告]
发表于 2014-01-24 11:47 |只看该作者
回复 2# jason680

这个命令输出会吧[begin]和[end]带上,我需要除去这两行

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
4 [报告]
发表于 2014-01-24 11:56 |只看该作者
jason680 发表于 2014-01-24 11:32
回复 1# roskin

$ sed -n '/\/,/\[end\]/p' a.txt > b.txt

  1. $ sed -n '/\[begin\]/,/\[end\]/p' a.txt | egrep -v '\[begin\]|\[end\]' > b.txt
复制代码

论坛徽章:
3
摩羯座
日期:2014-03-05 14:58:52巨蟹座
日期:2014-04-03 15:14:32摩羯座
日期:2014-04-24 12:50:34
5 [报告]
发表于 2014-01-24 13:56 |只看该作者
  1. $ cat input.file
  2. bbbbbbbbbbbbbb
  3. ffffff
  4. [begin]
  5. ggggggg
  6. eeeeeeee
  7. uuuuuuuu

  8. ooooooo
  9. [end]
  10. zzzzzzzz

  11. $ sed -n '/\[begin\]/{:a;n;/\[end\]/!{p;ba}}' input.file
  12. ggggggg
  13. eeeeeeee
  14. uuuuuuuu

  15. ooooooo
复制代码

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
6 [报告]
发表于 2014-01-24 14:11 |只看该作者
  1. sed -n '/begin/,/end/{//!p}'
复制代码

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
7 [报告]
发表于 2014-01-24 14:11 |只看该作者
  1. awk '/begin/{a=1;next}a{b=1}/end/{b=0;exit}b' file
复制代码

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
8 [报告]
发表于 2014-01-24 14:12 |只看该作者
本帖最后由 li0924 于 2014-01-24 14:14 编辑

今天什么情况,点提交就出来两。

  1. lottu> awk '/begin/{a=1;next}a{b=1}/end/{b=0;exit}b' lottu18
  2.     ggggggg
  3.     eeeeeeee
  4.     uuuuuuuu

  5.     ooooooo
复制代码

论坛徽章:
0
9 [报告]
发表于 2014-01-24 14:56 |只看该作者
感谢各路大神,我成功把文本拿出来了,大家好给力啊这么快就有了这么多答案,小弟不胜感激非常感动

不过新问题出来了,我想把[begin]和[end]输入到变量然后传入sed来提取文本,但是这样做之后反而把[begin]和[end]之外的文本提取出来了,二者之间的文本却没有出来,这个是怎么回事?
以6楼大神代码为例,代码如下
  1. c="\[begin\]"
  2. d="\[end\]"
  3. sed -n "/$c/,/$d/{//!p}"
复制代码

论坛徽章:
0
10 [报告]
发表于 2014-01-24 15:26 |只看该作者
回复 9# roskin


    sed -n '/'"$c"'/,/'"$d"'/{//!p}'
  1. $ cat file
  2. bbbbbbbbbbbbbb
  3. ffffff
  4. [begin]
  5. ggggggg
  6. eeeeeeee
  7. uuuuuuuu

  8. ooooooo
  9. [end]
  10. zzzzzzzz
  11. $ cat file | sed -n '/'"$c"'/,/'"$d"'/{//!p}'
  12. ggggggg
  13. eeeeeeee
  14. uuuuuuuu

  15. ooooooo
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP