免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1702 | 回复: 7
打印 上一主题 下一主题

怎样删除< >之间的内容 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-01-24 15:58 |只看该作者 |倒序浏览
有个简单的htm源文件,
可不可以将<xx>abcdefg</xxx>过滤掉所有<>之间的部分只剩下abcdefg这样的内容

这个应该怎么做

用<*>作为正则表达式是不是就可以实现那

论坛徽章:
0
2 [报告]
发表于 2008-01-24 16:05 |只看该作者

  1. # echo "<xx>abcdefg</xxx>" | sed 's/\(<.*>\)\(.*\)\(<.*>\)/\2/'
  2. abcdefg
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2008-01-24 16:10 |只看该作者
sed 's/<[^>]*>//g'

论坛徽章:
0
4 [报告]
发表于 2008-01-24 16:36 |只看该作者
谢谢
但是不知道为什么我cat a.htm |sed 's/<[^>]*>//g' 的时候,输出的还是有没被过滤的
比如文件头就没有
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns="urn:schemas-microsoft-comfficeffice"
xmlns:w="urn:schemas-microsoft-comffice:word"
xmlns:st1="urn:schemas-microsoft-comffice:smarttags"
xmlns="http://www.w3.org/TR/REC-html40">
是因为换行的原因吗?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
5 [报告]
发表于 2008-01-24 16:39 |只看该作者
原帖由 zorrow 于 2008-1-24 16:36 发表
谢谢
但是不知道为什么我cat a.htm |sed 's/]*>//g' 的时候,输出的还是有没被过滤的
比如文件头就没有

是因为换行的原因吗?


对的,sed是一行一行操作的。

论坛徽章:
0
6 [报告]
发表于 2008-01-24 16:46 |只看该作者

回复 #5 ly5066113 的帖子

那应该怎么办那,把换行先过滤掉吗?
这样是不是过滤完的数据也分不开了
其中的一段是这样的
<p class=MsoNormal style='tab-stops:45.8pt 91.6pt 137.4pt 183.2pt 229.0pt 274.8pt 320.6pt 366.4pt 412.2pt 458.0pt 503.8pt 549.6pt 595.4pt 641.2pt 687.0pt 732.8pt'><span
  lang=EN-US style='mso-bidi-font-family:宋体'>58.59.1.16<span
  style='mso-spacerun:yes'>&nbsp; </span><span
  style='mso-spacerun:yes'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</span><st1:chsdate
  Year="1899" Month="12" Day="30" IsLunarDate="False" IsROCDate="False" w:st="on">0.0.0</st1:chsdate>.1<span
  style='mso-spacerun:yes'>&nbsp;&nbsp;&nbsp; </span>255.255.255.254<span
  style='mso-spacerun:yes'>&nbsp;&nbsp;&nbsp;&nbsp; </span><o:p></o:p></span></p>
我只想剩下其中的ip和后面的mask,这样要怎么过滤才能实现啊~~~
多谢了

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
7 [报告]
发表于 2008-01-24 16:52 |只看该作者
test.sed
  1. #!/bin/sed -f
  2. :a
  3. /<[^>]*$/{
  4.         N
  5.         ba
  6. }
  7. s/<[^>]*>//g
复制代码


sed -f test.sed urfile

论坛徽章:
0
8 [报告]
发表于 2008-01-24 17:31 |只看该作者
谢谢!~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP