免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: aswjh
打印 上一主题 下一主题

用sed去除html标记,但保留其中带压缩文件名的,试了好久都没成功 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2012-06-02 13:01 |只看该作者
回复 9# yinyuemi
刚发的时候编的。

   

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
12 [报告]
发表于 2012-06-02 13:02 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
13 [报告]
发表于 2012-06-02 13:03 |只看该作者
回复 8# zooyo


那重新开贴请教 我还是先领会一下再说,不过看得有点晕

论坛徽章:
1
辰龙
日期:2014-05-22 11:38:58
14 [报告]
发表于 2012-06-02 13:11 |只看该作者
  1. sed 's/<[^">]*"/ /g;s/">/ /g;s/<[^>]*>//g'
复制代码

论坛徽章:
0
15 [报告]
发表于 2012-06-02 14:18 |只看该作者
回复 14# winway1988


学习了两位的方法,最后尝试用这个实现:
hh='<br><a herf="./ppp/aa.rar" target="_blank"><img src="/ppp/rar.gif" border="0">aa.rar<br><a herf="./ppp/bb.rar">bb.rar<br><a herf="./ppp/cc.rar">cc.rar<br>'
echo $hh|sed 's/<[^"]*"/ /g;s/"[^>]*>/ /g;s/ [^ ]*.gif/ /;s/<[^>]*>//g'
谢谢

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
16 [报告]
发表于 2012-06-02 17:27 |只看该作者
  1. sed 's/[^<>"]*\.rar/\n&\n/g;s/^[^\n]*\n/ /g;s/\n[^\n]*\n/ /g;s/\n.*//' urfile
复制代码

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
17 [报告]
发表于 2012-06-02 20:05 |只看该作者
  1. awk -F "\"|>|<" '{for(i=1;i<=NF;i++)if($i ~ /\/|\./)printf $i" ";print ""}'
复制代码
写个awk版本的。

论坛徽章:
0
18 [报告]
发表于 2012-06-03 12:44 |只看该作者
回复 17# dn833
awk做的似乎比sed明晰一些。

   

论坛徽章:
0
19 [报告]
发表于 2012-06-03 14:54 |只看该作者
本帖最后由 aswjh 于 2012-06-03 14:55 编辑

学一个awk:
hh='<br><a herf="./ppp/aa.rar" target="_blank"><img src="/ppp/rar.gif" border="0">aa.rar<br><a herf="./ppp/bb.rar">bb.rar<br><a herf="./ppp/cc.rar">cc.rar<br>'
echo $hh|awk -F "\"|>|<" '{for(i=1;i<=NF;i++)if($i ~ /.*\.rar.*/)printf $i" ";print ""}'

论坛徽章:
0
20 [报告]
发表于 2012-06-04 11:24 |只看该作者
zooyo 发表于 2012-06-02 12:02


请教一个关于这个代码:
s/[^"]+"([^<]+)/\1 /g
这部分中\1所代表的部分应该就是([^<]+)匹配到的吧?但是我不明白的是[^<]匹配的不是非<的所有字符吗?为什么会匹配成./ppp/aa.rar">aa.rar 呢?
谢谢!!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP