免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2314 | 回复: 0
打印 上一主题 下一主题

[网络管理] 怎样用正则表达式去除html里面所有的tag? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-09-09 14:28 |只看该作者 |倒序浏览
我用python写了一段程序,取得一个网页的源文件,我现在想去除里面所有的tag,只剩下界面上我们看到的字符,怎么做呢?有没有知道的啊?多谢~~~

就是比如:www.google.com的源代码,经过处理以后只剩下下面类似的:
Google
Personalized Home | Sign in
Web Images VideoNew! News Maps more
BooksFroogleGroupseven more Advanced Search Preferences Language ToolsAdvertisin

我写的程序是这样的:
def ByReModule(param):
    regex = "<[^!>](?:[^>]|\n)*>"

    result = re.sub(regex,'',param)

    print result


但是,这样只能清除每对的<>的内容,对于类似:<style>body,td,a,p,.h</style> 这样的,处理完以后body,td,a,p,.h就留下了,怎样也把这些去掉了?

[ 本帖最后由 liwensi 于 2008-9-9 14:39 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP