- 论坛徽章:
- 0
|
我用python写了一段程序,取得一个网页的源文件,我现在想去除里面所有的tag,只剩下界面上我们看到的字符,怎么做呢?有没有知道的啊?多谢~~~
就是比如:www.google.com的源代码,经过处理以后只剩下下面类似的:
Google
Personalized Home | Sign in
Web Images VideoNew! News Maps more
BooksFroogleGroupseven more Advanced Search Preferences Language ToolsAdvertisin
我写的程序是这样的:
def ByReModule(param):
regex = "<[^!>](?:[^>]|\n)*>"
result = re.sub(regex,'',param)
print result
但是,这样只能清除每对的<>的内容,对于类似:<style>body,td,a,p,.h</style> 这样的,处理完以后body,td,a,p,.h就留下了,怎样也把这些去掉了?
[ 本帖最后由 liwensi 于 2008-9-9 14:39 编辑 ] |
|