免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1459 | 回复: 2
打印 上一主题 下一主题

htmlparser的使用 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-08-03 11:35 |只看该作者 |倒序浏览

#!/usr/bin/env python
import HTMLParser
import sys,urllib
class myparser(HTMLParser.HTMLParser):
        def __init__(self):
                HTMLParser.HTMLParser.__init__(self)
                self.recording=0
                self.data=[]
        def handle_starttag(self,tag,attributes):
                if tag=='span':
                        self.recording=1
                if self.recording==1:
                        for name,value in attributes:
                                if name=='class' and value == 'row_proxy_ip':
                                        print name
                                        self.recoding==2
        def handle_endtag(self,tag):
                if tag=='span' and self.recording:
                        self.recording=0
        def handle_data(self,data):
                if self.recording==2:
                        self.data.append(data)
html=myparser()
file1=(urllib.urlopen("http://www.proxcn.com/proxy-server-list").read())
html.feed(file1)
print html.data
html.close()


<td align="left"><span class="row_proxy_ip">110.139.99.207</span>
取出这个ip
这是我的代码 为什么不工作啊
谢谢指教

论坛徽章:
0
2 [报告]
发表于 2012-08-03 12:04 |只看该作者
没有人吗
大家帮帮忙
新手在这谢谢了

论坛徽章:
4
水瓶座
日期:2013-09-06 12:27:30摩羯座
日期:2013-09-28 14:07:46处女座
日期:2013-10-24 14:25:01酉鸡
日期:2014-04-07 11:54:15
3 [报告]
发表于 2012-08-03 12:37 |只看该作者
你的那个网址无效啊.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP