python使用xpath读取html网页
目的:想要将html网页中的蓝色标注的文字读出来,网页格式见下图:我的代码如下:
请问如何将那段文字读取出来? etree没用过
只用re与BeautifulSoup xpath选的不太科学。用火狐的话可以安装xpath checker插件,它可以帮你建议一个xpath,通常还不错。 网页大都是不是合格的XML,用XPATH估计不行。
直接用re就行。 回复 4# linustd
用re太累了! urllib2 用这个吧, 我一般用更麻烦的HTMLParser:-|
页:
[1]