python使用xpath读取html网页

c00h00g 发表于 2014-06-17 20:04

目的：想要将html网页中的蓝色标注的文字读出来，网页格式见下图：

我的代码如下：

请问如何将那段文字读取出来？

HH106 发表于 2014-06-18 10:34

etree没用过
只用re与BeautifulSoup

r2007 发表于 2014-06-19 11:09

xpath选的不太科学。用火狐的话可以安装xpath checker插件，它可以帮你建议一个xpath，通常还不错。

linustd 发表于 2014-06-21 17:11

网页大都是不是合格的XML，用XPATH估计不行。

直接用re就行。

qxhgd 发表于 2014-06-24 14:21

回复 4# linustd

用re太累了！

toowww 发表于 2014-06-26 14:43

urllib2 用这个吧，

inpool 发表于 2014-06-26 14:52

我一般用更麻烦的HTMLParser:-|

页: [1]

Chinaunix's Archiver