peach2t 发表于 2014-09-09 20:55

麻烦各位指导下这个爬虫这么写

网站是http://www.china-sss.com/Static/FlightDate
将此页面的航班的表格抓取出来,然后循环点击每个页面取到每天的价格

第一次接爬虫的需求。

huangxiaohen 发表于 2014-09-10 11:05

很简单,url = 'http://www.china-sss.com/Static/FlightDate'
ret = urllib2.urlopen(url).read()
soup = BeautifulSoup(ret)

for s in soup.findAll('table',{"class":"timeTable"}):
          for k in s.findAll("tr",{"title":u"点击查询"}):
                      for p in k.findAll("td"):
                              print p.getText('<span>')
                              
取到的是

上海虹桥
14:20
常德
16:40
9C8829
周12467
2014-03-30
2014-10-25
页: [1]
查看完整版本: 麻烦各位指导下这个爬虫这么写