论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2015-05-19 23:20 |只看该作者 |倒序浏览

小白今天使用scrapy写的一个简单爬虫发现返回的unicode字符串处理出现问题

//例子中没有编写item
//spider文件为
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
                     print title
结果为：
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
说明
title 是一个包含一个unicode字符串的列表
问题在后面：为了提出出字符串，而不是一个列表，我用以下两个方法：
1. 最后一句改为  print title[0]
结果提示错误：
      print title[0]
exceptions.IndexError: list index out of range
2. 使用一个for循环
for a in title:
   print a
就可以  结果为：
Top
Computers
Programming
Languages
Python
....
请大神给小白解答 ,谢谢！

文库|博客

substr函数

腰缠万贯

论坛徽章:: 26

2楼 [报告]

发表于 2015-05-19 23:47 |只看该作者

ok = [u'Top']
print ok[0] # Top

empty = []
print empty[0] # IndexError: list index out of range

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

花哥爱吉他

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2015-05-20 00:00 |只看该作者

回复 2# substr函数
是的我也知道这两个结果
但为什么ok[0] 这种结果对于title就出现错误提示明明title是有内容的呀

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

substr函数

腰缠万贯

论坛徽章:: 26

4楼 [报告]

发表于 2015-05-20 11:11 |只看该作者

回复 3# 花哥爱吉他

请试验下

if len(title):
print title[0]
else:
print "============ 这时 title 为空没有内容的呀 =============="

看看结果

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

花哥爱吉他

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2015-05-20 13:14 |只看该作者

回复 4# substr函数

仔细查看xpath返回的结果，发现在筛选内容的时候，有些标签没有<a>xx</a> 或者内容为空  所以title有时候就返回空
当title空的时候，就抛出异常

最后解决办法：
把不同xpath表达式放在不同函数中，然后用列表或者字典仿造一个switch的结构  就可以根据不同情况进行不同处理

谢谢师兄WL 和二楼大神

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 大神救救小白

大神救救小白 [复制链接]

浏览过的版块