- 论坛徽章:
- 0
|
小白今天使用scrapy写的一个简单爬虫 发现返回的unicode字符串处理出现问题
//例子中没有编写item
//spider文件为
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
print title
结果为:
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
说明
title 是一个包含一个unicode字符串的列表
问题在后面: 为了提出出字符串,而不是一个列表,我用以下两个方法:
1. 最后一句改为 print title[0]
结果提示错误:
print title[0]
exceptions.IndexError: list index out of range
2. 使用一个for循环
for a in title:
print a
就可以 结果为:
Top
Computers
Programming
Languages
Python
....
请大神给小白解答 ,谢谢!
|
|