免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1424 | 回复: 4
打印 上一主题 下一主题

大神救救小白 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-05-19 23:20 |只看该作者 |倒序浏览
小白今天使用scrapy写的一个简单爬虫 发现返回的unicode字符串处理出现问题

//例子中没有编写item
//spider文件为
import scrapy
class DmozSpider(scrapy.Spider):
        name = "dmoz"
        allowed_domains = ["dmoz.org"]
        start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
        def parse(self, response):
                for sel in response.xpath('//ul/li'):
                        title = sel.xpath('a/text()').extract()
                        print title
结果为:
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
说明  
title 是一个包含一个unicode字符串的列表
问题在后面: 为了提出出字符串,而不是一个列表,我用以下两个方法:
1. 最后一句改为  print title[0]
结果提示错误:
            print title[0]
        exceptions.IndexError: list index out of range
2. 使用一个for循环
for a in title:
     print a
就可以  结果为:
Top
Computers
Programming
Languages
Python
....
请大神给小白解答 ,谢谢!



论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
2 [报告]
发表于 2015-05-19 23:47 |只看该作者
ok = [u'Top']
print ok[0] # Top

empty = []
print empty[0]  # IndexError: list index out of range

论坛徽章:
0
3 [报告]
发表于 2015-05-20 00:00 |只看该作者
回复 2# substr函数
是的 我也知道这两个结果
但为什么ok[0] 这种结果对于title就出现错误提示 明明title是有内容的呀

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
4 [报告]
发表于 2015-05-20 11:11 |只看该作者
回复 3# 花哥爱吉他


请试验下

if len(title):
  print title[0]
else:
  print "============ 这时 title 为空 没有内容的呀 =============="


看看结果

论坛徽章:
0
5 [报告]
发表于 2015-05-20 13:14 |只看该作者
回复 4# substr函数


   
仔细查看xpath返回的结果,发现在筛选内容的时候,有些标签没有<a>xx</a> 或者 内容为空  所以title有时候就返回空
当title空的时候,就抛出异常

最后解决办法:
把不同xpath表达式放在不同函数中,然后用列表或者字典 仿造一个switch的结构  就可以根据不同情况进行不同处理     

谢谢师兄WL 和二楼大神  
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP