免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8835 | 回复: 3
打印 上一主题 下一主题

求助,Python爬虫遇到验证码问题! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-13 14:55 |只看该作者 |倒序浏览
  爬虫模拟登陆,爬取到带选项的信息时需要输入验证码,验证码图片难识别。怎么才能把带有验证码的页面传给浏览器,然后工人进行识别填入?

论坛徽章:
0
2 [报告]
发表于 2013-09-13 15:11 |只看该作者
1.“怎么才能把带有验证码的页面传给浏览器”
你用的是某个模拟浏览器的第三方库?
否则,纯python代码的话,把获得的图片,显示出来即可,为何非要调用浏览器?

论坛徽章:
0
3 [报告]
发表于 2013-09-13 15:39 |只看该作者
本帖最后由 86279057 于 2013-09-13 15:45 编辑

回复 2# crifan


    要是能用PYTHON下载验证码图片。然后人工输入验证码,那最好不过了。

论坛徽章:
0
4 [报告]
发表于 2013-09-13 16:04 |只看该作者
回复 3# 86279057


    获得图片地址,用python下载,然后通过命令行下,调用系统软件打开图片,然后等待用户输入,用户输入验证码后,继续,就可以了。

具体逻辑,可参考我之前写的:
BlogNetease.py
中的:
  1. img = Image.open(StringIO.StringIO(respHtml));
  2. # 如果看不到图片,请参考:
  3. #【已解决】Python中通过Image的open之后,去show结果打不开bmp图片,无法正常显示图片
  4. #http://www.crifan.com/python_image_show_can_not_open_bmp_image_file/
  5. img.show();

  6. hintStr = unicode("请输入所看到的(4个字母的)验证码:", "utf-8");
  7. verifyCode = raw_input(hintStr.encode("GB18030"));
  8. #logging.info(u"您所输入的验证码为:%s", verifyCode);
复制代码


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP