免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2396 | 回复: 3

HTMLParser解析出的url不完整 [复制链接]

论坛徽章:
0
发表于 2015-03-04 16:30 |显示全部楼层
rt,用HTMLParser库写了一个小爬虫,想获取页面中<cite>标签的内容,该标签的值是一个url。但发现解析得到的url并不完整,如:
域名/.../BM05003_2013000587692832.sht...
域名/.../getQuestionBySurveyId?...
域名/95598/.../getQuestionBySurveyId?...
域名/95598/.../getQuestionBySurveyId?...
我的初步估计长度可能有限制,但自己也无法证实。请问大家有人知道是怎么回事吗?多谢了!!

论坛徽章:
0
发表于 2015-03-04 16:31 |显示全部楼层
抱歉,论坛中还没有权限发表url。。。

论坛徽章:
4
双子座
日期:2014-08-28 10:08:002015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:58:112015年亚洲杯之阿联酋
日期:2015-03-13 03:25:15
发表于 2015-03-04 17:59 |显示全部楼层
也许人家本来就是非全路径的url,你看看自己加上前面的内容可以吗?

论坛徽章:
0
发表于 2015-03-04 23:21 |显示全部楼层
收到的html中,url都是完整的哈,也能打开。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP