danieluec 发表于 2015-03-04 16:30

HTMLParser解析出的url不完整

rt,用HTMLParser库写了一个小爬虫,想获取页面中<cite>标签的内容,该标签的值是一个url。但发现解析得到的url并不完整,如:
域名/.../BM05003_2013000587692832.sht...
域名/.../getQuestionBySurveyId?...
域名/95598/.../getQuestionBySurveyId?...
域名/95598/.../getQuestionBySurveyId?...
我的初步估计长度可能有限制,但自己也无法证实。请问大家有人知道是怎么回事吗?多谢了!!

danieluec 发表于 2015-03-04 16:31

抱歉,论坛中还没有权限发表url。。。

weishuo1999 发表于 2015-03-04 17:59

也许人家本来就是非全路径的url,你看看自己加上前面的内容可以吗?

danieluec 发表于 2015-03-04 23:21

收到的html中,url都是完整的哈,也能打开。
页: [1]
查看完整版本: HTMLParser解析出的url不完整