URL处理的问题请教
例子:http://www.a.com/aaa/bbb/1.asp?id=1http://www.a.com/aaa/bbb/1.asp?id=2以上例子中 网站地址http://www.a.com/ 是可预知的。
其余部分是不可预知的,但是现在我希望爬虫的时候
不要重复爬取。例如以上两个URL,我只需要任意爬取其中一个即可。
我应该怎么处理这些URL呢? 从问号以后全干掉 . 回复 2# q1208c
那如果是别的方式呢?http://www.a.com/aaa/index.php/123
http://www.a.com/aaa/index.php/321万一是这种蛋疼方式呢? 回复 3# 墨迹哥
cao, 如果是这种, 那无解了. 只能认为是不同的. 因为 "." 并不是一个可靠的分隔符.
回复 4# q1208c
坑爹,那就等于无法优化爬虫了啊。。
页:
[1]