墨迹哥 发表于 2014-03-18 15:11

URL处理的问题请教

例子:http://www.a.com/aaa/bbb/1.asp?id=1
http://www.a.com/aaa/bbb/1.asp?id=2以上例子中 网站地址http://www.a.com/ 是可预知的。
其余部分是不可预知的,但是现在我希望爬虫的时候
不要重复爬取。例如以上两个URL,我只需要任意爬取其中一个即可。
我应该怎么处理这些URL呢?

q1208c 发表于 2014-03-18 15:17

从问号以后全干掉 .

墨迹哥 发表于 2014-03-18 15:23

回复 2# q1208c


    那如果是别的方式呢?http://www.a.com/aaa/index.php/123
http://www.a.com/aaa/index.php/321万一是这种蛋疼方式呢?

q1208c 发表于 2014-03-18 15:27

回复 3# 墨迹哥

cao, 如果是这种, 那无解了. 只能认为是不同的. 因为 "." 并不是一个可靠的分隔符.
   

墨迹哥 发表于 2014-03-18 16:31

回复 4# q1208c


    坑爹,那就等于无法优化爬虫了啊。。
页: [1]
查看完整版本: URL处理的问题请教