Chinaunix
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
[打印本页]
作者:
越走越远
时间:
2004-09-03 09:27
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
要想把某个网站的内容抓下来,用哪些方法,请赐教具体的思路!!
作者:
yeath
时间:
2004-09-03 09:38
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
应该有这种工具的吧,GOOGLE里搜索一下。
作者:
FH
时间:
2004-09-03 10:09
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
既然这里是C/C++版,所以我只能告诉你:自己写个程序吧。
作者:
越走越远
时间:
2004-09-03 10:31
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
谢谢楼上大哥,我是要自己写程序,给我点思路好吗?
作者:
FH
时间:
2004-09-03 10:42
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
用HTTP GET抓主页,然后分析内容,递归抓链接。
作者:
越走越远
时间:
2004-09-03 12:28
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
顶
作者:
默难
时间:
2004-09-03 21:45
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]
原帖由 "FH"]用HTTP GET抓主页,然后分析内容,递归抓链接。[/quote 发表:
没错~你要是觉得这个不爽……libpcap倒是……
8过那个是抓包的~不适合应用层这点东西~
作者:
aspbiz
时间:
2004-09-03 22:53
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
OE
作者:
JohnBull
时间:
2004-09-04 10:36
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
找找 wget或者curl的源码.
作者:
乌鸦飞飞
时间:
2004-09-04 18:31
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
是不是可以看到他的原码保存成.html或htm的文件在用工具跟踪链接这样可能要麻烦点
作者:
THEBEST
时间:
2004-09-04 23:07
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?
作者:
songix
时间:
2004-09-05 02:54
标题:
老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]
原帖由 "THEBEST"]如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?[/quote 发表:
可以把URL分析一下,如果出了本站就不要再跟踪了。这样行不。
比如www.xxx.com/index.html里面引用了www.aa.com里面的东西,只要判断是不是www.xxx.com打头的就行了。使用相对路径的就不用考虑了。
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2