Chinaunix

标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!! [打印本页]

作者: 越走越远    时间: 2004-09-03 09:27
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
要想把某个网站的内容抓下来,用哪些方法,请赐教具体的思路!!
作者: yeath    时间: 2004-09-03 09:38
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
应该有这种工具的吧,GOOGLE里搜索一下。
作者: FH    时间: 2004-09-03 10:09
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
既然这里是C/C++版,所以我只能告诉你:自己写个程序吧。
作者: 越走越远    时间: 2004-09-03 10:31
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
谢谢楼上大哥,我是要自己写程序,给我点思路好吗?
作者: FH    时间: 2004-09-03 10:42
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
用HTTP GET抓主页,然后分析内容,递归抓链接。
作者: 越走越远    时间: 2004-09-03 12:28
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!

作者: 默难    时间: 2004-09-03 21:45
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]原帖由 "FH"]用HTTP GET抓主页,然后分析内容,递归抓链接。[/quote 发表:

没错~你要是觉得这个不爽……libpcap倒是…… 8过那个是抓包的~不适合应用层这点东西~
作者: aspbiz    时间: 2004-09-03 22:53
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
OE
作者: JohnBull    时间: 2004-09-04 10:36
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
找找 wget或者curl的源码.
作者: 乌鸦飞飞    时间: 2004-09-04 18:31
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
是不是可以看到他的原码保存成.html或htm的文件在用工具跟踪链接这样可能要麻烦点
作者: THEBEST    时间: 2004-09-04 23:07
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?
作者: songix    时间: 2004-09-05 02:54
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]原帖由 "THEBEST"]如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?[/quote 发表:


可以把URL分析一下,如果出了本站就不要再跟踪了。这样行不。

比如www.xxx.com/index.html里面引用了www.aa.com里面的东西,只要判断是不是www.xxx.com打头的就行了。使用相对路径的就不用考虑了。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2