Chinaunix

标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!! [打印本页]

作者: 越走越远 时间: 2004-09-03 09:27
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
要想把某个网站的内容抓下来,用哪些方法,请赐教具体的思路!!

作者: yeath 时间: 2004-09-03 09:38
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
应该有这种工具的吧，GOOGLE里搜索一下。

作者: FH 时间: 2004-09-03 10:09
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
既然这里是C/C++版，所以我只能告诉你：自己写个程序吧。

作者: 越走越远 时间: 2004-09-03 10:31
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
谢谢楼上大哥,我是要自己写程序,给我点思路好吗?

作者: FH 时间: 2004-09-03 10:42
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
用HTTP GET抓主页，然后分析内容，递归抓链接。

作者: 越走越远 时间: 2004-09-03 12:28
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
顶

作者: 默难 时间: 2004-09-03 21:45
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]原帖由 "FH"]用HTTP GET抓主页，然后分析内容，递归抓链接。[/quote 发表：

没错~你要是觉得这个不爽……libpcap倒是……

8过那个是抓包的~不适合应用层这点东西~

作者: aspbiz 时间: 2004-09-03 22:53
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
OE

作者: JohnBull 时间: 2004-09-04 10:36
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
找找 wget或者curl的源码.

作者: 乌鸦飞飞 时间: 2004-09-04 18:31
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
是不是可以看到他的原码保存成.html或htm的文件在用工具跟踪链接这样可能要麻烦点

作者: THEBEST 时间: 2004-09-04 23:07
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?

作者: songix 时间: 2004-09-05 02:54
标题: 老师!!求助呀!!-----怎么样才能抓取网站内容!!
[quote]原帖由 "THEBEST"]如果链到一个搜索器上(如goolge)上不是要把所有的链接都链下来?有多少啊...还要分析域名?[/quote 发表：

可以把URL分析一下，如果出了本站就不要再跟踪了。这样行不。

比如www.xxx.com/index.html里面引用了www.aa.com里面的东西，只要判断是不是www.xxx.com打头的就行了。使用相对路径的就不用考虑了。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)