免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › C/C++ › 这样的基于libcurl写的程序算不算网络爬虫？

1 234 / 4 页下一页

最近访问板块

发新帖

楼主: GodPig

上一主题

下一主题

[C] 这样的基于libcurl写的程序算不算网络爬虫？ [复制链接]

论坛徽章:: 0

21楼 [报告]

发表于 2008-06-04 16:21 |只看该作者

潜力贴，来玩了， 2008最有趣的老师：）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

22楼 [报告]

发表于 2008-06-04 17:52 |只看该作者

https://sirch.svn.sourceforge.ne ... unk/crawler/cache.c

你可以选择cache_to_memory，但是爬虫一般都设计成分布式的，如果不cache_to_file，会给索引造成很大的负担的吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

23楼 [报告]

发表于 2008-06-05 12:58 |只看该作者

回复 #6 flw 的帖子

相当同意....

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

24楼 [报告]

发表于 2008-06-05 14:45 |只看该作者

原帖由 GodPig 于 2008-6-4 13:39 发表
就是利用libcurl，将网页的内容下载下来，然后再提取网页中的链接，然后再下载，然后分析网页中的内容……
这样的程序算不算网络爬虫？？？

毕业设计，导师说这样的不算～～
他说网络爬虫是一个程序，跑到 ...

你导师这样告诉你？
赶紧闪吧，不要在他身边浪费你的青春了，有这时间去泡MM多好

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

25楼 [报告]

发表于 2008-06-05 17:34 |只看该作者

可怜的娃

再说，注册表之类的
分析HTML能分析的了吗？要是在LINUX下哪里的注册表？

还是多泡泡妞吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

26楼 [报告]

发表于 2008-06-06 13:31 |只看该作者

都说爬虫这么简单。

google 还干嘛建立一个小组，做这个东西。

首先,
html编码的分析，
第二如果传回来的文件不是标准的html 怎么办？
第三 url 回路。
第四处理的效率
第五失败后重新处理的策略。
效率
要做的东西多者呢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

27楼 [报告]

发表于 2008-06-06 13:36 |只看该作者

原帖由 benjiam 于 2008-6-6 13:31 发表
都说爬虫这么简单。

google 还干嘛建立一个小组，做这个东西。

首先,
html编码的分析，
第二如果传回来的文件不是标准的html 怎么办？
第三 url 回路。
第四处理的效率
第五失败后重新处理的策 ...

同意,说一件事简单动动嘴就可以了,可做好一件事就需要很多考虑了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

2015年辞旧岁徽章
日期:2015-03-03 16:54:15

28楼 [报告]

发表于 2008-06-08 19:04 |只看该作者

回复 #1 GodPig 的帖子

如果你说的话是真的，那你的导师是个大SB. 应该想办法将其清洗出去，以免贻误后来人

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

29楼 [报告]

发表于 2008-06-08 21:07 |只看该作者

楼主，你和你们导师存在严重的代沟

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

30楼 [报告]

发表于 2008-06-09 03:04 |只看该作者

原帖由 oklqh 于 2008-6-8 21:07 发表
楼主，你和你们导师存在严重的代沟

什么意思？？？
因为语言不同？？？
呵呵～～～

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 234 / 4 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › C/C++ › 这样的基于libcurl写的程序算不算网络爬虫？

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP