免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: GodPig
打印 上一主题 下一主题

[C] 这样的基于libcurl写的程序算不算网络爬虫? [复制链接]

论坛徽章:
0
21 [报告]
发表于 2008-06-04 16:21 |只看该作者
潜力贴, 来玩了, 2008最有趣的老师:)

论坛徽章:
0
22 [报告]
发表于 2008-06-04 17:52 |只看该作者
https://sirch.svn.sourceforge.ne ... unk/crawler/cache.c

你可以选择cache_to_memory,但是爬虫一般都设计成分布式的,如果不cache_to_file,会给索引造成很大的负担的吧

论坛徽章:
0
23 [报告]
发表于 2008-06-05 12:58 |只看该作者

回复 #6 flw 的帖子

相当同意....

论坛徽章:
0
24 [报告]
发表于 2008-06-05 14:45 |只看该作者
原帖由 GodPig 于 2008-6-4 13:39 发表
就是利用libcurl,将网页的内容下载下来,然后再提取网页中的链接,然后再下载,然后分析网页中的内容……
这样的程序算不算网络爬虫???

毕业设计,导师说这样的不算~~
他说网络爬虫是一个程序,跑到 ...

你导师这样告诉你?
赶紧闪吧,不要在他身边浪费你的青春了,有这时间去泡MM多好

论坛徽章:
0
25 [报告]
发表于 2008-06-05 17:34 |只看该作者
可怜的娃

再说,注册表之类的
分析HTML能分析的了吗?要是在LINUX下哪里的注册表?

还是多泡泡妞吧

论坛徽章:
0
26 [报告]
发表于 2008-06-06 13:31 |只看该作者
都说爬虫这么简单。

google 还干嘛 建立一个小组 ,做这个东西。

首先,
html编码 的分析,
第二 如果传回来的文件不是标准的html 怎么办?
第三 url 回路。
第四 处理的效率
第五 失败后重新处理的策略。
效率
要做的东西 多者呢

论坛徽章:
0
27 [报告]
发表于 2008-06-06 13:36 |只看该作者
原帖由 benjiam 于 2008-6-6 13:31 发表
都说爬虫这么简单。

google 还干嘛 建立一个小组 ,做这个东西。

首先,
html编码 的分析,
第二 如果传回来的文件不是标准的html 怎么办?
第三 url 回路。
第四 处理的效率
第五 失败后重新处理的策 ...


同意,说一件事简单动动嘴就可以了,可做好一件事就需要很多考虑了

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
28 [报告]
发表于 2008-06-08 19:04 |只看该作者

回复 #1 GodPig 的帖子

如果你说的话是真的,那你的导师是个大SB.  应该想办法将其清洗出去, 以免贻误后来人

论坛徽章:
0
29 [报告]
发表于 2008-06-08 21:07 |只看该作者
楼主, 你和你们导师存在严重的代沟

论坛徽章:
0
30 [报告]
发表于 2008-06-09 03:04 |只看该作者
原帖由 oklqh 于 2008-6-8 21:07 发表
楼主, 你和你们导师存在严重的代沟


什么意思???
因为语言不同???
呵呵~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP