免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: googleabcd
打印 上一主题 下一主题

业余时间做了一个垂直搜索引擎,大家给些意见吧 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2006-12-21 01:21 |只看该作者
感觉还是不错的,支持一个。

论坛徽章:
0
22 [报告]
发表于 2006-12-21 11:10 |只看该作者
原帖由 googleabcd 于 2006-12-20 00:10 发表
机器人定时抓取网页,关键之处是抓取之后要对HTML页面进行分词、主题过滤等处理。
网页可以放在本地,现在硬盘那么便宜,一个200G就足够放很多个大型网站了。

抓回来的页面需要生成索引,查询的时候只会查询索 ...



网络机器人就是传说中的网络爬虫?网络蜘蛛?, 那也就是一个进程了,那是不是要起很多进程? 那如果网站更新了,又怎么处理呢?搂主用了几台pc去抓取网页? 是不是要专门用pc作为索引服务器,后台用C, 那后台是unix或者linux了?需不需要数据库支持? 搂主用什么数据库?没做过搜索,请教一下。主要是想知道一些架构上的东西。
googleabcd 该用户已被删除
23 [报告]
发表于 2006-12-21 11:23 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
24 [报告]
发表于 2006-12-21 11:32 |只看该作者
原帖由 googleabcd 于 2006-12-19 15:25 发表
后台核心全部都是纯C写的。。只是目前暂用PHP作为前台显示而已



你写的?还是clucene?

还是?
googleabcd 该用户已被删除
25 [报告]
发表于 2006-12-21 12:03 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
googleabcd 该用户已被删除
26 [报告]
发表于 2006-12-21 13:47 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
27 [报告]
发表于 2006-12-22 08:22 |只看该作者
快搜? 太平洋网站的搜索也叫快搜。不知道是否为同一搜索!
大家可以到www.pconline.com.cn 页头随便输个什么 然后搜索就知道。

[ 本帖最后由 sxc_101 于 2006-12-22 08:29 编辑 ]

论坛徽章:
0
28 [报告]
发表于 2006-12-22 09:27 |只看该作者
很好啊,,

我也要学习一下啊

论坛徽章:
0
29 [报告]
发表于 2006-12-22 09:45 |只看该作者
不错,另外,个人认为主页面是不是更简洁些好呢?

论坛徽章:
0
30 [报告]
发表于 2006-12-22 13:16 |只看该作者
以前毕业设计也做的是搜索引擎,原理非常简单。关键是分词和搜索算法!至于网络蜘蛛现在还比较成熟,网上也能找到累死的代码。算法和索引的编排就有很大的学问了!还有分布式计算,链接的权值等等!入门容易想做好!难阿!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP