- 论坛徽章:
- 0
|
原帖由 hightman 于 2007-9-22 00:23 发表 ![]()
我也搞了一个全文检索的套件在 www.ftphp.com
//拜访了一下,很不错的东西.
楼主的东西浏览了一下,大概是讲述如何从头构建一个像Google,baidu之类的web搜索引擎, 但小弟认为目前再去构建这样的东西除了兴趣研究之外,似乎没有什么好的发展前景, 且不说能否做得更优秀(不得不承认这是极难的), 做好以后面对的市场竞争也是难上加难.
//我只关心技术,商务上的东西没啥意思......
我弄的ftphp支持的量没有楼主提到的亿\上百亿\上千亿或更多级别,目前基本上能较好的支持千万级,作为全文索引库, 主要目标是站内搜索, 站内搜索和通用的WEB搜索引擎(google,baidu为代表)有着许多本质的区别, 站内搜索通常对"查全"有更高的要求, 此外排序也应更灵活(类似SQL的字段排序), 这些的运算都是目前我无法较好解决的疑难之一呵.
//全文检索到搜索引擎有比较长的路要走....两者也有非常大的区别.
//另外,对于SE,我最大的感触就是,简单即美.所以,你的系统不要考虑过于复杂的查询....那是徒劳的.
特别是排序, 如果不预排序,成千上百亿的数量肯定会有亿命中的数量,如果要根据"点击次数"排名,有何良方?? 而且 web 搜索对于查全没有这么高的要求, 排序也相对单一只要按一种自己认为的和搜索关键词相关\重要性排序即可.
//不做SE的人...是感觉不到google的pagerank是如何牛的....google的其他技术,人家都有...它成功的关键还是在于它的pagerank.
//当然,一家SE公司的成功,还需要很多因素,商业,融资,管理,人材,机遇......
有兴趣在此方面进行探讨,可惜文章中说到的技术部分比较,期待技术文章....
//技术要写,就复杂很多了....估计写出来是大厚本的书.....太累人.
现在搞搜索的个人也蛮多呀,之前看到一个 www.sqlet.com 也是在做亿级WEB通用搜索引擎....
//哦,这个网站,看了一下....还看不到具体的技术指标....
你的网站做得真不错...那个图画得就比我画的好....
我画不好图...直接借人家Lucene的. |
|