免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: xtthnfr
打印 上一主题 下一主题

搜索引擎技术介绍的PPT,我写的,欢迎观看. [复制链接]

论坛徽章:
0
21 [报告]
发表于 2007-09-21 20:08 |只看该作者
不错,lz在做移动搜索。。。。。?

论坛徽章:
0
22 [报告]
发表于 2007-09-22 00:09 |只看该作者
打不开!
office 2003!

论坛徽章:
0
23 [报告]
发表于 2007-09-22 00:23 |只看该作者
我也搞了一个全文检索的套件在 www.ftphp.com

楼主的东西浏览了一下,大概是讲述如何从头构建一个像Google,baidu之类的web搜索引擎, 但小弟认为目前再去构建这样的东西除了兴趣研究之外,似乎没有什么好的发展前景, 且不说能否做得更优秀(不得不承认这是极难的), 做好以后面对的市场竞争也是难上加难.

我弄的ftphp支持的量没有楼主提到的亿\上百亿\上千亿或更多级别,目前基本上能较好的支持千万级,作为全文索引库, 主要目标是站内搜索, 站内搜索和通用的WEB搜索引擎(google,baidu为代表)有着许多本质的区别, 站内搜索通常对"查全"有更高的要求, 此外排序也应更灵活(类似SQL的字段排序), 这些的运算都是目前我无法较好解决的疑难之一呵.

特别是排序, 如果不预排序,成千上百亿的数量肯定会有亿命中的数量,如果要根据"点击次数"排名,有何良方?? 而且 web 搜索对于查全没有这么高的要求, 排序也相对单一只要按一种自己认为的和搜索关键词相关\重要性排序即可.

有兴趣在此方面进行探讨,可惜文章中说到的技术部分比较,期待技术文章....

现在搞搜索的个人也蛮多呀,之前看到一个 www.sqlet.com 也是在做亿级WEB通用搜索引擎....

论坛徽章:
0
24 [报告]
发表于 2007-09-22 00:55 |只看该作者
谢谢             .

论坛徽章:
0
25 [报告]
发表于 2007-09-22 00:59 |只看该作者
下来看看先

论坛徽章:
0
26 [报告]
发表于 2007-09-22 01:29 |只看该作者
收了,对搜索技术有点兴趣,特别是算法部分

论坛徽章:
0
27 [报告]
发表于 2007-09-22 16:04 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
28 [报告]
发表于 2007-09-24 10:07 |只看该作者
原帖由 benlan 于 2007-9-1 22:09 发表
强人,顶一个

借问一个问题,爬虫对javascript是咋么处理的,有没有一个javascript解析器引擎的
如跳转等用javascript来实现的,如何处理。
一般用什么实现javascript引擎,从firefox上抽取?


//这个问题,我没做过....不知道如何回答.

//如果我要来解决这个问题,我估计会去写个javascript解析器之类的东西.

//写类似的东西,其实问题并不困难.主要是去看看javascript之类的语法定义就应该能解决.没有具体做过,只能猜测.

论坛徽章:
0
29 [报告]
发表于 2007-09-24 10:08 |只看该作者
原帖由 parachute 于 2007-9-21 20:08 发表
不错,lz在做移动搜索。。。。。?


对,原来我是做了2年的WEB搜索...

我现在做移动搜索....已做了3年了.

论坛徽章:
0
30 [报告]
发表于 2007-09-24 10:12 |只看该作者
//直接不能看PPT文件的朋友,可以访问下面的URL,全部是图片格式.

//感谢这位没见过面的朋友,把我的PPT转成图片.

http://blog.csdn.net/heiyeshuwu/archive/2007/09/12/1782718.aspx
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP