免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: bs
打印 上一主题 下一主题

讨论一下PHP相关技能的层次 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2009-02-16 21:18 |只看该作者
原帖由 北京野狼 于 2009-2-16 19:53 发表
Java版Lucene 是全文检索的好工具, 但Lucene 不能代替DB。 想想用数据库做过什么,Lucene现在仅仅是关键字检索。

并且Lucene 也有很多弊端, 比如几乎不支持群集,倒排索引的不足。

最主要的是当达到楼上兄弟的800W数据时,Lucene 性能极差。 如果再频繁update数据, 增量索引将产生巨大i/o影响, 达到不可用的地步。



老大, 我只说lucene部分
lucene的确有很多不足, 但有几点我不同看法.
800w数据lucene性能极差, 这可能是基于单机把, 我做过千万级别的(分布式), 速度还行在1-2秒内.

至于频繁update数据, lucene不适合频繁update数据的场景, 简单点解决方法分布式. 通常搜索和更新索引两块是分离的.


LUCENE目前应该还是最好的开源搜索引擎, 适用范围最广泛的(看下其应用案例), 文档最全的, mail-list讨论最热闹的. 如果有更好的你可以推荐给我.


说个题外话:
不同应用场景需要不同工具, 比如lucene明显不适合做实时搜索, 但是一些人还是用它做实时搜索, 边用边骂, 给我的感觉是 骑着自行车, 想赶超轿车, 赶不上就要骂自行车不及轿车.
举例不当, 自行车需要买的, lucene是开源的.
它都开源了,你完全可以读它代码,自己做个更好的,当然你不xue于看它代码,你完全可以自己写个原创的, 记得开源, 让大家免费使用, 建立个wiki, mail-list, 写点教程, 记得要不断更新. 这样很多人都会慕名而来, 哭着闹着请你签名,指教, 然后他们中部分人写博称这东西怎么怎么厉害,安装是怎么怎么做的(之所以说安装,是随便一搜到处都是安装),玩的多了出个书, 深入浅出**, 比LUCENE还要牛逼的**, 山寨版LUCENE(怎么吸引眼球怎么弄, 弄几个美女图片), 这些人的简历就会多这项, 然后去应聘什么C*O, BOSS一听**这么牛叉, 大笔一挥, C*O就让做了, 当了官招点**的新手, 稳固下自己**江湖的地位. 而你身为**的father, 俯视中国大地, 这么多弟子. 应该也能满足你的虚荣心, 水涨船高, 你的收入也会很高.媒体也会大肆宣传:"中国的**之父"


啥时候能看到中国的**之父? 希望在我有生之年~

论坛徽章:
62
2016科比退役纪念章
日期:2016-06-28 17:45:06奥兰多魔术
日期:2015-05-04 22:47:40菠菜神灯
日期:2015-05-04 22:35:07菠菜神灯
日期:2015-05-04 22:35:02NBA季后赛大富翁
日期:2015-05-04 22:33:34NBA常规赛纪念章
日期:2015-05-04 22:32:032015年亚洲杯纪念徽章
日期:2015-04-14 16:54:452015年亚洲杯之朝鲜
日期:2015-03-19 23:03:16明尼苏达森林狼
日期:2015-03-16 21:51:152015小元宵徽章
日期:2015-03-06 15:57:202015年迎新春徽章
日期:2015-03-04 09:55:282015年辞旧岁徽章
日期:2015-03-03 16:54:15
22 [报告]
发表于 2009-02-16 22:00 |只看该作者

回复 #19 james.liu 的帖子

核心其实就是lucene不适合做实时搜索,基本都把更新放到半夜。很多垂直搜索门户都是基于lucene的,不能实时更新注定产品的局限。

比如800w的db, 主键检索单行记录也极快, 甚至不超过1秒。 但是一套运营中的系统,性能是多方面的。

我的同事车东是lucene方面的专家,你可以搜索一下他自己的网站, 上面好多好文章。能让你骑着自行车, 追上所有的自行车 。

论坛徽章:
0
23 [报告]
发表于 2009-02-16 22:24 |只看该作者
原帖由 北京野狼 于 2009-2-16 22:00 发表
核心其实就是lucene不适合做实时搜索,基本都把更新放到半夜。很多垂直搜索门户都是基于lucene的,不能实时更新注定产品的局限。

比如800w的db, 主键检索单行记录也极快, 甚至不超过1秒。 但是一套运营中的系统,性能是多方面的。

我的同事车东是lucene方面的专家,你可以搜索一下他自己的网站, 上面好多好文章。能让你骑着自行车, 追上所有的自行车 。


呵呵, 老大好.

是阿..不适合, 有简单过度方法, 但那些网站好像都不会.

恩, 我没有任何否认DB的意思,相反我一直认为db很棒, 我在做搜索时,不知道怎么做,从db那里学了不少东西.

嘿嘿, 原来老大混雅虎,如果是blogbus,我要来朝拜   雅虎人裁的差不多了把. 我喜欢混mail-list学技术

ps: 我不会骑自行车

论坛徽章:
62
2016科比退役纪念章
日期:2016-06-28 17:45:06奥兰多魔术
日期:2015-05-04 22:47:40菠菜神灯
日期:2015-05-04 22:35:07菠菜神灯
日期:2015-05-04 22:35:02NBA季后赛大富翁
日期:2015-05-04 22:33:34NBA常规赛纪念章
日期:2015-05-04 22:32:032015年亚洲杯纪念徽章
日期:2015-04-14 16:54:452015年亚洲杯之朝鲜
日期:2015-03-19 23:03:16明尼苏达森林狼
日期:2015-03-16 21:51:152015小元宵徽章
日期:2015-03-06 15:57:202015年迎新春徽章
日期:2015-03-04 09:55:282015年辞旧岁徽章
日期:2015-03-03 16:54:15
24 [报告]
发表于 2009-02-16 22:46 |只看该作者

回复 #21 james.liu 的帖子

数据库重要的是功能而不是效率,但是并不可能随便c++写个服务, 就真的解决高效的查询和更新。

因为以前做过很多邮件系统,我就喜欢用各种文件的方式解决数据库压力。

还记得吧,前年让你加入我们公司, 可惜你不在北京。

论坛徽章:
0
25 [报告]
发表于 2009-02-16 22:56 |只看该作者
原帖由 北京野狼 于 2009-2-16 22:46 发表
数据库重要的是功能而不是效率,但是并不可能随便c++写个服务, 就真的解决高效的查询和更新。

因为以前做过很多邮件系统,我就喜欢用各种文件的方式解决数据库压力。

还记得吧,前年让你加入我们公司,  ...


老大现在不做技术了把

呵呵, 记得的.有机会一定来朝拜~

论坛徽章:
0
26 [报告]
发表于 2009-02-17 10:02 |只看该作者
原帖由 北京野狼 于 2009-2-16 19:53 发表
Java版Lucene 是全文检索的好工具, 但Lucene 不能代替DB。 想想用数据库做过什么,Lucene现在仅仅是关键字检索。

并且Lucene 也有很多弊端, 比如几乎不支持群集,倒排索引的不足。  

最主要的是当达到楼 ...


800W的数据用clucene是不会到 极差 的地步的,至于分布式,Lucene只是一个库,基于其上做分布式完全是可实现的。数据库当然有它的优势,关键是看业务需求了

论坛徽章:
0
27 [报告]
发表于 2009-02-17 10:32 |只看该作者
很好
很轻大

论坛徽章:
0
28 [报告]
发表于 2009-02-17 11:21 |只看该作者
看看烂叶

论坛徽章:
0
29 [报告]
发表于 2009-02-17 14:09 |只看该作者
感觉架构上设计简单 巧妙

比c++ php效率 都高上几个数量级别

800w 级别的 db 是什么啊?0.05 s 看你搜索什么东西了吧, 还看你的锁 插入 修改的频率。不能一概而论

论坛徽章:
0
30 [报告]
发表于 2009-02-24 11:19 |只看该作者
都是一些强人的说
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP