忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 视频 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 27259 | 回复: 11

【大话IT】揭秘你眼中的“搜索技术”,靠什么取胜? [复制链接]

论坛徽章:
135
2015年亚洲杯之日本
日期:2015-04-28 13:32:012015年亚洲杯之朝鲜
日期:2015-05-06 10:16:442015年亚洲杯之日本
日期:2015-05-06 10:21:342015年亚洲杯纪念徽章
日期:2015-05-13 17:16:442015亚冠之北京国安
日期:2015-05-13 17:18:292015亚冠之鹿岛鹿角
日期:2015-05-13 17:19:062015亚冠之德黑兰石油
日期:2015-05-27 16:47:402015亚冠之塔什干棉农
日期:2015-05-28 15:24:122015亚冠之卡尔希纳萨夫
日期:2015-06-01 13:52:392015亚冠之柏斯波利斯
日期:2015-06-04 17:37:292015亚冠之阿尔纳斯尔
日期:2015-06-16 11:31:202015亚冠之塔什干火车头
日期:2015-06-23 10:12:33
发表于 2017-03-27 09:51 |显示全部楼层
获奖公布:
精彩回复:Heguangwu   东风玖哥   Fl_wolf   Forgaoqiang
请以上获奖人员在5月25日前将姓名、电话、邮箱、公司、职务、快递地址站短给hyukhae079408,以便尽快给大家发放礼品。

话题背景:

谈到搜索技术,经常有人会问道:
百度和 Google 的搜索技术是一个量级吗?


为什么那么多人诟病百度技术破绽,欣赏谷歌的靠谱有效。这其中不乏些许偏见,但事实往往胜于雄辩,希望今天这个话题,能够让大家对“搜索技术”有更清醒的认识和了解。
提到搜索技术,我想大家肯定最关注以下几个问题:

(以下是我截取几个知乎热点问题)


今天我们要讨论的问题,与以上几个热点问题大同小异,但更偏向于搜索本身。



讨论问题:

1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。


讨论时间:2017年3月27日—4月27日


活动奖励:
选取4个回复,各送漫步者耳机一个。

微信图片_20170515093944.jpg


论坛徽章:
51
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
发表于 2017-03-27 15:41 |显示全部楼层
记得刚毕业时做的第一个项目就是搜索引擎相关的(WAP搜索引擎),当时就是爬虫什么的名词一大堆没搞明白。后来就撤退了。

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-29 08:48 |显示全部楼层
路过支持...................
占座更新

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-03-29 13:01 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
   从某个角度来说,保证万台服务器内容强一致是完全没有必要的,难道这个用户搜索某个关键词和另外以该用户搜索相同关键词结果有细微偏差会导致很大的问题吗?明显不会,从某种长度来说弱一致基本足够,另外,结果我猜也是用分布式存储来保存的,比如HBase等NoSQL,本身也是具备很高的扩展性,所以存储和查询速度问题不是特别大

2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
   仅从搜索结果来对比,主要是看结果是否符合用户的期望,比如你搜索一个问题看答案,结果答案并不是你想要的,或者结果没有超过你的预期,从下的baidu和google的搜索来看,乍一看好像差不多,但点进第一个链接进去看一下,你就会发现google排名第一的写的更详细也更全面,另外他们都猜出用户可能是想搜索自定义分区,这个结果都列出来了,说明差别其实很小,细节而已
    baidu.png google.png

3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
   从技术角度来说,可以研究google和百度的排名算法,从算法的角度入手,别的方式是扩大宣传,如微博传播,微信传播,点击的人多了,自然链接你这个网站的就多了,排名就上去了

评分

参与人数 1可用积分 +18 收起 理由
王楠w_n + 18 赞一个!

查看全部评分

论坛徽章:
129
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2017-04-07 15:15 |显示全部楼层
微信传播

鹅肠搞闭环生态,怎么被搜索哦/。。???

论坛徽章:
1
15-16赛季CBA联赛之青岛
日期:2017-05-25 14:27:34
发表于 2017-04-10 16:12 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
保证存储和查询速度:
(1)使用性能更佳的硬件
(2)优化数据库
(3)使用存储过程
(4)灵活应用程序结构和算法
保证内容一致性:
(1)只统计行数,即只验证不同服务器上的表的行数是否相同而不验证内容是否匹配,如果行数不一致,则内容一定不一致
(2)若(1)中行数一致,则使用二进制校验和算法验证内容是否一致

2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
很明显能,比如用Google搜索“科学”的结果是古往今来的科学家,用百度搜索“科学”的结果却是国内的官员就“科学发展观”开会

3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
内部优化
(1)建立网站地图
(2)降低网页点击深度
(3)每天保持站内内容的更新(以资讯和文章等文字类为主)
(4)404页面指向打拐或关爱留守儿童
外部优化
(1)尽量保持链接的多样性
(2)每天添加一定数量的外部链接,使关键词排名稳定提升。
(3)与一些和你网站相关性比较高,整体质量比较好的网站交换友情链接,巩固稳定关键词排名。

求职 : Linux运维
论坛徽章:
201
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2017-04-13 18:00 |显示全部楼层
分布式搜索

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
发表于 2017-04-14 16:15 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
搜索引擎来说,抓取到的数据越来越多,数据保存和查询的速度的确是一个问题,但是如果做分布式可以很好的减轻这样的压力。
比如广州地区一个分布式存储点,它和北京地区的数据内容不一定是完全一致的,因为广州和北京的用户属性不可能完全一样,大数据分析而言,精准的数据投放才是最优的;
查询速度的话,那肯定是要优化索引了,而且要建立缓存,这样才能保证较好的速度。
2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
感觉没有啥先进性可言,都是用钱买上去的。
3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
有些搜索引擎都是花钱可以往前排名的;
如果是按照搜索量来排名,可以直接进行刷量操作。就可以了 - -

论坛徽章:
39
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-04-26 21:34 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
技术上来书就那么几招,如果记录越来越多只能先做垂直分区对数据进行分割,然后再进行水平分隔。另外数据一致性大部分情况下不是那么重要,只要保证最终一致性就可以了。
毕竟根据CAP原理,在分布式系统中无法同时满足 一致性、可用性、分区容错性,只能满足两点。而且搜索引擎一部分数据的延后也是可以接受的。
一些非结构化的数据可以使用noSQL而不是关系型数据库进行存储。


2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。

这个应该是重点,从技术上角度上一些结果也许是对的,但是从用户角度,找到了确实自己想要的数据才是最重要的。举个栗子太容易了,比如百度:
你搜索很多国外软件,软件官网绝对能排出首页,即使这个关键词没有竞价,问题在哪里呢?


3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
这个是SEO们的技术,包括在高PR的站点上挂友链接,通过关键词优化,甚至往站点打流量等手段。
所谓的合法的手段一般就是加标签,让内容更容易被spider抓取,保证关键词密度等等,主要是长时间维护。

论坛徽章:
5
CU大牛徽章
日期:2013-05-20 10:43:41IT运维版块每日发帖之星
日期:2016-01-27 06:20:00CU大牛徽章
日期:2013-05-20 10:44:16CU大牛徽章
日期:2013-05-20 10:44:06IT运维版块每日发帖之星
日期:2016-07-29 06:20:00
发表于 2017-05-13 20:27 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
要说明一点就是,不需要保证数万台服务器内容一致。一份数据有三个replica就够了。
要想了解10年前google搜索引擎是么样子的,我觉得可以看看lucene+mapreduce+hdfs。
lucene: 解决索引、检索及分词等问题
mapreduce: 分布式的批处理、并行计算框架。解决数据处理、计算问题。
hdfs:分布式文件系统,解决大数据存储问题。
当然搜索引擎远不止这些,就光缓存都有很多技术层面的问题,如热词缓存,cdn等。缓存要解决的问题,我觉得,无非就是computation avoidance(我发明的词)和数据本地化(data localility)。解决查询速度,基本上要层层的优化,从磁盘io,网络io, 算法等方面进行优化。
高级一点的有对搜索关键字做语义分析和情景分析,这样可以使得搜索更准确,智能。

2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
从某种程度上来说,搜索结果的质量一定有先进的搜索技术做支撑。如果谁都能做出google那样的搜索质量,估计它早就玩不小下去了。
如何让搜索引擎更懂用户,这100%是个技术活。
举个简单的例子,如下两个“相差不大”的关键字,用户的期望是大不一样的。如果简单的字符串匹配,结果可能会使用户大失所望。
关键字1:苹果好吃吗
分析: 疑问,想得到苹果是否好吃的回答。潜在的可能是,用户可能没吃过苹果,也不知道苹果有那些品种。如果搜索引擎返回来的结果中,把哪些品种苹果好吃的条目放在最前面。可能用户对其结果更为满意,换句话说,就是搜索质量高。

关键字2: 苹果好吃
分析:陈述,需要得到认可,确认。如果结果中把关于苹果好吃的正面信息放前面,可能用户会比较满意。

3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
这个是seo范畴,这个应该从理解搜索引擎的行为着手比较好。比如:
google很早就宣布了,是否采用了https的网站会作为一个影响排名的指标。
网站关键字设定,网页静态化(动态化数据,比如利用js动态获取的,spider可能采集不到)都会影响spider对网站的收录,从而影响排名。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京皓辰网域网络信息技术有限公司. 版权所有 京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP