忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 视频 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 16597 | 回复: 8

【大话IT】揭秘你眼中的“搜索技术”,靠什么取胜? [复制链接]

论坛徽章:
134
2015年亚洲杯之日本
日期:2015-04-28 13:32:012015年亚洲杯之朝鲜
日期:2015-05-06 10:16:442015年亚洲杯之日本
日期:2015-05-06 10:21:342015年亚洲杯纪念徽章
日期:2015-05-13 17:16:442015亚冠之北京国安
日期:2015-05-13 17:18:292015亚冠之鹿岛鹿角
日期:2015-05-13 17:19:062015亚冠之德黑兰石油
日期:2015-05-27 16:47:402015亚冠之塔什干棉农
日期:2015-05-28 15:24:122015亚冠之卡尔希纳萨夫
日期:2015-06-01 13:52:392015亚冠之柏斯波利斯
日期:2015-06-04 17:37:292015亚冠之阿尔纳斯尔
日期:2015-06-16 11:31:202015亚冠之塔什干火车头
日期:2015-06-23 10:12:33
发表于 2017-03-27 09:51 |显示全部楼层
话题背景:

谈到搜索技术,经常有人会问道:
百度和 Google 的搜索技术是一个量级吗?


为什么那么多人诟病百度技术破绽,欣赏谷歌的靠谱有效。这其中不乏些许偏见,但事实往往胜于雄辩,希望今天这个话题,能够让大家对“搜索技术”有更清醒的认识和了解。
提到搜索技术,我想大家肯定最关注以下几个问题:

(以下是我截取几个知乎热点问题)

【大话IT】揭秘你眼中的“搜索技术”,靠什么取胜?193.png

今天我们要讨论的问题,与以上几个热点问题大同小异,但更偏向于搜索本身。



讨论问题:

1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。


讨论时间:2017年3月27日—4月27日


活动奖励:
活动结束后,我们将会选取1个精彩回复,送DTCC2017大会入场券一张。

选取3个回复,送社区春季版运动帽衫



DTCC 2017 来啦!

随着云计算和大数据时代的来临,数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。

在此背景下,国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)将于2017年5月11-13日如约而至。本届大会以“数据驱动•价值发现”为主题,汇集来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。大会共设定2大主场和20个技术专场,将吸引5000多名IT人士参会,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。




官网链接:http://dtcc.it168.com/
购票链接:http://dtcc.it168.com/goupiao.html

欢迎扫码关注DTCC官方微信,获取最新信息!




e388d727-936c-4208-b34c-687b60632696.jpg

论坛徽章:
51
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
发表于 2017-03-27 15:41 |显示全部楼层
记得刚毕业时做的第一个项目就是搜索引擎相关的(WAP搜索引擎),当时就是爬虫什么的名词一大堆没搞明白。后来就撤退了。

论坛徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16赛季CBA联赛之佛山
日期:2016-07-09 17:34:45操作系统版块每周发帖之星
日期:2015-12-02 15:01:04IT运维版块每日发帖之星
日期:2015-12-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-07 06:20:00IT运维版块每日发帖之星
日期:2015-10-03 06:20:00IT运维版块每日发帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辞旧岁徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
发表于 2017-03-29 08:48 |显示全部楼层
路过支持...................
占座更新

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-03-29 13:01 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
   从某个角度来说,保证万台服务器内容强一致是完全没有必要的,难道这个用户搜索某个关键词和另外以该用户搜索相同关键词结果有细微偏差会导致很大的问题吗?明显不会,从某种长度来说弱一致基本足够,另外,结果我猜也是用分布式存储来保存的,比如HBase等NoSQL,本身也是具备很高的扩展性,所以存储和查询速度问题不是特别大

2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
   仅从搜索结果来对比,主要是看结果是否符合用户的期望,比如你搜索一个问题看答案,结果答案并不是你想要的,或者结果没有超过你的预期,从下的baidu和google的搜索来看,乍一看好像差不多,但点进第一个链接进去看一下,你就会发现google排名第一的写的更详细也更全面,另外他们都猜出用户可能是想搜索自定义分区,这个结果都列出来了,说明差别其实很小,细节而已
    baidu.png google.png

3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
   从技术角度来说,可以研究google和百度的排名算法,从算法的角度入手,别的方式是扩大宣传,如微博传播,微信传播,点击的人多了,自然链接你这个网站的就多了,排名就上去了

评分

参与人数 1可用积分 +18 收起 理由
王楠w_n + 18 赞一个!

查看全部评分

论坛徽章:
129
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2017-04-07 15:15 |显示全部楼层
微信传播

鹅肠搞闭环生态,怎么被搜索哦/。。???

论坛徽章:
0
发表于 2017-04-10 16:12 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
保证存储和查询速度:
(1)使用性能更佳的硬件
(2)优化数据库
(3)使用存储过程
(4)灵活应用程序结构和算法
保证内容一致性:
(1)只统计行数,即只验证不同服务器上的表的行数是否相同而不验证内容是否匹配,如果行数不一致,则内容一定不一致
(2)若(1)中行数一致,则使用二进制校验和算法验证内容是否一致

2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
很明显能,比如用Google搜索“科学”的结果是古往今来的科学家,用百度搜索“科学”的结果却是国内的官员就“科学发展观”开会

3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
内部优化
(1)建立网站地图
(2)降低网页点击深度
(3)每天保持站内内容的更新(以资讯和文章等文字类为主)
(4)404页面指向打拐或关爱留守儿童
外部优化
(1)尽量保持链接的多样性
(2)每天添加一定数量的外部链接,使关键词排名稳定提升。
(3)与一些和你网站相关性比较高,整体质量比较好的网站交换友情链接,巩固稳定关键词排名。

求职 : Linux运维
论坛徽章:
200
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2017-04-13 18:00 |显示全部楼层
分布式搜索

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
发表于 2017-04-14 16:15 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
搜索引擎来说,抓取到的数据越来越多,数据保存和查询的速度的确是一个问题,但是如果做分布式可以很好的减轻这样的压力。
比如广州地区一个分布式存储点,它和北京地区的数据内容不一定是完全一致的,因为广州和北京的用户属性不可能完全一样,大数据分析而言,精准的数据投放才是最优的;
查询速度的话,那肯定是要优化索引了,而且要建立缓存,这样才能保证较好的速度。
2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。
感觉没有啥先进性可言,都是用钱买上去的。
3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
有些搜索引擎都是花钱可以往前排名的;
如果是按照搜索量来排名,可以直接进行刷量操作。就可以了 - -

论坛徽章:
39
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-04-26 21:34 |显示全部楼层
1.从技术层面来讲:搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,如何保证存储和查询速度,保证数万台服务器内容一致性?
技术上来书就那么几招,如果记录越来越多只能先做垂直分区对数据进行分割,然后再进行水平分隔。另外数据一致性大部分情况下不是那么重要,只要保证最终一致性就可以了。
毕竟根据CAP原理,在分布式系统中无法同时满足 一致性、可用性、分区容错性,只能满足两点。而且搜索引擎一部分数据的延后也是可以接受的。
一些非结构化的数据可以使用noSQL而不是关系型数据库进行存储。


2.仅从搜索结果质量的角度对比,是否能够判断一个搜索技术的先进性?(举例说明)如果无法判断,还需要考虑哪些方面。

这个应该是重点,从技术上角度上一些结果也许是对的,但是从用户角度,找到了确实自己想要的数据才是最重要的。举个栗子太容易了,比如百度:
你搜索很多国外软件,软件官网绝对能排出首页,即使这个关键词没有竞价,问题在哪里呢?


3.从产品角度入手,如何提高贵网站流量、排名?主要有哪些技术手段完成。
这个是SEO们的技术,包括在高PR的站点上挂友链接,通过关键词优化,甚至往站点打流量等手段。
所谓的合法的手段一般就是加标签,让内容更容易被spider抓取,保证关键词密度等等,主要是长时间维护。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

久等啦!10张门票开启你的DTCC2017之旅

2017中国数据库技术大会将于2017年5月11-13日如约而至,本届大会以“数据驱动•价值发现”为主题,共设定2大主场和21个技术专场,云集海内外120+位技术大牛,共同探讨Oracle、MySQL、NoSQL、云端数据库、区块链、深度学习等领域的前瞻性热点话题。
即日起,填写DTCC2017会前调查问卷,即有机会赢取价值2600元的大会门票1张!仅限10张!
----------------------------------------
活动截止时间:2017年5月5日统一公布

问卷入口>>
  

北京皓辰网域网络信息技术有限公司. 版权所有 京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP