免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3081 | 回复: 0
打印 上一主题 下一主题

BIG DATA 大数据时代来临 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-09-27 09:57 |只看该作者 |倒序浏览
本帖最后由 turingbooks 于 2012-09-27 09:58 编辑

“大数据时代”已经来临,并对很多领域都产生了深远的影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。

数据聚类找出霍乱病因

一种重要的数据汇总形式是聚类,在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。

一个利用聚类来解决问题的著名实例发生在很久以前的伦敦,在整个问题的解决中并没有使用计算机 。内科医生John Snow在处理霍乱爆发时在城市地图上标出了病例的发生地点。图1-1给出了该图的一个小片段,展示了病例的传播情况。



图1-1 在伦敦市地图上标出的霍乱病例的传播情况示意图

图中显示,病例聚集在某些交叉路口。这些路口的水井已经被污染,离这些水井最近的居民染上了疾病,而清洁的水井附近的居民则没有染病。如果没对这些数据进行聚类,霍乱的病因就难以揭开。

——摘自《大数据:互联网大规模数据挖掘与分布式处理》



书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:

分布式文件系统以及Map-Reduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题:广告管理和推荐系统。


作者简介

Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/

Jeffrey David Ullman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人Sergey Brin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP