获奖名单已公布:http://bbs.chinaunix.net/thread-4186620-1-1.html
话题背景
“大数据”技术风靡IT互联网,可谓炙手可热。很多人相信“大数据”浪潮正在或者将要深刻变革我们的时代,同时伴随着这股潮流涌现了很多新的技术,Hadoop、Spark、Hive等等就是其中的杰出代表。与这些时髦的技术相比,命令行好像应该被放进博物馆被人参观的古董。命令行的历史可以追溯到几十年前,而大数据的崛起才短短几年,命令行技术在数据科学这样新的应用领域是否还发挥作用,彰显其独有的魅力呢?
讨论话题
本期话题让我们畅想一下命令行技术在数据科学中的应用(可任选下面的一个或者几个问题谈谈自己的观点和看法)。
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
2、您接触过哪些命令行工具,解决什么类型的问题。
3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
讨论时间
2015年07月10日--2015年08月03日
活动奖励
活动结束后将选取4名讨论精彩的童鞋,每人赠送图书《命令行中的数据科学》一本作为奖励
奖品简介
作者: (荷)Jeroen Janssens
译者: 王晓伟 刘峰
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
出版日期:2015 年6月
开本:16开
版次:1-1
内容简介
本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。
样章试读
第一章:简介.docx
(25.38 KB, 下载次数: 87)
|