免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 20044 | 回复: 33
打印 上一主题 下一主题

[其他] 大数据崛起时代,命令行技术的价值在哪里? [复制链接]

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-09 14:32 |只看该作者 |倒序浏览
获奖名单已公布:http://bbs.chinaunix.net/thread-4186620-1-1.html

话题背景

“大数据”技术风靡IT互联网,可谓炙手可热。很多人相信“大数据”浪潮正在或者将要深刻变革我们的时代,同时伴随着这股潮流涌现了很多新的技术,Hadoop、Spark、Hive等等就是其中的杰出代表。与这些时髦的技术相比,命令行好像应该被放进博物馆被人参观的古董。命令行的历史可以追溯到几十年前,而大数据的崛起才短短几年,命令行技术在数据科学这样新的应用领域是否还发挥作用,彰显其独有的魅力呢?




讨论话题
本期话题让我们畅想一下命令行技术在数据科学中的应用(可任选下面的一个或者几个问题谈谈自己的观点和看法)。
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
2、您接触过哪些命令行工具,解决什么类型的问题。
3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。




讨论时间
2015年07月10日--2015年08月03日



活动奖励
活动结束后将选取4名讨论精彩的童鞋,每人赠送图书《命令行中的数据科学》一本作为奖励



奖品简介

作者: (荷)Jeroen Janssens   
译者: 王晓伟 刘峰
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
出版日期:2015 年6月
开本:16开
版次:1-1



内容简介

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。




样章试读
第一章:简介.docx (25.38 KB, 下载次数: 87)

第一章:简介.docx

25.38 KB, 下载次数: 43

论坛徽章:
13
CU大牛徽章
日期:2013-04-17 11:20:3615-16赛季CBA联赛之吉林
日期:2017-05-25 16:45:4715-16赛季CBA联赛之福建
日期:2017-03-13 11:33:442017金鸡报晓
日期:2017-02-08 10:39:422017金鸡报晓
日期:2017-01-10 15:13:29IT运维版块每日发帖之星
日期:2016-03-15 06:20:01IT运维版块每日发帖之星
日期:2015-10-02 06:20:00CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-09-18 15:15:45CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-04-17 11:46:39CU大牛徽章
日期:2013-04-17 11:46:28
2 [报告]
发表于 2015-07-12 14:38 |只看该作者
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
命令行工具以简单高效的处理完成其提供的操作。在很多工作中发挥着巨大的作用。许多强大的工具还可以组合在一起,产生出乎想象的能力
命令行工具或者技术其实是基于这样的理论构建的,即当个命令专心的干好一件事,而且尽可能的支持管道以使得多个命令行可以组合在一起,产生巨大作用。由此可能你会觉得单个命令行可能不如一些程序有那么多复合的功能,而是很简单的,但正是这些简单让它们有了自由组合起来的魔力。
所以 我喜欢命令行,因为大多数时候这是解决问题的唯一办法(可以通过多个命令组合完成一个任务,而对应可能解决问题的图形程序还没有人开发——因为很多任务是个性化强的,不是十分必要,则不需要专门开发程序)

以上就是命令行的魅力之所在。当然其不足还是很特出,就是对大多数人来说,太复杂了,形式各异的参数、冗长的命令输入等等,这造成学习成本相对较高。

2、您接触过哪些命令行工具,解决什么类型的问题。
个人用的比较多的是bash环境,以及其上的各类命令行工具,主要有直接bash内置命令行结合系统命令进行系统管理
此外还有就是利用媒体编码工具,如果ffmpeg或者mplayer中的mencoder等进行编码视音频文件等等。

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
其实任何数据处理都是涉及这样一些方面的。笼统的说
a)数据获取————就是解决数据的来源,可以是文件输入,也可以来自命令行,可以是非实时的,也可以是实时的,总之数据科学离不开数据,要有数据就必须有数据的获取;

b)数据清洗————来源的数据不一定是符合预期的,或者说混杂的,必须有这样的一个步骤来保证送入下一阶段处理的数据在一定程度上符合要求(类型的、格式的、数量的......),否则对下一阶段的处理来说数据没有意义,只是干扰;

c)数据探索————对数据进行分析,通过遍历数据来了解它们;

d)数据建模————数据本身不是处理的目的,或者说大多数时候并不是处理的核心目的。数据处理的核心目的是对客观事物进行描述,建立起客观事物的数据(特征)反映来表达客观事物的运动、变化,这就是数据建模。好的模型能更大程度上反映出事物的变化,从而让人们更了解客观事物,进而能够更好的控制(影响)客观事物,或者及早的根据客观事物变化(不可控)进行反映(例如天气预报的作用);

e)数据解释————数据解释其实包括多种层次,从方向来说主要有两种,其一是根据数据反映客观事物的变化(结合数据建模),其二根据分析,让数据变化从而影响客观事物的运行。拿前段时间很热的汽车自动驾驶来说,自动驾驶汽车根据各类传感器了解外界环境是第一种数据解释(因为传感器给运算核心的都是各类数据,它要根据这些数据和预设——生成的处理算法计算得出进一步操作相关的各类数据——如减速、加速或转弯等等),而由产生的数据控制自动驾驶汽车完成动作则是第二类数据解释。

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
在解决3中各类问题中,命令行肯定没有过时,命令行工具和技术也发挥着自己的作用,只是可能调用/处理流程上会发生变化,比如以往更多的是直接在环境中输入各类命令来完成工作,现在可能很多命令行命令(组/集)因为需要重复使用,而为了减低工作强度,会通过配置、预处理等等手段来减少正式命令行输入,但本质还是命令行工具,也就是还里不会

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。

个人在这方面用涉及比较少,不过应该还是有一些专门有针对性的工具来方便其中数据的提取或者生成。比如php或者python的命令行模式也可以提供一些处理。

论坛徽章:
10
数据库技术版块每日发帖之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2016-03-10 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-09 06:20:00IT运维版块每日发帖之星
日期:2015-11-02 06:20:00IT运维版块每日发帖之星
日期:2015-07-13 22:59:28IT运维版块每日发帖之星
日期:2015-06-23 22:20:00程序设计版块每日发帖之星
日期:2015-06-21 22:20:00每日论坛发贴之星
日期:2015-06-14 22:20:00IT运维版块每日发帖之星
日期:2016-08-02 06:20:00
3 [报告]
发表于 2015-07-15 14:06 |只看该作者
本帖最后由 hiyachen 于 2015-07-15 14:07 编辑

讨论话题
本期话题让我们畅想一下命令行技术在数据科学中的应用(可任选下面的一个或者几个问题谈谈自己的观点和看法)。
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
-- 喜欢的。从最初的dos命令行,truboC的命令行编译及执行,到unix和linux时代命令行的普遍应用。他是一个系统工程师的普遍技能。
但命令行是结构化编程变成的产物,在面向对象编程的今天,追求对象的引用、类的实例化、RPC的时候。命令行就其不能应对复杂的
调用关系和形象的编程。尤其对于UE用户体验要求较高的场合,命令行基本用不上。所以命令行与图形界面基本是这样分布的:
    命令行坚守的领域:
    服务器端的对硬件资源(cpu、内存、网络、存储)的控制(内存配额、进程监控等)、服务的启动停止(service的操作)、单一的操作(上传、grep文字查找、计划任务)、
底层的安装与配置,运维人员、系统拓扑人员、集成工程师。
   以下场合对于命令行是没有需求的:
   软件的复杂应用、前端工程师、软件设计师。甚至数据库管理员(较低的要求,简单的shell语法)等。APP程序员,敏捷开发的面向终端用户的
程序员。

2、您接触过哪些命令行工具,解决什么类型的问题。
  编辑配置文档我是从vi,vim起步的,emacs,sed,markdown(用在git中)。
  shell脚本,存储过程的编写。
  资源(cpu、内存、网络、存储)监控时也用各种命令行工具。
  安装和配置应用环境。如云平台的安装、tomcat、tomcat等webserver的安装配置、
数据库的安装配,数据库的计划任务、备份、同步、数据分析等。

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
-- 数据获取:
  定义:数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据量测是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据获取含义很广,包抱对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据获取,此时被采集的是几何量(或包括物理量,如灰度)数据。
  数据的获取关键在于:
1:采用的“装置”、腾讯的QQ是她们的一个装置。装置决定了数据的普遍程度。
2:数据源:多样性的数据源。按年龄段、按操作行为(手机端、PC端等)、其他入口方式。
3:数据周期: 即采样周期。
  只有数据获取的各个方面做好,才会产生有效的、可分析的、结果真实的数据集合。
利于后面的数据清洗、数据探索、数据建模、数据解释的工作。

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
-- 前面已经说过,命令行在特定的场景和特定人员会大量存在。不会过时。
命令行工具和技术永远在发挥着它的更接近于底层,一个个对资源(cpu、内存、网络、存储)的有效利用。
对文本的简单编辑和迅速执行。不需要太多的外部环境(运行环境相对简单)。

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
-- 除了grep、sed、awk等通用的工具。下载工具gwet,sftp,smaba,rsync和画面交互的curl等。
   以及众多的restAPI应用工具。

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
4 [报告]
发表于 2015-07-17 23:19 |只看该作者

本期话题让我们畅想一下命令行技术在数据科学中的应用(可任选下面的一个或者几个问题谈谈自己的观点和看法)。
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
非常喜欢用命令行,linux环境下的各种工具,离不开命令行。我的学习之路,有80%的代码都是在命令行学习和运行的。很喜欢这种“沟通”方式,以至于在学习python/R的时候,很不习惯IDE模式了,觉得不够直接。
优点,比如用awk/sed/grep等处理文本,命令行里操作无疑是高效的。经常是一段代码从头写到尾,不换行,一气呵成,感觉只有这种方式不会把在脑子里形成的伪代码思路隔断。
另外,命令行的管道用法也是极好的。
不足之处,我觉得是命令行毕竟是依赖于终端,history的记录数有限,对于新手或不熟悉linux环境的童鞋们,一旦终端关闭,再想找回之前的代码记录并不是一件容易的事。当然,高手们不会为此感到烦恼。

2、您接触过哪些命令行工具,解决什么类型的问题。

到目前为止,用过awk/sed/perl/grep等,主要解决是文本问题,比如格式转换,文本统计,简单的数学计算,信息筛选等等。

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。这个

数据获取,这是从事数据科学的源头,如同做饭要用食材一样,当然数据的获取,最好是能本人参与,这样才能更好的理解数据所要反应的事实。
数据清洗,应该算是淘米和洗菜的步骤吧,非常重要,经过筛选处理,去伪存真,得到高可信度,高保真的数据,才能给后面的进一步分析提供准确的信息。
数据探索,不明觉厉。
数据建模,高大上的求知过程,利用数学/物理等知识,对数据归类,模拟,挖掘本质,算是机器学习的范畴。最近,机器学习的火焰算是真的烧起来了,google的大牛们把各种神经网络算法的研究,将对人工智能开发,信息预测,精准医药等领域带来新的变革。对此只有膜拜了!

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?

一直用命令行处理文本问题,而对于数据科学在命令行的操作,没有实际经验,无从评述。不过,总感觉,数据科学这种高大上的研究,命令行会不会略显单薄。

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
有个xml_grep的perl模块推荐一下。
另外,perl在命令行的表现也是非常赞的,尤其是它的强大的正则。

@zsszss0000C大神,非常想得到这本书



评分

参与人数 1信誉积分 +5 收起 理由
zsszss0000 + 5 很给力!

查看全部评分

论坛徽章:
32
CU大牛徽章
日期:2013-05-20 10:45:13每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:21
5 [报告]
发表于 2015-07-28 10:15 |只看该作者
1、您是否喜欢用命令行?
使用命令行是很有趣的,记住各种命令,学会脚本的编写,用命令行是非常高效的。
即使是使用Windows Server,我们也可以使用PowerShell,继续享受命令行的乐趣。
对于初学者来说,命令行需要学习并记住很多命令及用法,显得颇有难度。

2、您接触过哪些命令行工具,解决什么类型的问题。
Linux Shell,Python的Shell、Ruby的Shell等。
Linux Shell我用于解决服务器维护、搭建生产环境、部署业务、测试等等。
Python Shell、Ruby Shell通常用于开发及调试代码。

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
命令行不会过时的,它是Linux爱好者(程序员、运维工程师……)的至爱。
命令行的高效性是图形界面工具所没有的。

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
1)可以考虑Perl语言
Perl借取了C、sed、awk、shell scripting以及很多其他程序语言的特性。其中最重要的特性是它内部集成了正则表达式的功能,以及巨大的第三方代码库CPAN。简而言之,Perl像C一样强大,像awk、sed等脚本描述语言一样方便,被称之为“一种拥有各种语言功能的梦幻脚本语言”、“Unix 中的王牌工具”。
2)可以考虑Lua语言
Lua是一个小巧的脚本语言。Lua由标准C编写而成,几乎在所有操作系统和平台上都可以编译,运行。一个完整的Lua解释器不过200k,在目前所有脚本引擎中,Lua的速度是最快的。
3)一些命令行工具包
csvstat:Prints descriptive statistics for all columns in a CSV file. Will intelligently determine the type of each column and then print analysis relevant to that type (ranges for dates, mean and median for integers, etc.)
http://csvkit.readthedocs.org/en/latest/scripts/csvstat.html
……

评分

参与人数 1信誉积分 +5 收起 理由
zsszss0000 + 5 很给力!

查看全部评分

论坛徽章:
0
6 [报告]
发表于 2015-07-10 15:49 |只看该作者
现有的各种大数据平台安装部署开发过程几乎都是用的命令行啊!这有什么好讨论的?

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
7 [报告]
发表于 2015-07-10 15:52 |只看该作者
那么对于数据本身的处理呢?回复 2# snhanwei


   

论坛徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辞旧岁徽章
日期:2015-03-03 16:54:152015年亚洲杯之乌兹别克斯坦
日期:2015-03-27 14:01:172015年亚洲杯之约旦
日期:2015-03-31 15:06:442015亚冠之首尔
日期:2015-06-16 23:24:37IT运维版块每日发帖之星
日期:2015-07-01 22:20:002015亚冠之德黑兰石油
日期:2015-07-08 09:32:07IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-08-29 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:00IT运维版块每日发帖之星
日期:2015-10-11 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
8 [报告]
发表于 2015-07-10 17:02 |只看该作者
CLI模式不可能不用

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
9 [报告]
发表于 2015-07-10 17:04 |只看该作者
支持一下版版的活动。

论坛徽章:
10
CU大牛徽章
日期:2013-05-20 10:44:54数据库技术版块每日发帖之星
日期:2015-06-09 22:20:00IT运维版块每日发帖之星
日期:2015-06-05 22:20:00亥猪
日期:2014-08-23 14:52:27摩羯座
日期:2013-11-29 18:02:31CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-05-20 10:45:31CU大牛徽章
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:13综合交流区版块每日发帖之星
日期:2016-02-12 06:20:00
10 [报告]
发表于 2015-07-10 18:37 |只看该作者
回复 1# zsszss0000
好书,好活动力顶一下~
命令行给系统管理员及开发人员带来的灵活性和快感不是图形界面所能够替代的了得~我相信无论技术怎样发展命令行这种方式会历久弥新,永远会散发出勃勃生机~这就是我的态度

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
11 [报告]
发表于 2015-07-12 01:41 |只看该作者
讨论话题
本期话题让我们畅想一下命令行技术在数据科学中的应用(可任选下面的一个或者几个问题谈谈自己的观点和看法)。
1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
-- 喜欢命令行啊,不用鼠标操作减少鼠标手的烦恼呀 命令行的魅力在于灵活、容易实现自动化批量化、系统要求低、不同平台的同样命令行工具下的操作相同。不足就是不够直观,上手比GUI慢一些。

2、您接触过哪些命令行工具,解决什么类型的问题。
-- bash shell 写脚本
-- mysql、mysqldump 数据库操作
-- grep awk sed 文件处理三剑客,当然还有 sort cut uniq 等等太多了……

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
-- 个人理解的话,感觉这个就像做菜,a 先要有原材料,有菜;b 洗菜,过滤无用数据;c 探索菜谱,能做啥菜;d 建模->实际做菜;e 解释->吃菜,吸收营养

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
-- 要说命令行工具的话,和数据打交道多的就是 mysql 了,对于数据库的数据来说可以用 mysql 或 mysqldump 获取数据,可以在 mysql 里做数据过滤,也可以用 awk sed grep 等过滤,剩下的好像就是比较专业的部门搞的了,用啥 R 语言什么的不大懂,反正能分析出一些数据背后揭示的意义来,很了不起。好像也有用命令行的 R matlab gnuplot 等做分析的,这方面太专业,会用工具也还得有专业知识才能会,所以都没去深究

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
-- 除了 csv 用通用工具还能比较方便的处理外,其它的格式还真是很吃力,忘记了论坛里有人推荐专门的工具是什么了,用不上,都没记下来

论坛徽章:
0
12 [报告]
发表于 2015-07-12 02:57 |只看该作者
本帖最后由 lyx791009 于 2015-07-12 03:09 编辑

1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
喜欢,命令行工具最大的好处是可以很轻松的集成各种途径获得的计算分析和绘图工具,唯一的不足是入门需要的时间稍长一点。

2、您接触过哪些命令行工具,解决什么类型的问题。
读取各种科学数据格式的工具,netcdf,hdf,hdf5等库自带的工具,nco包。
绘图工具,gnuplot,ncl
天气预报程序,wrf
气象指数程序包,cdo
地理信息系统的工具箱,arcgis,grass

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
数据清洗我理解为对数据的质量控制,根据相应的规则去掉错误和异常的数据,越精密的数学模型对输入数据的要求就越高,就像好的发动机需要高标号的汽油一样。
数据解释是最关键的一步,仅仅根据数据找出相关性,但缺乏相关领域的理解和解释,是很危险的。经典例子,一个婴儿和一棵树苗,在发育期的时间交集区间内都会长高,如果看数据,相关性是非常好的,但是这两组数据是没有关系的,如果不能用合理的行业知识解释数据的结果,就很容易犯这种错误。

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
命令行在实施数据计算分析处理方面,是跨行业、跨学科的人进行有效协作,最简单直接的方式。数据分析处理光靠学计算机的专业程序员是不够的,更多的是依靠各个学科领域的专业人士编写的程序包。在很多情况下,R,matlab,Fortran是这些人仅会的语言,他们最后的成果汇集起来可能就是一个个命令行程序。基于管道和脚本语言粘合的系统是很常见的并且简单有效的方式。原型系统需要靠这种合作方式来产生,以后根据实际需要再来改写优化性能。

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
我觉得替代shell工具集最好的选择是python,不过好像也谈不上简单易学。

论坛徽章:
154
2022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:5720周年集字徽章-年
日期:2022-10-26 16:44:2015-16赛季CBA联赛之深圳
日期:2022-11-02 14:02:4515-16赛季CBA联赛之八一
日期:2022-11-28 12:07:4820周年集字徽章-20	
日期:2023-07-19 08:49:4515-16赛季CBA联赛之八一
日期:2023-11-04 19:23:5115-16赛季CBA联赛之广夏
日期:2023-12-13 18:09:34
13 [报告]
发表于 2015-07-12 08:34 来自手机 |只看该作者
支持一下活动,不过现在基本不用命令行了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP