免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 20125 | 回复: 0
打印 上一主题 下一主题

[其他] 大数据崛起时代,命令行技术的价值在哪里? [复制链接]

论坛徽章:
0
1 [报告]
发表于 2015-07-12 02:57 |显示全部楼层
本帖最后由 lyx791009 于 2015-07-12 03:09 编辑

1、您是否喜欢用命令行?请谈谈你眼中命令行工具或者技术的魅力所在或者不足之处。
喜欢,命令行工具最大的好处是可以很轻松的集成各种途径获得的计算分析和绘图工具,唯一的不足是入门需要的时间稍长一点。

2、您接触过哪些命令行工具,解决什么类型的问题。
读取各种科学数据格式的工具,netcdf,hdf,hdf5等库自带的工具,nco包。
绘图工具,gnuplot,ncl
天气预报程序,wrf
气象指数程序包,cdo
地理信息系统的工具箱,arcgis,grass

3、有种观点认为数据科学可以分为如下五个部分: a)数据获取 b)数据清洗 c)数据探索 d)数据建模 e)数据解释。可否挑选上面的一个方面或者几个方面谈谈你的理解。
数据清洗我理解为对数据的质量控制,根据相应的规则去掉错误和异常的数据,越精密的数学模型对输入数据的要求就越高,就像好的发动机需要高标号的汽油一样。
数据解释是最关键的一步,仅仅根据数据找出相关性,但缺乏相关领域的理解和解释,是很危险的。经典例子,一个婴儿和一棵树苗,在发育期的时间交集区间内都会长高,如果看数据,相关性是非常好的,但是这两组数据是没有关系的,如果不能用合理的行业知识解释数据的结果,就很容易犯这种错误。

4、您认为对于解决3中各类问题,命令行过时了吗?命令行工具和技术是否仍然能够发挥自己的作用呢?
命令行在实施数据计算分析处理方面,是跨行业、跨学科的人进行有效协作,最简单直接的方式。数据分析处理光靠学计算机的专业程序员是不够的,更多的是依靠各个学科领域的专业人士编写的程序包。在很多情况下,R,matlab,Fortran是这些人仅会的语言,他们最后的成果汇集起来可能就是一个个命令行程序。基于管道和脚本语言粘合的系统是很常见的并且简单有效的方式。原型系统需要靠这种合作方式来产生,以后根据实际需要再来改写优化性能。

5、在处理html、xml、json,csv这里数据的时候,除了grep、sed、awk等通用的工具以为,是否还有其他使用起来更加简单易学的命令行技术或者工具大家分享一下。
我觉得替代shell工具集最好的选择是python,不过好像也谈不上简单易学。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP