论坛徽章:: 146

电梯直达

1楼 [收藏(0)] [报告]

发表于 2018-05-30 13:50 |只看该作者 |倒序浏览

本次活动获得《scikit-learn机器学习：常用算法原理及编程实战》奖励的用户是：
@renxiao2003
@shang2010
@aloki

@jieforest

@nail78

请以上5位用户，请于8月4日前以站内的形式联系管理员王楠w_n，如无法发站内请加QQ 2504593583

话题背景：
在学习机器学习之初，你可能会被被一大堆数学公式和推导过程所折磨，但实际上，在机器学习的从业人员里，究竟有多少人需要从头去实现一个算法？又有多少人有机会去发明一个新算法？所以，今天社区特开一个技术帖，我们就以下一些日常学习遭遇的问题，做一个概括和讨论。

讨论问题：
1.目前，机器学习的常用开源工具有哪些？
2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？
3.您了解Scikit-Learn？结合应用场景，您认为其优质何在？

活动时间：2018年5月30日-6月25日

活动奖励：
活动结束后，会选取5位讨论精彩的同学，送《scikit-learn机器学习：常用算法原理及编程实战》一本。

作者：黄永昌
出版社：机械工业出版社
ISBN：9787111590248
上架时间：2018-2-7
出版日期：2018 年3月
开本：16开
版次：1-1
所属分类：计算机 > 人工智能 > 综合

购买链接：https://item.jd.com/12316506.html

内容简介：本书共分为11章，介绍了在Python环境下学习scikit-learn机器学习框架的相关知识，涵盖的主要内容有机器学习概述、Python机器学习软件包、机器学习理论基础、k-近邻算法、线性回归算法、逻辑回归算法、决策树、支持向量机、朴素贝叶斯算法、PCA算法和k-均值算法等。本书适合有一定编程基础的读者阅读，尤其适合想从事机器学习、人工智能、深度学习及机器人相关技术的程序员和爱好者阅读。另外，相关院校和培训机构也可以将本书作为教材使用。

样张试读：

scikit-learn机器学习：常用算法原理及编程实战文前-03.pdf (4.78 MB, 下载次数: 84)

renxiao2003

巨富豪门

论坛徽章:: 59

2楼 [报告]

发表于 2018-05-31 15:45 |只看该作者

本帖最后由 renxiao2003 于 2018-06-03 22:16 编辑

沙发先坐上。
1.目前，机器学习的常用开源工具有哪些？（以下内容来看成CSDN，确实总结的不错。）
研究数据挖掘和机器学习有一段时间了，对数据挖掘来说，商用软件有SAS、 Clementine、Oracle数据挖掘组件等等；由于个人学习和版权、算法定制等问题，开源的数据挖掘与机器学习软件(库)目前也十分必需，现在就跟大家介绍下比较流行和常用的机器学习开源库。

　　以前在学校用过matlab，说实话真方便，通常一个模型只要几十行甚至十几行代码就能搞定，但是正版matlab较贵，而且不太适合商业开发使用，所以工业界使用它的并不多(通信行业、研究所比较普遍)；相应地，在工业界机器学习和数据挖掘的实验语言多为java、python,因为 python与C\C++具有先天的血缘，所以python更容易扩展；java的机器学习库也十分流行，主要体现在大数据下的jvm的本质和算法并行化的优势；现推荐给大家以下学习库：

1.机器学习开源软件网（收录了各种机器学习的各种编程语言学术与商业的开源软件）
http://mloss.org

2 偶尔找到的机器学习资源网：（也非常全，1和2基本收录了所有ML的经典开源软件了）
http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Software/

3 libsvm （支持向量机界最牛的，不用多说了，台湾大学的林教授的杰作）
http://www.csie.ntu.edu.tw/~cjlin/libsvm/

4 WEKA （基于java的机器学习算法最全面最易用的开源软件）
http://www.cs.waikato.ac.nz/ml/weka/

5 scikit (本人最喜欢的一个基于python的机器学习软件，代码写得非常好，而且官方的文档非常全，所有都有例子，算法也齐全，开发也活跃
，强烈推荐给大家用）
https://pypi.python.org/pypi/scikit-learn/

6 OpenCv(最牛的开源计算机视觉库了，前途无可限量，做图像处理与模式识别的一定要用，总不能整天抱着matlab做实验和工业界脱节吧，但是有一定难度)
http://opencv.willowgarage.com/wiki/

7 Orange (基于c++和python接口的机器学习软件，界面漂亮，调用方便,可以同时学习C＋＋和python，还有可视化的功能，）
http://orange.biolab.si/

8 Mallet (基于JAVA实现的机器学习库，主要用于自然语言处理方面，特色是马尔可夫模型和随机域做得好，可和WEKA互补）
http://mallet.cs.umass.edu/

9 NLTK(PYTHON的自然处理开源库，非常易用，也强大，还有几本orelly的经典教程）
http://nltk.org/

10 lucene(基于java的包括nutch,solr,hadoop,mahout等全套，是做信息检索和搜索引擎的同志们必学的开源软件了，学JAVA的必学）
http://lucene.apache.org/

Additional：
1.pyml(a python module for machine learning，支持svm/knn/k-means==)
http://mlpy.sourceforge.net/

2.mahout(阿帕奇基金下项目，其主要是可以与hadoop进行天然结合，从而并行运行，在鲁棒性方面很好)
http://mahout.apache.org/

3.milk(python的机器学习工具包，主要是针对监督学习，包括svm/knn/决策树)
http://pypi.python.org/pypi/milk/

4.Octave(Andrew NG课上推荐使用的，类似matlab)
http://www.gnu.org/software/octave/
2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？
我没有做这个，但我们部门确实有做机器学习的。使用的是tensorflow，我们的小队友天天研究这个。书也好几本。用的是Python语言。不过我是做纯软件开发的，不太了解这方面的知识。
3.您了解Scikit-Learn？结合应用场景，您认为其优质何在？（以下内容来自CSDN）

Scikit-Learn是用Python开发的机器学习库，其中包含大量机器学习算法、数据集，是数据挖掘方便的工具。

Scikit-Learn的安装可使用pip工具，在安装前需要安装NumPy和SciPy，打开一个命令行中端并输入：

$pip install -U scikit-learn

基本操作：

1.数据加载：

对于csv文件，pandas库提供的pandas.read_csv能够快速的加载并根据提供的参数可进行数据的处理，生成DataFrame:

import pandas as pd

df=pd.read_csv('data.csv')

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html（pandas api）

对于具有一定格式的文本文件或二进制文件，可使用NumPy进行数据加载：

import numpy as np

data_file='dataset.txt'

X=np.load_txt(data_file)

对于其他格式的文件，可以自由处理并加载到二维数组中，最终可生成DataFrame

2.数据处理：

在将数据加载到DataFrame中后可方便地对数据进行处理，也可以方便地进行特征选择与提取

import pandas as pd

df = pd.read_csv('data.csv')

df.columns = ['id','name','time']#设置数据的特征名

df.set_index('id')#设置索引

df['age'] = 0 #添加新的属性age，并全部赋值为0

for i,row in df.iterrows(): #逐行遍历dataframe

#body of for

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html（DataFrame Api）

3.一个分类的例子：

用决策树预测获胜球队（来自《Learning Data Mining With Python》）

采集数据：http://www.basketball-reference.com/leagues/NBA_2014_games.html提供了2013-2014的比赛胜负数据，不过已经无法一键导出csv了，需要一个月份一个月份地进行csv的复制

样例数据如下：

将所有数据保存到文本文件并另存为CSV文件以便后面的使用。

接下来就是加载我们的CSV文件：data.csv

import numpy as np

import pandas as pd

dataset = pd.read_csv('data.csv') #注意文件在自己电脑中的路径

print dataset.ix[:5] #查看前5行数据

数据处理：

read_csv函数有一定的数据处理能力，所以我们修改一下刚刚的代码

dataset = pd.read_csv('data.csv',parse_dates=["Date"],skiprows=[0,]) #将'Date'属性转换为了标准日期类型，省略了第一行

dataset.columns = ["Date","Score_Type","Visitor Team","VisitorPts","Home Team","HomePts","OT?","Notes"]

提取新的特征：

dataset['HomeWin'] = dataset["VisitorPts"] < dataset["HomePts"]

y_true = dataset['HomeWin'].values #提取出一列数据

#创建字典存储球队上次比赛的结果

from collections import defaultdict

won_last = defaultdict(int)

for index,row in dataset.iterrows()：

home_team = row["Home Team"]

visitor_team = row["Visitor Team"]

row["HomeLastWin"] = won_last[home_team]

row["VisitorLastWin"] = won_last[visitor_team]

dataset.ix[index] = row

win_last[home_team] = row["HomeWin"]

win_last[visitor_team] = not row["HomeWin"]

使用决策树：

from sklearn.trree import DecisionTreeClassifier

clf = DecisionTreeClassifier(random_state=14)

X_previouswins = dataset[["HomeLastWin","VisitorLastWin"]].values

scores = cross_val_score(clf,X_previouswins ,y_true,scoring='accuracy')

看了看似乎所有的机器学习库都是Python的。有空我要抓紧学习一下Python了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

renxiao2003

巨富豪门

论坛徽章:: 59

3楼 [报告]

发表于 2018-05-31 15:45 |只看该作者

沙发先坐上。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shang2010

腰缠万贯

论坛徽章:: 154

4楼 [报告]

发表于 2018-05-31 23:09 |只看该作者

本帖最后由 shang2010 于 2018-05-31 23:18 编辑

沙发先坐上。

小康小康，今天天气怎样，我想听音乐梦里水乡

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shang2010

腰缠万贯

论坛徽章:: 154

5楼 [报告]

发表于 2018-05-31 23:48 |只看该作者

1.目前，机器学习的常用开源工具有哪些？
OpenAI
有人担心机器学习的军备竞赛会使世界上的顶尖大学失去AI人才，因为技术的巨大飞跃会打上某个公司的专有标签。所以，Elon Musk和他的朋友为OpenAI投资了超过10亿美元，而这是一个非盈利的AI研究计划。
OpenAI的使命是建立安全的人工智能（AGI），确保AGI优势尽可能广泛和均匀地分布。我们期望AI技术在短期内会有巨大的影响，且影响力将超过第一代AGI的影响力；
OpenAI拥有超过60名全职研究人员，发表了数篇有关AI和开源软件工具进展的论文。

TensorFlow
这是谷歌开源的机器学习库，它在整个机器学习领域目前地位还是排在首位。TensorFlow主要使用Python编写，其中也有一些Java和Go的实验API。
TensorFlow的入门课程有两个部分组成，一个是初学者部分，还有一个是ML专家部分。TensorFlow估计是本文推荐的开源工具中最易于访问的。而且它也是GitHub上最顶级的开源机器学习工具，拥有很多项目以及庞大的社区。

char-rnn
这个基于Torch/Lua的神经网络能够被推荐，完全是因为Janelle Shane的工作。来自the Frontier of Science的研究员McShane已经提出了一些令人惊奇的有趣的项目，且与字符级语言模型息息相关，例如recipes,、planets、Pokémon等等，其神经网络正在尝试最难学的部分。
Torch本身就是一个很好的学习框架，并不是完全因为FB支持这个框架才被广为称道。

PaddlePaddle
PaddlePaddle是一个新的深度学习平台，它是由百度、中国谷歌的研究人员研究开发的。百度拥有一个相当先进的AI实验室，由前斯坦福大学教授负责管理。PaddlePaddle几乎是谷歌开源深度学习优势的直接投射。
Paddle代表PArallel Distributed Deep LEarning，它被称为易于使用，高效，灵活和可扩展的深度学习平台。它的入门界面对于深度学习的初学者来说相当有利，它有一些问题集可以帮助开发者完成初始步骤。

CNTK
Microsoft的Cognitive Toolkit是一个深度学习的工具包，用于训练算法像人脑一样学习。其在GitHub页面指出，“微软正在积极使用并不断发展CNTK，同样的，这时的CNTK也不是完美的，也会有错误。”
这个工具毫无疑问地是使用神经网络来处理非结构化数据的大数据集。CNTK具有更快的训练时间和易于使用的架构，可高度自定义，让用户选择自己的参数，算法和网络。它用Python和C ++编写。

2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？
关于人脸识别系统项目还涉及到很多方面，首先是摄像头（清晰度，运动物体捕捉），数据采集与存储（网络，数据库），后台识别匹配系统（拿到真实环境还是误差很大），通知日志系统等等。
后台识别系统，需要很多gpu资源。
关于具体用到什么学习框架，这个技术我不专业，不好回答。项目号称自主知识产权，就判断人脸这么简单的问题也是通过多个算法综合判断给分的。

3.您了解Scikit-Learn？结合应用场景，您认为其优质何在？
对Python语言有所了解的都知道SciPy——一个开源的计算工具包。基于SciPy，目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本，它们被统一称为Scikits。而在这些分支版本中面向机器学习的就是Scikit-learn。
Scikit-learn实现了一整套用于数据降维，模型选择，特征提取和归一化的完整算法/模块，虽然缺少按步骤操作的参考教程，但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nail78

白手起家

论坛徽章:: 4

6楼 [报告]

发表于 2018-06-04 16:21 |只看该作者

1.目前，机器学习的常用开源工具有哪些？

常用的开源框架很多，Scikit-Learn、spark上的mlib、hadoop上的mahout、微软的机器学习工具集CNTK以及TensorFlow、Theano、Torch、Keras、Caffe、MXnet等深度学习框架。

2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？

接触了一些这方面的业务。象人脸识别系统，一般是基于深度学习的卷积神经网络(CNN),系统搭建过程中根据情况选择TensFlow、Caffe、Torch、Keras等深度学习框架即可。象过滤垃圾邮件，其实就是机器学习中的分类问题，决策树、随机森林等分类算法都可实现，选择支持这些分类算法的框架即可。

3.您了解Scikit-Learn？结合应用场景，您认为其优质何在？

对Scikit-Learn有些简单了解，基于python语言构建的，操作比较简单。前些日子，遇到过一个信用卡风险识别的问题，其实就是一个分类问题，根据用户的基本信息和用卡信息，来判断风险高低，用Scikit-Learn中的分类算法很容易就实现。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jieforest

家境小康

论坛徽章:: 32

7楼 [报告]

发表于 2018-06-04 16:49 |只看该作者

1.目前，机器学习的常用开源工具有哪些？
机器学习方面的开源工具有很多，常用的至少有如下几个：
1）TensorFlow
Google发布的内部深度学习框架（人工神经网络）。它可以通过将“神经网络”的典型数学运算叠加在“计算图”中来构建任何类型的神经网络（以及其他计算模型）
2）Keras
Keras是深度学习框架的高级接口，它可以轻松创建常见类型的神经元层，选择度量，错误函数和优化方法，并且训练模型快速容易。
3）scikit-learn
scikit-learn包含几乎所有可以想象的机器学习模型 - 从线性和逻辑回归器到SVM分类器和随机森林 - 它具有预处理方法（如降维，文本转换等）的巨大工具箱。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度提升，k-均值和DBSCAN，并设计为与Python数值库和科学库NumPy和SciPy互操作。
4）Edward
Edward基于TensorFlow构建，融合了三个领域：贝叶斯统计和机器学习，深度学习和概率编程。
5）Lime
Lime是一个易于使用的Python软件包，可以以更智能的方式解释你的模型学到了什么。它运行学习模型的第二个“元”逼近器，它近似模型对于不同输入的行为。输出是模型的解释者，确定任何输入的哪些部分帮助模型做出决定，哪些没有。
6）Caffe
CAFFE（用于快速特征嵌入的卷积体系结构）是一个深度学习框架，最初由加州大学伯克利分校开发。它开源，以BSD许可证发布。Caffe使用C++编写，并提供了一个Python接口。
7）H2Q Prediction Engine
H2O是用于大数据分析的开源软件。它由H2O.ai公司生产。H2O允许用户将数千个潜在模型作为发现数据模式的一部分。H2O软件运行可以从统计软件包R、Python和其他环境中调用。
8）CNTK
CNTK是微软的认知工具包，是一个统一的深度学习工具，描述神经网络通过有向图的一系列计算步骤，可以实现并结合流行的模型类型，如前馈DNN、卷积网络CNN、循环网络RNN/LSTM，实现了随机梯度下降SGD、跨GPU和服务器的自动差异和并行化的错误后向传播学习。
9）Apache MXNet
Apache MXNet是一个精干、灵活，和超级可扩展深度学习框架，包括卷积神经网络（细胞神经网络）和长短期记忆网络（LSTMs）。
10）Core ML
来自Apple公司的经过训练的机器学习模型集成到iOS或MacOS应用的框架。

2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？
嗯，曾经使用TensorFlow做过图像识别，主要是识别图像中的文字。
掌握TensorFlow很有难度，但幸运的是，相关的资料比较多。

3.您了解Scikit-Learn？结合应用场景，您认为其优势何在？
Scikit-learn主要是用Python编写的，用Cython编写一些核心算法来实现性能。支持向量机器由LIBSVM周围的Cython包装器实现 ; 逻辑回归和线性支持向量机通过类似的LIBLINEAR包装。
Scikit-Learn的优点在于：
1）简单高效的数据挖掘和数据分析工具
2）可供所有人使用，并可在各种环境下重复使用
3）基于NumPy，SciPy和matplotlib
4）开源、可商业使用 - BSD许可证
5）功能足够强大，能满足大多数机器学习方面的需求

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Fl_wolf

巨富豪门

论坛徽章:: 5

8楼 [报告]

发表于 2018-06-15 09:53 |只看该作者

1.目前，机器学习的常用开源工具有哪些？
其他不知道，，我就知道tensflow，也正在学习使用中。
2.您是否接触到此方面的业务？（比如人脸识别系统，过滤垃圾邮件，记录用户特征等）如果接触类似的业务，在系统搭建过程中，是基于哪种学习框架？
暂时还没有，不过想研究让机器学习自动调优服务器配置，机器学习政策都是深度学习框架。
3.您了解Scikit-Learn？结合应用场景，您认为其优质何在？
Scikit-Learn了解了下，也是基于python的，感觉优势是在数据挖掘这一块