忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 84419 | 回复: 9

【有奖讨论】实战分享篇:从技术角度谈机器学习入门(获奖名单公布!) [复制链接]

论坛徽章:
140
2015年亚洲杯之日本
日期:2015-04-28 13:32:012015年亚洲杯之朝鲜
日期:2015-05-06 10:16:442015年亚洲杯之日本
日期:2015-05-06 10:21:342015年亚洲杯纪念徽章
日期:2015-05-13 17:16:442015亚冠之北京国安
日期:2015-05-13 17:18:292015亚冠之鹿岛鹿角
日期:2015-05-13 17:19:062015亚冠之德黑兰石油
日期:2015-05-27 16:47:402015亚冠之塔什干棉农
日期:2015-05-28 15:24:122015亚冠之卡尔希纳萨夫
日期:2015-06-01 13:52:392015亚冠之柏斯波利斯
日期:2015-06-04 17:37:292015亚冠之阿尔纳斯尔
日期:2015-06-16 11:31:202015亚冠之塔什干火车头
日期:2015-06-23 10:12:33
发表于 2018-05-30 13:50 |显示全部楼层
本次活动获得《scikit-learn机器学习:常用算法原理及编程实战》奖励的用户是:
@renxiao2003
@shang2010
@aloki

@jieforest

@nail78

请以上5位用户,请于8月4日前以站内的形式联系管理员王楠w_n,如无法发站内请加QQ 2504593583


话题背景:
在学习机器学习之初,你可能会被被一大堆数学公式和推导过程所折磨,但实际上,在机器学习的从业人员里,究竟有多少人需要从头去实现一个算法?又有多少人有机会去发明一个新算法?所以,今天社区特开一个技术帖,我们就以下一些日常学习遭遇的问题,做一个概括和讨论。

讨论问题:

1.目前,机器学习的常用开源工具有哪些?
2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
3.您了解Scikit-Learn?结合应用场景,您认为其优质何在?


活动时间:2018年5月30日-6月25日


活动奖励:
活动结束后,会选取5位讨论精彩的同学,送《scikit-learn机器学习:常用算法原理及编程实战》一本。

作者: 黄永昌   
出版社:机械工业出版社
ISBN:9787111590248
上架时间:2018-2-7
出版日期:2018 年3月
开本:16开
版次:1-1
所属分类:计算机 > 人工智能 > 综合

购买链接:https://item.jd.com/12316506.html

内容简介:本书共分为11章,介绍了在Python环境下学习scikit-learn机器学习框架的相关知识,涵盖的主要内容有机器学习概述、Python机器学习软件包、机器学习理论基础、k-近邻算法、线性回归算法、逻辑回归算法、决策树、支持向量机、朴素贝叶斯算法、PCA算法和k-均值算法等。本书适合有一定编程基础的读者阅读,尤其适合想从事机器学习、人工智能、深度学习及机器人相关技术的程序员和爱好者阅读。另外,相关院校和培训机构也可以将本书作为教材使用。

样张试读:
scikit-learn机器学习:常用算法原理及编程实战文前-03.pdf (4.78 MB, 下载次数: 36)

论坛徽章:
53
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
发表于 2018-05-31 15:45 |显示全部楼层
本帖最后由 renxiao2003 于 2018-06-03 22:16 编辑

沙发先坐上。
1.目前,机器学习的常用开源工具有哪些?(以下内容来看成CSDN,确实总结的不错。)
研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、 Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。

  以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版matlab较贵,而且不太适合商业开发使用,所以工业界使用它的并不多(通信行业、研究所比较普遍);相应地,在工业界机器学习和数据挖掘的实验语言多为java、python,因为 python与C\C++具有先天的血缘,所以python更容易扩展;java的机器学习库也十分流行,主要体现在大数据下的jvm的本质和算法并行化的优势;现推荐给大家以下学习库:

1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)
http://mloss.org

2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了)
http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Software/

3 libsvm (支持向量机界最牛的,不用多说了,台湾大学的林教授的杰作)
http://www.csie.ntu.edu.tw/~cjlin/libsvm/

4 WEKA (基于java的机器学习算法最全面最易用的开源软件)
http://www.cs.waikato.ac.nz/ml/weka/

5 scikit (本人最喜欢的一个基于python的机器学习软件,代码写得非常好,而且官方的文档非常全,所有都有例子,算法也齐全,开发也活跃
,强烈推荐给大家用)
https://pypi.python.org/pypi/scikit-learn/

6 OpenCv(最牛的开源计算机视觉库了,前途无可限量,做图像处理与模式识别的一定要用,总不能整天抱着matlab做实验和工业界脱节吧,但是有一定难度)
http://opencv.willowgarage.com/wiki/

7 Orange (基于c++和python接口的机器学习软件,界面漂亮,调用方便,可以同时学习C++和python,还有可视化的功能,)
http://orange.biolab.si/

8 Mallet (基于JAVA实现的机器学习库,主要用于自然语言处理方面,特色是马尔可夫模型和随机域做得好,可和WEKA互补)
http://mallet.cs.umass.edu/

9 NLTK(PYTHON的自然处理开源库,非常易用,也强大,还有几本orelly的经典教程)
http://nltk.org/

10 lucene(基于java的包括nutch,solr,hadoop,mahout等全套,是做信息检索和搜索引擎的同志们必学的开源软件了,学JAVA的必学)
http://lucene.apache.org/

Additional:
1.pyml(a python module for machine learning,支持svm/knn/k-means==)
http://mlpy.sourceforge.net/

2.mahout(阿帕奇基金下项目,其主要是可以与hadoop进行天然结合,从而并行运行,在鲁棒性方面很好)
http://mahout.apache.org/

3.milk(python的机器学习工具包,主要是针对监督学习,包括svm/knn/决策树)
http://pypi.python.org/pypi/milk/

4.Octave(Andrew NG课上推荐使用的,类似matlab)
http://www.gnu.org/software/octave/
2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
我没有做这个,但我们部门确实有做机器学习的。使用的是tensorflow,我们的小队友天天研究这个。书也好几本。用的是Python语言。不过我是做纯软件开发的,不太了解这方面的知识。
3.您了解Scikit-Learn?结合应用场景,您认为其优质何在?(以下内容来自CSDN)

Scikit-Learn是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。

Scikit-Learn的安装可使用pip工具,在安装前需要安装NumPy和SciPy,打开一个命令行中端并输入:

$pip install -U scikit-learn

基本操作:

1.数据加载:

对于csv文件,pandas库提供的pandas.read_csv能够快速的加载并根据提供的参数可进行数据的处理,生成DataFrame:

import pandas as pd

df=pd.read_csv('data.csv')

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html(pandas api)


对于具有一定格式的文本文件或二进制文件,可使用NumPy进行数据加载:

import numpy as np

data_file='dataset.txt'

X=np.load_txt(data_file)


对于其他格式的文件,可以自由处理并加载到二维数组中,最终可生成DataFrame

2.数据处理:

在将数据加载到DataFrame中后可方便地对数据进行处理,也可以方便地进行特征选择与提取

import pandas as pd

df = pd.read_csv('data.csv')

df.columns = ['id','name','time']#设置数据的特征名

df.set_index('id')#设置索引

df['age'] = 0 #添加新的属性age,并全部赋值为0

for i,row in df.iterrows(): #逐行遍历dataframe

#body of for

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html(DataFrame Api)


3.一个分类的例子:

用决策树预测获胜球队(来自《Learning Data Mining With Python》)

采集数据:http://www.basketball-reference.com/leagues/NBA_2014_games.html提供了2013-2014的比赛胜负数据,不过已经无法一键导出csv了,需要一个月份一个月份地进行csv的复制

样例数据如下:


将所有数据保存到文本文件并另存为CSV文件以便后面的使用。

接下来就是加载我们的CSV文件:data.csv

import numpy as np

import pandas as pd

dataset = pd.read_csv('data.csv') #注意文件在自己电脑中的路径

print dataset.ix[:5] #查看前5行数据

数据处理:

read_csv函数有一定的数据处理能力,所以我们修改一下刚刚的代码

dataset = pd.read_csv('data.csv',parse_dates=["Date"],skiprows=[0,]) #将'Date'属性转换为了标准日期类型,省略了第一行

dataset.columns = ["Date","Score_Type","Visitor Team","VisitorPts","Home Team","HomePts","OT?","Notes"]


提取新的特征:

dataset['HomeWin'] = dataset["VisitorPts"] < dataset["HomePts"]

y_true = dataset['HomeWin'].values #提取出一列数据

                #创建字典存储球队上次比赛的结果

from collections import defaultdict

won_last = defaultdict(int)

for index,row in dataset.iterrows():

home_team = row["Home Team"]

visitor_team = row["Visitor Team"]

row["HomeLastWin"] = won_last[home_team]

row["VisitorLastWin"] = won_last[visitor_team]

dataset.ix[index] = row

win_last[home_team] = row["HomeWin"]

win_last[visitor_team] = not row["HomeWin"]

使用决策树:

from sklearn.trree import DecisionTreeClassifier

clf = DecisionTreeClassifier(random_state=14)

X_previouswins = dataset[["HomeLastWin","VisitorLastWin"]].values

scores = cross_val_score(clf,X_previouswins ,y_true,scoring='accuracy')

看了看似乎所有的机器学习库都是Python的。有空我要抓紧学习一下Python了。


论坛徽章:
53
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
发表于 2018-05-31 15:45 |显示全部楼层
沙发先坐上。

论坛徽章:
131
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2018-05-31 23:09 |显示全部楼层
本帖最后由 shang2010 于 2018-05-31 23:18 编辑

沙发先坐上。


小康小康,今天天气怎样,我想听音乐梦里水乡

论坛徽章:
131
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2018-05-31 23:48 |显示全部楼层
1.目前,机器学习的常用开源工具有哪些?
OpenAI
有人担心机器学习的军备竞赛会使世界上的顶尖大学失去AI人才,因为技术的巨大飞跃会打上某个公司的专有标签。所以,Elon Musk和他的朋友为OpenAI投资了超过10亿美元,而这是一个非盈利的AI研究计划。
OpenAI的使命是建立安全的人工智能(AGI),确保AGI优势尽可能广泛和均匀地分布。我们期望AI技术在短期内会有巨大的影响,且影响力将超过第一代AGI的影响力;
OpenAI拥有超过60名全职研究人员,发表了数篇有关AI和开源软件工具进展的论文。

TensorFlow
这是谷歌开源的机器学习库,它在整个机器学习领域目前地位还是排在首位。TensorFlow主要使用Python编写,其中也有一些Java和Go的实验API。
TensorFlow的入门课程有两个部分组成,一个是初学者部分,还有一个是ML专家部分。TensorFlow估计是本文推荐的开源工具中最易于访问的。而且它也是GitHub上最顶级的开源机器学习工具,拥有很多项目以及庞大的社区。

char-rnn
这个基于Torch/Lua的神经网络能够被推荐,完全是因为Janelle Shane的工作。来自the Frontier of Science的研究员McShane已经提出了一些令人惊奇的有趣的项目,且与字符级语言模型息息相关,例如recipes,、planets、Pokémon等等,其神经网络正在尝试最难学的部分。
Torch本身就是一个很好的学习框架,并不是完全因为FB支持这个框架才被广为称道。

PaddlePaddle
PaddlePaddle是一个新的深度学习平台,它是由百度、中国谷歌的研究人员研究开发的。百度拥有一个相当先进的AI实验室,由前斯坦福大学教授负责管理。PaddlePaddle几乎是谷歌开源深度学习优势的直接投射。
Paddle代表PArallel Distributed Deep LEarning,它被称为易于使用,高效,灵活和可扩展的深度学习平台。它的入门界面对于深度学习的初学者来说相当有利,它有一些问题集可以帮助开发者完成初始步骤。

CNTK
Microsoft的Cognitive Toolkit是一个深度学习的工具包,用于训练算法像人脑一样学习。其在GitHub页面指出,“微软正在积极使用并不断发展CNTK,同样的,这时的CNTK也不是完美的,也会有错误。”
这个工具毫无疑问地是使用神经网络来处理非结构化数据的大数据集。CNTK具有更快的训练时间和易于使用的架构,可高度自定义,让用户选择自己的参数,算法和网络。它用Python和C ++编写。


2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
关于人脸识别系统项目还涉及到很多方面,首先是摄像头(清晰度,运动物体捕捉),数据采集与存储(网络,数据库),后台识别匹配系统(拿到真实环境还是误差很大),通知日志系统等等。
后台识别系统,需要很多gpu资源。
关于具体用到什么学习框架,这个技术我不专业,不好回答。项目号称自主知识产权,就判断人脸这么简单的问题也是通过多个算法综合判断给分的。

3.您了解Scikit-Learn?结合应用场景,您认为其优质何在?
对Python语言有所了解的都知道SciPy——一个开源的计算工具包。基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits。而在这些分支版本中面向机器学习的就是Scikit-learn。
Scikit-learn实现了一整套用于数据降维,模型选择,特征提取和归一化的完整算法/模块,虽然缺少按步骤操作的参考教程,但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。





论坛徽章:
1
2017金鸡报晓
日期:2017-01-10 15:13:29
发表于 2018-06-02 16:43 |显示全部楼层
本帖最后由 aloki 于 2018-06-02 16:45 编辑

1.目前,机器学习的常用开源工具有哪些?
1)FastText:快速文本表示/分类库,来自 Facebook(GitHub 11,786 stars)

2)Deep-photo-styletransfer:康奈尔大学 Fujun Luan 论文《Deep Photo Style Transfer》的代码与数据(GitHub 9747 stars)

3)face recognition:最简单的 Python 命令行面部识别 API,来自 Adam Geitgey(GitHub 8672 stars)

4)Magenta:机器智能音乐与艺术生成器(GitHub 8113 stars)

5)Sonnet:基于 TensorFlow 的神经网络库(GitHub 5731 stars),来自 DeepMind 成员 Malcolm Reynolds

6)deeplearn.js:来自 Google Brain 团队 Nikhil Thorat 的网页端硬件加速机器学习库(GitHub 5462 stars)

7)Fast Style Transfer:TensorFlow 快速风格转换,来自 MIT 的 Logan Engstrom(GitHub 4843 stars)

8 )Pysc2:星际争霸 2 学习环境,来自 DeepMind Timo Ewalds 等人(GitHub 3683 stars)

9)AirSim:基于虚幻引擎的开源自动驾驶模拟器,由微软研究院 Shital Shah 等人提出(GitHub 3861 stars)

10)Facets:机器学习数据集可视化工具,来自 Google Brain(GitHub 3371 stars)

11)Style2Paints:AI 漫画线稿上色工具,来自苏州大学(GitHub 3310 stars)

12)Tensor2Tensor:用于广义序列-序列模型的工具库,来自 Google Brain 的 Ryan Sepassi(GitHub 3087 stars)

13 )CycleGAN and pix2pix in PyTorch:基于 PyTorch 的图像-图像转换工具,来自 UC Berkeley 在读博士朱俊彦(GitHub 2847 stars)

14)Faiss:用密集向量高效相似性搜索与聚类的工具库,来自 Facebook(GitHub 2629 stars)

15)Fashion-mnist:一个类似于 MNIST 的时尚产品数据集,来自 Zalando Tech 的 Han Xiao(GitHub 2780 stars)

16)ParlAI:用于在各种公开可用的对话数据集上训练与评估 AI 模型的框架,来自 Facebook 的 Alexander Miller(GitHub 2578 stars)

17)Fairseq:来自 FAIR 的序列到序列工具包(GitHub 2571 stars)

18 )Pyro:使用 Python 和 PyTorch 进行深度通用概率编程,来自 Uber AI Labs(GitHub 2387 stars)

19)iGAN:基于 GAN 的交互图像生成器(GitHub 2369 stars)

20)Deep-image-prior:使用神经网络进行图像恢复,同时无需学习过程,来自 Skoltech 的 Dmitry Ulyanov(GitHub 2188 stars)

21)Face classification:基于 Keras CNN 模型与 OpenCV 的实时面部检测和表情/性别分类,训练与 fer2013/imdb 数据集(GitHub 1967 stars)

22)Speech to Text WaveNet:使用 DeepMind 的 WaveNet 和 TensorFlow 构成的端到端句级英语语音识别,来自 Kakao Brain 的 Namju Kim(GitHub 1961 stars)

23)StarGAN:用于多领域图像-图像转换的统一生成对抗网络(GitHub 1954 stars)

24)MI-agents:Unity 机器学习智能体,来自 Unity3D 的 Arthur Juliani(GitHub 1658 stars)

25)Deep Video Analytics:分布式可视化搜索和可视化数据分析平台,来自康奈尔大学的 Akshay Bhat(GitHub 1494 stars)

26)OpenNMT:Torch 上的开源神经机器翻译(GitHub 1490 stars)

27)Pix2PixHD:使用条件 GAN 合成和处理 2048×1024 分辨率的图像,来自英伟达 AI 科学家 Ming-Yu Liu(GitHub 1283 stars)

28 )Horovod:分布式 TensorFlow 训练框架,来自 Uber 工程团队(GitHub 1188 stars)

29)AI-Blocks:强大而直观的 WYSIWYG 界面,可让任何人创建机器学习模型(GitHub 899 stars)

30)Voice Conversion with Non-Parallel Data:基于 TensorFlow 的深度神经网络语音转换(语音风格转换),来自 Kakao Brain 团队的 Dabi Ahn(GitHub 845 stars)

2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
我暂时没接触这方面的业务

3.您了解Scikit-Learn?结合应用场景,您认为其优势何在?
说实话,不是看到论坛的这个讨论,我还不知道Scikit-Learn。通过查资料了解到,Scikit-learn 项目最早为数据科学家 David Cournapeau 于 2007 年发起的 scikits.learn 项目,且 Scikit 的名字可视为 SciPy Toolkit,即 SciPy 的第三方扩展。Scikit-learn 大部分都是由 Python 构建,但还是有很多核心算法是由 Cython 完成而实现更好的效果,例如支持向量机就是由 Cython 构建。

Scikit-Learn优势在:
·Scikit-learn的定位是通用机器学习库,它提供强大的特征工程,如维度压缩、特征选择等。
·Scikit-learn更倾向于使用者可以自行对数据进行处理,比如选择特征、压缩维度、转换格式,是传统机器学习库。
·Scikit-learn中的模块都是高度抽象化的,所有的分类器基本都可以在3-5行内完成,所有的转换器也都有固定的格式。这种抽象化限制了使用者的自由度,但增加了模型的效率,降低了批量化、标准化的的难度。
·Scikit-learn主要适合中小型的、实用机器学习项目,尤其是那种数据量不大且需要使用者手动对数据进行处理,并选择合适模型的项目。这类项目往往在CPU上就可以完成,对硬件要求低。

论坛徽章:
3
IT运维版块每日发帖之星
日期:2015-08-04 06:20:00IT运维版块每日发帖之星
日期:2015-10-10 06:20:002015亚冠之阿尔艾因
日期:2015-11-08 10:27:01
发表于 2018-06-04 16:21 |显示全部楼层
1.目前,机器学习的常用开源工具有哪些?

   常用的开源框架很多,Scikit-Learn、spark上的mlib、hadoop上的mahout、微软的机器学习工具集CNTK以及TensorFlow、Theano、Torch、Keras、Caffe、MXnet等深度学习框架。

2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
  
   接触了一些这方面的业务。   象人脸识别系统,一般是基于深度学习的卷积神经网络(CNN),系统搭建过程中根据情况选择TensFlow、Caffe、Torch、Keras等深度学习框架即可。象过滤垃圾邮件,其实就是机器学习中的分类问题,决策树、随机森林等分类算法都可实现,选择支持这些分类算法的框架即可。

3.您了解Scikit-Learn?结合应用场景,您认为其优质何在?

  对Scikit-Learn有些简单了解,基于python语言构建的,操作比较简单。前些日子,遇到过一个信用卡风险识别的问题,其实就是一个分类问题,根据用户的基本信息和用卡信息,来判断风险高低,用Scikit-Learn中的分类算法很容易就实现。

论坛徽章:
30
CU大牛徽章
日期:2013-05-20 10:45:13数据库技术版块每日发帖之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:29
发表于 2018-06-04 16:49 |显示全部楼层
1.目前,机器学习的常用开源工具有哪些?
机器学习方面的开源工具有很多,常用的至少有如下几个:
1)TensorFlow
Google发布的内部深度学习框架(人工神经网络)。它可以通过将“神经网络”的典型数学运算叠加在“计算图”中来构建任何类型的神经网络(以及其他计算模型)
2)Keras
Keras是深度学习框架的高级接口,它可以轻松创建常见类型的神经元层,选择度量,错误函数和优化方法,并且训练模型快速容易。
3)scikit-learn
scikit-learn包含几乎所有可以想象的机器学习模型 - 从线性和逻辑回归器到SVM分类器和随机森林 - 它具有预处理方法(如降维,文本转换等)的巨大工具箱。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k-均值和DBSCAN,并设计为与Python数值库和科学库NumPy和SciPy互操作。
4)Edward
Edward基于TensorFlow构建,融合了三个领域:贝叶斯统计和机器学习,深度学习和概率编程。
5)Lime
Lime是一个易于使用的Python软件包,可以以更智能的方式解释你的模型学到了什么。它运行学习模型的第二个“元”逼近器,它近似模型对于不同输入的行为。输出是模型的解释者,确定任何输入的哪些部分帮助模型做出决定,哪些没有。
6)Caffe
CAFFE(用于快速特征嵌入的卷积体系结构)是一个深度学习框架,最初由加州大学伯克利分校开发。它开源,以BSD许可证发布。Caffe使用C++编写,并提供了一个Python接口。
7)H2Q Prediction Engine
H2O是用于大数据分析的开源软件。它由H2O.ai公司生产。H2O允许用户将数千个潜在模型作为发现数据模式的一部分。H2O软件运行可以从统计软件包R、Python和其他环境中调用。
8)CNTK
CNTK是微软的认知工具包,是一个统一的深度学习工具,描述神经网络通过有向图的一系列计算步骤,可以实现并结合流行的模型类型,如前馈DNN、卷积网络CNN、循环网络RNN/LSTM,实现了随机梯度下降SGD、跨GPU和服务器的自动差异和并行化的错误后向传播学习。
9)Apache MXNet
Apache MXNet是一个精干、灵活,和超级可扩展深度学习框架,包括卷积神经网络(细胞神经网络)和长短期记忆网络(LSTMs)。
10)Core ML
来自Apple公司的经过训练的机器学习模型集成到iOS或MacOS应用的框架。

2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
嗯,曾经使用TensorFlow做过图像识别,主要是识别图像中的文字。
掌握TensorFlow很有难度,但幸运的是,相关的资料比较多。

3.您了解Scikit-Learn?结合应用场景,您认为其优势何在?
Scikit-learn主要是用Python编写的,用Cython编写一些核心算法来实现性能。支持向量机器由LIBSVM周围的Cython包装器实现 ; 逻辑回归和线性支持向量机通过类似的LIBLINEAR包装。
Scikit-Learn的优点在于:
1)简单高效的数据挖掘和数据分析工具
2)可供所有人使用,并可在各种环境下重复使用
3)基于NumPy,SciPy和matplotlib
4)开源、可商业使用 - BSD许可证
5)功能足够强大,能满足大多数机器学习方面的需求

论坛徽章:
5
IT运维版块每日发帖之星
日期:2015-08-25 06:20:002017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:33:2115-16赛季CBA联赛之新疆
日期:2018-04-23 13:55:2315-16赛季CBA联赛之辽宁
日期:2018-07-23 08:59:12
发表于 2018-06-15 09:53 |显示全部楼层
1.目前,机器学习的常用开源工具有哪些?
其他不知道,, 我就知道tensflow,也正在学习使用中。
2.您是否接触到此方面的业务?(比如人脸识别系统,过滤垃圾邮件,记录用户特征等)如果接触类似的业务,在系统搭建过程中,是基于哪种学习框架?
暂时还没有,不过想研究让机器学习自动调优服务器配置,机器学习政策都是深度学习框架。
3.您了解Scikit-Learn?结合应用场景,您认为其优质何在?
Scikit-Learn了解了下,也是基于python的,感觉优势是在数据挖掘这一块

论坛徽章:
30
CU大牛徽章
日期:2013-05-20 10:45:13数据库技术版块每日发帖之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00每日论坛发贴之星
日期:2015-09-07 06:20:00数据库技术版块每日发帖之星
日期:2015-12-13 06:20:0015-16赛季CBA联赛之江苏
日期:2016-03-03 11:56:13IT运维版块每日发帖之星
日期:2016-03-06 06:20:00fulanqi
日期:2016-06-17 17:54:25IT运维版块每日发帖之星
日期:2016-07-23 06:20:0015-16赛季CBA联赛之佛山
日期:2016-08-11 18:06:41JAVA
日期:2016-10-25 16:09:072017金鸡报晓
日期:2017-01-10 15:13:29
发表于 2018-07-19 14:27 |显示全部楼层
书挺不错的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP