【好书推荐】机器学习？AlphaGo劫掠人类千年围棋沉淀的法宝？

yejia80550708 发表于 2017-07-31 15:29

获奖公布：
获得技术图书《机器学习Web应用》：
nail78
sjf0115
heguangwu
c3po
东风玖哥
请以上5位获奖人员在9月30日前将姓名、电话、邮箱、公司、职务、快递地址站短给yejia80550708 ，以便尽快给大家发放礼品。

话题背景：
20年前，IBM研制的深蓝计算机勉强战胜俄罗斯棋王卡斯帕罗夫，它在体力上的优势似乎比智力方面更明显。但前不久，谷歌的AlphaGo打败了围棋高手柯洁，它擅长走快棋，招法狠毒，令人类高手胆颤。由此可见，近年来，人工智能技术随着硬件、大数据、机器学习技术的发展，取得了长足的进步。
机器学习技术作为人工智能的一个子领域，研究和应用热潮不减，机器学习将以相同的方式，改变执行数据运算的方式，减少人工干预的需要，将优化的工作交给机器和算法。数据处理人员将不再直接控制数据，而是通过控制算法间接控制数据，基本上来讲，需要重复执行相同运算的活动都可以受益于机器学习。
机器学习应用离开实验室，进入市场营销、销售和金融等行业，他既吸引人又充满挑战。无疑下一个十年的赢家，将会是那些能够理解非结构化数据，并且能够基于这些数据以可扩展的方式做出决策的公司或个人：除了机器学习，我还没有看到哪种方式能实现这样的伟业。SO, 今天我们就来谈谈机器学习这项伟业~

话题讨论：
1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？
活动时间：
2017年7月31日—8月25日

活动奖励：
本期活动，我们将特设1个最佳优胜奖，送SACC2017大会门票一张;
同时，我们将会选取5个精彩回复，各送技术图书《机器学习Web应用》一本；
作者：【意】Andrea Isoni（爱索尼克）译者：杜春晓责编：陈冀康出版社：人民邮电出版社ISBN：9787115458520出版时间：2017-07-01开本：16开版次：1分类：智能技术 > 机器智能 > 机器学习

购书入口：http://mp.weixin.qq.com/bizmall/ ... e=1#wechat_redirect

样章试读：http://www.epubit.com.cn/book/onlinechapter/55998

SACC 2017 来啦~2017中国系统架构师大会（SACC2017）将于10月19-21日在北京新云南皇冠假日酒店震撼来袭！
今年，大会以“云智未来”为主题，云集国内外顶级专家，围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场，18个技术专场；邀请来自互联网、金融、制造业、电商等多个领域，100余位技术专家及行业领袖来分享他们的经验；并将吸引4000+人次的系统运维、架构师及IT决策人士参会，为他们提供最具价值的交流平台。

官网链接：http://sacc.it168.com/index.html#top
购票链接：http://sacc.it168.com/goupiao.html

欢迎扫码关注SACC官方微信，获取最新信息！

-------------------------------------------------------------------------------

欢迎大家发帖讨论，分享是美德，也希望CU这个平台带给大家进步和成长，有任何问题，请站短联系！
技术讨论，请加QQ群：203848540
ChinaUnix公众微信：
http://bbs.chinaunix.net/data/attachment/forum/201506/17/144815ssikvifehhvvw6uk.jpg

nail78 发表于 2017-08-03 14:11

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?

   这种情况属于无监督学习的范畴，有大量正常的访问数据，web入侵样本少，且变化多样，对模型进行学习和训练困难。一般是根据大量正常的数据建立模型，对模型进行学习和训练，与正常数据不符的数据被识别为异常，这样来判断是否web入侵。无监督学习常用的算法是聚类算法，比如K均值算法等。

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？

   虽然机器学习和人脑的工作原理不一样，但是很多方面是可以逼近人脑的能力的，象计算就不用说了，早已超过了人脑，其他的的象图像识别、语音识别、判断、预测、决策能力，都是有可能逼近，甚至有些能力会超过人脑的。

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？

   比较常见有SGD，基于贝叶斯的等等。

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？

   个人觉得python 这个语言非常适合作为机器学习的语言，语言简洁，包也比较多。

sjf0115 发表于 2017-08-04 23:33

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?

机器学习方法能够基于大量数据进行自动化学习和训练，对于web入侵检测而言，其中最大的困难就是标签数据的缺乏。虽然有大量的正常访问流量数据，但web入侵样本稀少，且变化多样，对模型的学习和训练造成困难。因此，目前大多数web入侵检测都是基于无监督的方法，针对大量正常日志建立模型，而与正常流量不符的则被识别为异常。这个思路与拦截规则的构造恰恰相反。拦截规则意在识别入侵行为，因而需要在对抗中“随机应变”；而基于profile的方法旨在建模正常流量，在对抗中“以不变应万变”，且更难被绕过。
　　　－－－　阿里聚安全

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？

就现在机器学习的发展状况而言，机器的能力还不能很好的模拟人脑的高级行为，比如人的推理判断，语言理解等等，在这些领域，人工智能还只处于初级阶段．而大规模数据统计方面，计算机是要远远超过人类的。

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？

FTRL，这是目前业界应用比较广泛的在线LR算法
Adaptive Online Gradient Descent，在线自适应梯度下降
...

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？

毫不疑问选择Python:
(1) 代码简洁，容易上手，开发速度快
(2) 生态成熟，有很多常用库
(3) 可视化工具
(4) 机器学习算法包

action08 发表于 2017-08-05 22:05

机器学习是否存在平行域的穷举盲区，这个没有研究过，

Fl_wolf 发表于 2017-08-07 18:34

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?对的！标签数据缺乏，我现在的安全机器人也是缺乏非常多的标签，我现在想到的办法就是，自己写一个web，用一个域名，然后里面存在一堆的漏洞，做成蜜罐。让那些HAK把他们有的代码，操作内容，尽可能的在机器上收集，如果他们把机器当成肉鸡，带宽只有2M，也用不了多少。2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？人脑。。其实都是一些有规律的机械运作。。可以，。就算排错也是可以的。。只要方法那些用神经网络那些写好算法。。就OK了3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？这个还没有太了解过。。4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？MATLAB用的不太多，都是以前大学时候数学建模时候用的，现在都在用python了！！人生苦短，我用python！

fenyun689 发表于 2017-08-07 21:11

本帖最后由 fenyun689 于 2017-08-09 13:49 编辑

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?
通过和安全公司合作，和网站合作，获取数据。
用人工智能模拟攻击。

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？
可以接近。识别类的更容易接近，创造类的不容易。语音识别，图像识别这类容易接近。

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？
不知道。

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？
刚开始了解，正在学习Python。

heguangwu 发表于 2017-08-08 13:01

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?
这个是否可以用异常检测，正常访问的特征符合某个某个分布（如高斯分布），那么异常判断就比较好做了（在模型的两侧），这样极大的缩小了范围，再在这个范围内再采取其它方式应该比较容易得到答案

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？
基本上可以认为能无限逼近，且个人认为主要是总结计算类的比较容易逼近，如识别手写字或图片中的某个物品、导航路径规划、语音识别

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？
没接触过

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？
必须说Python，越来越强大，另外就是spark，已经涵盖了很多ML的库并有人在上面实现了大量的如深度学习的包

东风玖哥 发表于 2017-08-12 17:16

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?
这个问题可以用逆向思维解决，既然难以获得web入侵代码的标签特征，就把不符合正常代码的标签特征都视为可疑即可。

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？
（1）图像识别
（2）自然语言识别
（3）股票预测
（4）舆情分析

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？
（1）贝叶斯算法
（2）梯度优化算法
（3）概率模型
（4）神经网络
（5）深度学习

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？
我不用C++ 和 MATLAB做机器学习，如果问Python有哪些代码段或包我倒是可以回答

c3po 发表于 2017-08-14 10:14

本帖最后由 c3po 于 2017-08-14 10:28 编辑

1、机器学习应用于web入侵检测方面存在不小的挑战，其中最大的困难就是标签数据的缺乏，有什么方法、模型或者是思路可以解决这一问题?
这个问题无论用白名单法还是黑名单法，都需要人类输入大量有效的识别模式，对破坏性入侵比较好识别，潜入型的尤其是身份冒用就比较难，不知道人类行为分析那方面能不能提供一些帮助。

2、通过机器学习以及大规模数据的统计，电脑可以无限逼近人脑的能力么？如果可以，哪些能力是比较容易被逼近的？
封闭环境，模式有限场景机器有优势，下棋，图像/人脸识别，金融/股市指标分析是机器大数据分析的强项，执行效率血肉之躯万万比不上。自然语言分析和舆情分析，其效率就看专家对识别模式的精炼程度。

3、在机器学习中有哪些典型的Online算法？或者说，在机器学习中的常用模型中，哪些支持Online算法？
还没研究^_^

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？
python

我认为，目前机器学习不过是从老师怎么教小学生用拼音进化到怎么教老师去教小学生用拼音而已。
机器学习遇到的挑战实际上就是我们程序猿攻城狮们的挑战。
对人类专家的责任和技能要求更高，教小学生拼音直接获得反馈，教老师去教小学生用拼音，还是得从小学生那获取反馈来认真校验，不然有请终结者大大来清场！

dorodaloo 发表于 2017-08-18 10:08

4、长期用 C++ 和 MATLAB 做机器学习的你，有没有遇到一个让你相见恨晚的语言或包？

实际上就是megapro
通过机megapro电脑可以无限逼近人脑的能力

页: [1]

Chinaunix's Archiver

【好书推荐】机器学习？AlphaGo劫掠人类千年围棋沉淀的法宝？