开篇词 | 打通修炼机器学习的任督二脉

你好，我是王天一，我在“机器学习40讲”欢迎你的到来！

在上一季的专栏中，我与你一起走马观花地浏览了学习人工智能所需要的基础数学、当前流行的深度学习、以及其他可能实现智能的技术路径。广义的人工智能概念可以说包罗万象，其中每一个细分的子领域发展到今天都值得大书特书。40篇文章的篇幅绘出的人工智能轮廓就像是一幅低分辨率的全景画，覆盖广度的同时必然难以兼顾深度。

正因如此，新一季的专栏内容将聚焦于人工智能大问题里的一个小目标——机器学习。在新进展层出不穷的今日，机器学习依然占据着人工智能的核心地位，迅猛的发展势头也让现在的机器学习领域充斥着各种听起来狂拽酷炫的新玩意儿。但阳光之下再无新事，再炫目的技术归根结底都是基本模型与方法在具体领域问题上的组合，而理解这些基本模型与方法才是掌握机器学习，也是掌握任何一门学问的要义所在。

既然机器学习领域的文献论著已经汗牛充栋，这个专栏和它们的区别又在哪里呢？在我看来，是融会贯通的系统性。不少关于机器学习的文献虽然深入阐释了不同模型的原理，但对它们之间的关联却缺少清晰的解释，从而使内容的组织流于模型展览，仿佛一串没能串成项链的珍珠宝石。实际上，所有模型就像龙生九子一样，都是从基本模型出发，根据不同改进方法衍生出来。所以，这个专栏最重要的任务就是帮助你把握不同模型之间的内在关联，让你形成观察机器学习的宏观视角，找准进一步理解与创新的方向。

在内容上，“机器学习”分为3个模块。

第一个模块是机器学习概观，介绍机器学习中超脱于具体模型和方法之上的一些共性问题，将从概率的两大派别开始。众所周知，概率在机器学习中扮演着核心角色，而频率学派与贝叶斯学派对概率迥异的认知也将机器学习一分为二，发展出两套完全不同的理论体系。正所谓兼听则明偏听则暗，理解机器学习时应该看到这同一枚硬币的两面，以获得完整的认知。除此之外，本模块还涵盖了计算学习等机器学习的理论问题，以及关于模型和特征的一些实验主题。

第二个模块将讨论频率学派发展出的机器学习理论——统计学习。统计机器学习的核心是数据，它既从数据中来，利用不同的模型去拟合数据背后的规律；也到数据中去，用拟合出的规律去推断和预测未知的结果。统计学习中最基础的模型是线性回归，几乎所有其他模型都是从不同角度对线性回归模型做出的扩展与修正。因此，在这个模块中，我将以线性模型为主线，和你一起浏览它的万千变化，观察从简单线性回归到复杂深度网络的发展历程。

第三个模块将讨论贝叶斯学派发展出的机器学习理论——符号学习，也就是概率图模型。和基于数据的统计学习相比，基于关系的图模型更多地代表了因果推理的发展方向。贝叶斯主义也需要计算待学习对象的概率分布，但它利用的不是海量的具体数据，而是变量之间的相关关系、每个变量的先验分布和大量复杂的积分技巧。在这个模块中，我将围绕概率图模型中的表示、推断、学习三大问题展开介绍，认识贝叶斯面纱下的机器学习。

除了理论之外，在介绍模型时我还会穿插一些基于Python语言的简单实例以加强理解。这些实例会应用诸如Scikit-Learn和PyMC等比较成熟的第三方库，通过调用现成的类来实现不同模型的功能。Python语言的一大优势就是功能丰富又强大的第三方库，将它们束之高阁未免暴殄天物。在快速实现的基础上再进一步深入钻研核心代码，也是比较合理的学习路径。

理解机器学习绝不是简单地了解几个时髦概念，而是要将前沿和基础融会贯通，从中发现贯穿学科发展的脉络。这个专栏不是乾坤大挪移这种水平的内功心法，但如果能打通你修炼机器学习的任督二脉，它的价值就实现了。

我已做好准备，在接下来的三个多月里，和你分享我所理解的机器学习。也请你告诉我，你为什么要学习机器学习？你希望通过这个专栏得到哪些收获呢？

与君共勉！

精选留言

风的轨迹

2018-06-06 08:35:57

高尚的说法:为了人类的进步
得体的说法:为了事业与爱情
庸俗的说法:为了屌丝逆袭

作者回复

已经答仨答案啦👍

2018-06-07 20:51:54
林彦

2018-06-04 21:04:58

作为数据分析师，这个职业在未来大多数的国内企业里都必须和数据模型打交道，现在的数据模型和机器学习的关系越来越紧密，背后的概率论，统计学，贝叶斯推断是相通的。既为了自己的成长，也为了团队的进阶，挤一点时间多了解一些概念和实践，期望能与人沟通时小白水平的认知少一些，更高效一些。

作者回复

其实除了机器学习，还应该了解下数据挖掘

2018-06-07 20:51:26
梁CSer

2018-06-04 18:24:57

支持一下😁，王老师的人工智能基础讲的不错，多看几遍哈😄

作者回复

承蒙夸奖😄

2018-06-07 20:57:01
冬瓜

2018-06-09 18:42:59

老师在上面的留言说，除了机器学习，还要了解数据挖掘。但是在我们日常的生活中，我们通常不会区别这两个概念。也就是说，我们一会说自己是做数据挖掘的，一会说自己是做机器学习的。老师能说说这两者的区别吗？

作者回复

我觉得数据挖掘的目的是解释，说明已知数据的规律；机器学习的目的是预测，把已知数据的规律推广到未知。而且机器学习更侧重“学习”，要在训练过程中改善自身的性能，数据挖掘通常没有这种要求。

2018-06-10 10:02:55
柳不才

2018-06-06 07:13:31

机器学习是深度学习的基础，没有机器学习领域的发展就没有今天深度学习的繁盛。在小数据，弱算力以及工业实现领域上，机器学习的优先级大于深度学习。学机器学习是为以后从事相关领域工作或研究打下基础。

作者回复

说的有道理

2018-06-07 20:52:46
梁鑫辉

2018-06-07 13:03:00

最近单位在推AIOps(智能运维）的项目，主要
关注机器学习在磁盘故障预测、性能容量预测方面的应用。想借此机会熟悉相关理论与实践，搭上人工智能的快车。感谢老师的课程，希望有所收获。

作者回复

第一次了解到这类应用，机器学习果然用途广泛啊

2018-06-07 20:55:57
意无尽

2018-11-16 09:23:19

老师我是最近才报名的，课程更新已经结束了，希望老师后面看到后能够解答学生的疑惑。

学生目前学习了一些基本的 Python 知识，感觉直接入手机器学习还是有难度的，当然最终目的还是想搞一些机器学习相关的东西。所以想请问老师，在掌握基础的 Python 知识与入门或者进阶的机器学习之间的鸿沟，中间我还需要掌握些什么？有什么可以推荐的学习路线吗？？

有些是推荐掌握 Python 知识后，可以从爬虫开始，到数据分析，再到数据挖掘，最后到机器学习，您觉得如何？

作者回复

我认为机器学习和Python是目的和手段的关系。机器学习是一套比较完善且成熟的理论，Python则是将这套理论实现在计算机上的工具。所以在两者之间要弥合的是从实践到理论，从感性到理性的沟壑。我的建议是有了编程基础之后，看一看数据分析，从数据分析的实例出发，通过实际的应用逐步过渡到数学原理的理解。极客上的相关专栏和一些以实例为主的书籍都可以作为参考。

2018-12-20 20:33:07
李跃爱学习

2018-12-15 16:20:17

公司希望能引入一些前沿的技术到我们的业务场景中，成立了大数据部门。大数据部门换了几个leader了，现在让我来负责，做自己做了7年研发，对公司的系统架构很熟悉，但是对机器学习等技能不了解。希望尽快补足这块的认知，搭建团队，识人用人。

作者回复

希望专栏能助您一臂之力！

2018-12-20 21:08:15
小时候挺菜

2018-11-13 12:43:23

嵌入式开发入职四个月，不甘心读研所学无用武之地，重新规划，继续机器学习，感谢老师，让我对整体脉络的理解更加深入。
paradox

2018-06-08 17:48:58

为了就业
大三下学期来了开始自学
看了老师您这门课所涉及的内容的图片
发现自己85%名字都已有所了解
但是问题就是自己总感觉有些模型很像，有些模型有联系，有些思想方法可以推广延伸，（比如从最大熵模型，涉及到熵，想到决策树，本身又是对数模型，想到逻辑回归与CRF，模型的参数估计过程的极大似然估计以及本身的P(Y|X)的形式又让我联想到贝叶斯的概率模型，其对偶求解过程又是SVM推导时候的主要方法）抱歉，这里叙述很乱，从模型分类联系到求解方法，夹杂自己的混乱想法
总得来说，思想缺乏联系，无法在大脑形成网络
看网课，统计学习方法，西瓜书，机器学习实战，自己也调包观察（不过太渣）
每次每个模块感觉自己清楚了，但是完成下一模块后，上次的又有些模糊了，就是理解的不够深入。

每次阅读您的上一门课，总会有所启发，尤其是开篇的那些数学课

希望老师这门课能展现出整体的思想框架，加上实战指导指导对于实际问题如何下手
知识书上可以学到，思想还需老师言传，自己思考

作者回复

线性模型是最基本的模型，决策树、逻辑回归、SVM这些都是不同方向的延伸和扩展。介绍完所有模型之后，我会专门把轮廓梳理出来。

2018-06-10 09:40:52
imuyang

2018-06-06 16:06:57

我参加这个专栏的目的就是：为以后工作中可能遇到的机器学习相关问题，做知识储备

作者回复

未雨绸缪是好习惯

2018-06-07 20:52:13
牛杰

2020-12-12 17:44:51

原因：为民航强国事业贡献一份力量。已研究生毕业7年，现从事民航软件研发工作，专业是民航空中交通管理，属于应用业务领域，作为非计算机非数学专业，但已经感觉到AI对未来民航业的影响将是革命性的，提前做好准备，迎接新时代。希望得到收获：为了知其然更知其所以然，研究AI在民航智能化的落地应用。
非常感谢王老师的课程，您的《人工智能革命》、《裂变》正在学习中，非常庆幸能够遇到您，指引我进入了人工智能的新世界。
arronK

2019-01-11 14:23:39

为什么想要学习机器学习？因为想要踏入人工智能这一领域，并且想要在这领域深造，机器学习自然是最基础的也是必然需要掌握的。

作者回复

机器学习确实是入手人工智能的不二之选。

2019-07-22 15:18:51
清风浮云

2018-06-05 00:55:01

为自己的发展用尽全力，为了社会科技的发展、贡献自己绵薄之力。

作者回复

正能量👍

2018-06-07 20:54:24
不吐槽会死的喵星人

2018-06-04 23:57:29

为什么想学机器学习呢？很多原因，最基本的原因是想赚钱！现在机器学习吃香，想尝试转型。再一个，我坚信，不久的将来，人类绝大部分工作将被机器代替，我不想失业（即便可能高福利的失业）！最后的最后，我很期待机器觉醒的那一天，如果可以，我也想出一份力！！😁😁😁

作者回复

希望机器永不觉醒😄

2018-06-07 20:53:26
njzy_sbl51

2018-06-04 23:51:27

学习该门课程的目的：系统性掌握机器学习这门技术，愿能融会贯通，将其应用于生活领域，愿能取得一些突破性的进展。

作者回复

能够融入生活才是最高的境界

2018-06-07 20:58:09
Hurt

2018-06-04 19:02:50

一个pythoner 一直想开始学习一直在开始的门口那就从现在开始吧

作者回复

永远不会晚

2018-06-07 20:57:37
Geek_eb07f9

2021-11-15 15:49:48

机器学习的模型众多，是有深入理解背后的基本原理及假设条件，才能避免误用。频率学派和贝叶斯学派的二分法让我们首次了解到不同算法背后的一个核心差异，期待更多老师后续的讲解。
心之翥

2020-12-02 21:54:29

我希望以机器学习作为自己在人工智能领域学习的开篇，为以后更进一步取得更好成绩打下基础。人工智能肯定是未来趋势，科幻电影中的场景已然快要到来，我决定深度参与其中！加油吧
颜浩

2020-08-10 20:33:50

希望通过专栏梳理清楚各算法/模型之间的关系，而不仅仅停留在对单个模型的认知上