只需十四步:从零开始掌握Python机器学习(附资源)
2017-03-15 08:55:54   来源:   评论:0 点击:

选自kdnuggets作者:Matthew Mayo机器之心编译参与:黄小天、吴攀、晏奇、蒋思源Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教

  • 来自斯坦福的 iPython Notebook 概览:http://cs231n.github.io/ipython-tutorial/

 

同样也请注意,以下的教程是由一系列在线资源所组成。如果你感觉课程有什么不合适的,可以和作者交流。我们第一个教程就是从 scikit-learn 开始的,我建议你们在继续完成教程前可以按顺序看一看以下的文章。

 

下面是一篇是对 scikit-learn 简介的文章,scikit-learn 是 Python 最常用的通用机器学习库,其覆盖了 K 近邻算法:

 

  • Jake VanderPlas 写的 scikit-learn 简介:http://suo.im/3bMdEd 

 

下面的会更加深入、扩展的一篇简介,包括了从著名的数据库开始完成一个项目:

 

  • Randal Olson 的机器学习案例笔记:http://suo.im/RcPR6

 

下一篇关注于在 scikit-learn 上评估不同模型的策略,包括训练集/测试集的分割方法:

 

  • Kevin Markham 的模型评估:http://suo.im/2HIXDD

 

第五步:Python 上实现机器学习的基本算法

 

在有了 scikit-learn 的基本知识后,我们可以进一步探索那些更加通用和实用的算法。我们从非常出名的 K 均值聚类(k-means clustering)算法开始,它是一种非常简单和高效的方法,能很好地解决非监督学习问题:

 

  • K-均值聚类:http://suo.im/40R8zf 

 

接下来我们可以回到分类问题,并学习曾经最流行的分类算法:

 

  • 决策树:http://thegrimmscientist.com/tutorial-decision-trees/

 

在了解分类问题后,我们可以继续看看连续型数值预测:

 

  • 线性回归:http://suo.im/3EV4Qn

 

我们也可以利用回归的思想应用到分类问题中,即 logistic 回归:

 

  • logistic 回归:http://suo.im/S2beL

 

第六步:Python 上实现进阶机器学习算法

 

我们已经熟悉了 scikit-learn,现在我们可以了解一下更高级的算法了。首先就是支持向量机,它是一种依赖于将数据转换映射到高维空间的非线性分类器。

 

  • 支持向量机:http://suo.im/2iZLLa

 

随后,我们可以通过 Kaggle Titanic 竞赛检查学习作为集成分类器的随机森林:

 

  • Kaggle Titanic 竞赛(使用随机森林):http://suo.im/1o7ofe

 

降维算法经常用于减少在问题中所使用的变量。主成份分析法就是非监督降维算法的一个特殊形式:

 

  • 降维算法:http://suo.im/2k5y2E

 

在进入第七步之前,我们可以花一点时间考虑在相对较短的时间内取得的一些进展。

 

首先使用 Python 及其机器学习库,我们不仅已经了解了一些最常见和知名的机器学习算法(k 近邻、k 均值聚类、支持向量机等),还研究了强大的集成技术(随机森林)和一些额外的机器学习任务(降维算法和模型验证技术)。除了一些基本的机器学习技巧,我们已经开始寻找一些有用的工具包。

 

我们会进一步学习新的必要工具。

相关热词搜索:只需 机器 资源

上一篇:微课:Flash引导动画的制作
下一篇:作业批改及时化、智能化的实现

分享到: 收藏