课程简介:

在2006年12月召开的 IEEE 数据挖掘国际会议ICDM上,与会的各位专家选出了当时的十大数据挖掘算法(top 10 data mining algorithms)。本课程以此为主线,详细介绍了当前数据挖掘及机器学习领域的十余个经典算法。其中既包括原有列表中的经典算法,亦引进和涵盖了当前应用和研究较为广泛的流行算法。这些内容可作为包括自然语言处理、计算机视觉和数据分析等内容的基础,对于研究和深入理解算法原理为非常必要之基础。

本课程注重算法原理的介绍,注重数学上的推导和解释,以期令人知其然更知其所以然。演示用之例子涉及Python(含scikit-learn包)、R、Matlab和Weka等多种数据挖掘环境,并以Python为主。算例讲求短小精悍,注重提升学员的基础能力,为后续深入研究和实战做足准备。

课程大纲:

第一课:概述与工具介绍、机器学习模型、机器学习的路线图、Python(含Scikit-learn)、R、MATLAB、Weka

第二课:线性回归、多元回归、多项式回归、非线性回归(含倒数模型、对数模型等)、多重共线性、R及Python回归实例

第三课:岭回归与LASSO、过拟合与正则化、TensorFlow初步、逻辑回归、分类任务及其评价(Accuracy, Precison, Recall, F1-Score)、基于Python的鸢尾花分类器实例

第四课:较大熵模型(Softmax)、感知机算法、TensorFlow手写数字识别实例

第五课:支持向量机(凸优化及KKT条件)、VC维、Python及MATLAB鸢尾花分类实例

第六课:聚类算法之k-means、k-median与期望较大化算法(EM)、Python及R聚类实例

第七课:密度聚类DBSCAN、kNN(含kd-tree、quad-tree)、Python及MATLAB实例

第八课:决策树1(Hunt, ID3)、Gini Index、信息增益、分类误差

第九课:决策树2(C4.5,CART)、Weka的使用

第十课:随机森林、Bootstrap与AdaBoost、Python及Weka实例(Kaggle实战)

授课时间:

课程预计8月1日开课,预计课程持续时间为12周。

授课对象:

对于数据挖掘、机器学习感兴趣,喜欢刨根问底,不满足于只会调用函数,对了解算法原理有兴趣的同学。

对于未来希望从事数据挖掘、机器学习相关工作的学生,对于希望投身(或转行)至AI领域的从业者,但苦于基础太差、或者无从下手,缺乏实战经验的人员。

目标学员若有一定微积分、概率论基础更佳。

课程学习环境:

Python、R或Matlab了解其一即可。没有特别的语言基础要求,因为知道为什么,你才能知道如何调参数。而我们更关心为什么!

收获预期:

掌握经典的数据挖掘、机器算法原理,做到知其然更知其所以然

可以使用至少一种工具解决实际问题,拒绝再做门外汉

为后续包括NLP、CV等在内的领域进行深入研究奠定基础

授课讲师:

左飞老师

留美博士,中山大学经济学硕士(金融学专业)。参与包括国家社科基金在内的多项研究课题,曾受邀于中华发展经济学年会做平行论坛报告。CSDN知名博主、博客专家和2016年度“博客之星”荣称获得者。同时拥有多年电信行业工作经历。

技术作家,曾获2012年度更受读者喜爱的IT作者奖,著有《R语言实战:机器学习与数据分析》、《算法之美》、《图像处理中的数学修炼》等书,其中两部著作繁体版在中国台湾地区发行。

优秀译者,曾荣获电子工业出版社创始三十周年优秀作译者奖,翻译出版过包括两届Jolt震撼大奖获奖作品和超级畅销书《编码》在内的多部计算机领域的经典著作。