主讲课程:数据科学、机器学习、统计分析等

数据科学基础

教学周 课时 内容 说明
1 2 导论 什么是数据科学;应用案例;大数据5V;数据科学必备基础;Python简介 导论.pptx
2 2 概率论与数理统计recap 独立、相关;条件概率;贝叶斯定理;大数定理;中心极限定理;相关和因果;参数估计;假设检验 MonteCarlo.ipynb, Benford's Law.ipynb
3 2 线性代数与NumPy库 矩阵运算;矩阵的索引;逆矩阵;SVD;NumPy介绍 libraries/Numpy Basics.ipynb
4 2 数据读写与数据可视化 文件操作与pandas库介绍;Web Crawler抓取网络数据;常见的数据可视化类型及展示;Matplotlib库介绍;plotly库介绍 libraries/Pandas.ipynb, libraries/Matplotlib.ipynb, libraries/Plotly.ipynb
5 2 上机
6-7 2 机器学习初步 机器学习简介;线性回归;梯度下降法;代价函数
8 2 数据挖掘初步 数据挖掘简介;关联规则
9 2 sklearn库 常用模型和算法;sklearn库介绍
10 2 图像处理与深度学习 深度学习简介;经典的深度神经网络模型;图像分类;目标检测;keras库介绍 5.11 Fine Tuning (VGG16 Leaf).ipynb, 6.2. Convolutional VAE.ipynb, 8.7 Object Detection -Fundus .ipynb, 5. artistic_style_transfer.ipynb, 15.1 Reinforced Learning on TTT.ipynb
11-12 4 NLP / 文本挖掘 RNN系列;Attention模型
13 2 大数据伦理 算法偏见;数据及算法版权;合法地使用开源项目:常见开源协议介绍 Open Source and GPL3 LGPL3 Apache 2.0
14 2 大数据的并行处理 BGD、SGD、BGD、MapReduce
15 2 复习 数据科学要点回顾 相关概念.ppt

统计分析

教学周 课时 内容 说明
1 2 导论课 统计简史; 数据统计分析的概念;应用案例介绍; 强调概率论和数理统计在其他应用型学科中的重要性; 工具软件对比:IBM SPSS,GUN PSPP,Python,R
2 2 概率论-基本概念 随机试验、样本空间、随机事件、概率、条件概型与乘法公式、全概率公式、贝叶斯定理、贝叶斯分类器、生成模型、频率学派 vs 贝叶斯学派
3 2 概率论-https://www.bilibili.com/video/BV1F3411p7DU/ 离散型随机变量,0-1分布、泊松分布、二项分布;连续性随机变量,均匀分布、指数分布、正态分布;概率密度函数,分布函数。 随机变量的数字特征:期望、方差、协方差、相关系数、矩。 大数定律和蒙特卡洛;中心极限定理
4 2 数理统计-抽样分布 |参数估计 总体、样本、统计量、抽样分布:卡方分布、t分布、F分布; 参数估计。点估计:矩估计法、最大似然法;区间估计:单侧置信区间、双侧置信区间
5 2 数理统计-假设检验 参数检验:拒绝域法、p值法、两类错误、效能分析; 正态总体的均值和方差的假设检验;
6 2 统计图形 散点图、直方图、QQ-Plot、PP-Plot等
7-8 4 基于方差的分析系列 方差分析(ANOVA);相关分析;回归分析;GLzM、ANCOVA、multi-way ANOVA、MANOVA
9 2 非参数检验 分布拟合检验(卡方拟合检验)、秩和检验、 符号秩检验、 二项式检验、 列联表检验、 符号检验、 McNemar检验、 Kruskal Wallis检验、 Cochran Q检验
10 2 生存分析 Kaplan-Meier、 hazard ratio、 survival analysis、 logrank test
11 2 降维 降维、PCA、tSNE、UMAP、因子分析
12 2 聚类 K-means + HC + GMM + DBSCAN + Spectral Clustering
13 2 Bootstrap Bootstrap,置信区间,集成学习,Adaboost
14 2 神经网络系列 感知机、深度学习、神经网络发展史、ANN in SPSS
15 2 时间序列分析 ACF、PACF、AR、MA、ARMA、稳态过程、ARIMA、SARIMA、ARCH等

机器学习

教学周 课时 内容 说明
1 2 导论课 大数据的概念和应用;大数据与机器学习;课程提纲;考核形式和课堂纪律
2 2 单变量的线性回归 线性回归模型;代价函数;梯度下降法;线性代数回顾:矩阵与向量;矩阵运算
3 2 多变量的线性回归 多参数的梯度下降法;多项式拟合;正规方程式(normal equations)求解参数
4 2 Logistic回归 Logistic回归模型;二分类;代价函数和梯度下降法;多分类
5 2 正则化(regularization) 欠拟合/过拟合;改进的代价函数;线性回归和Logistic回归的正则化
6-7 4 ANN 前向传播;代价函数;反向传播
8 2 阶段性总结 模型选择;训练/测试集;正规化;学习曲线
9 2 SVM SVM原理;SVM核
10 2 非监督学习 k-means;初始化
11 2 特征降维 PCA;NMF
12-13 4 超参数优化与模型选择 偏差(bias)和方差(variance),交叉验证(cross validation),泛化能力(generalization)
14 2 应用:推荐系统 高斯模型;回顾和综合运用前面的知识点
15 2 复习 重点回顾,考试安排

机器学习实验

教学周 课时 内容 说明
5 3 Python基础 讲解Python的基本语法
6 3 Python基础(续) Numpy、Matplotlib、Pandas、scikit-learn等常用Python库
7 3 单变量线性回归 用线性回归模型来预测企业利润
8 3 多变量线性回归 用多变量线性回归模型来预测论文的接收(根据两个reviewer的评分)情况,包括梯度下降和正规方程求解
9 3 逻辑回归与正规化 逻辑回归分类器,以及正规化方法的使用。
10 3 多分类问题和神经网络 使用逻辑回归模型和神经网络求解多分类问题,分别实现识别手写数字的应用。
11 3 神经网络训练 反向传播算法,完成对神经网络模型的训练
12 3 SVM 支持向量机;线性核/高斯核
13-14 6 大作业 泛化能力;超参数优化;综合练习

* Acknowledgment & Reference: The Coursera open class 'Machine Learning' by Andrew Ng

数据挖掘

教学周 课时 内容 说明
1 3 导论 什么是数据挖掘;应用案例;大数据5V 导论.pptx
2 3 概率论与数理统计recap 独立、相关;条件概率;贝叶斯定理;大数定理;中心极限定理;相关和因果;参数估计;假设检验 MonteCarlo.ipynb, Benford's Law.ipynb
3 3 预测建模 - 回归 线性回归模型(单变量、多变量);代价函数;梯度下降法;线性代数回顾:矩阵与向量;矩阵运算;正规方程;多项式回归
4 3 预测建模 - 分类 Sigmoid激活函数;Logistic回归模型;二分类;代价函数和梯度下降法;多分类。欠拟合/过拟合;正则化(regularization)。Hinge Loss和SVM决策边界;核(kernel)
5 3 预测建模 - 分类(续) 神经网络:前向传播;代价函数;反向传播;深度学习。 决策树:Info Gain , Gini Impurity;随机森林;集成学习(bagging,boosting)。 贝叶斯分类器。 KNN距离 5.11 Fine Tuning (VGG16 Leaf).ipynb, 6.2. Convolutional VAE.ipynb, 8.7 Object Detection -Fundus .ipynb, 5. artistic_style_transfer.ipynb, 15.1 Reinforced Learning on TTT.ipynb
6 3 阶段性总结 偏差(bias)/方差(variance);模型选择;训练集/交叉验证集/测试集;学习曲线;不均衡的数据;查准率/查全率/F1-Score
7 3 聚类 k-means;Spectral Clustering
8 3 异常检测 Multivariant Gaussian Distribution,Cross Validation
9 3 关联挖掘 support, confidence
10 3 综合应用:文本挖掘 特征提取:将文本转化为计算机可处理的向量形式; 单词表征:Word Embedding,TF-IDF; 文档表征:Bow(Bag of word), N-gram; 分类:文本分类,情感分析; 回归:情感分析 (polarity: negative 0-1 positive)
11 3 综合应用:文本挖掘(续) 文档主题模型(Topic Model): LDA,NMF,Clustering; 深度学习:Word Embedding, RNN, LSTM, GRU; 案例研究:关联规则挖掘;食品添加剂知识图谱

C语言程序设计与实践

教学周 课时 内容 说明
1 2 导论课 主流程序语言介绍;计算机系统的组成;二进制、十六进制;C语言的特点;C语言的学习建议
2 2 集成开发环境 Visual Studio IDE的介绍;程序调试:断点设置、单步调试、变量窗口、内存窗口;编码风格;程序示例
3 2 基本数据类型和表达式 C语言保留关键字;数据类型;常量、变量;运算符
4 2 控制台输入输出语句 基本输入输出函数库stdio.h;scanf、printf
5 2 程序结构 顺序结构、选择结构、循环结构
6 2 数组 整型数组、字符串;向量和矩阵;字符串操作函数库string.h
7 2 函数 函数定义和调用;形参、实参;递归调用;变量的作用域:局部变量、全局变量
8 2 编译预处理 宏定义 #define;文件包含 #include;条件编译 #ifdef 跨平台的实现
9 2 指针
10 2 结构和联合 struct、union、链表
11 2 I/O操作 文件读写操作
12 2 算法 数据结构+算法=程序;算法导论
13-14 4 上机练习
15 2 复习 知识点系统性回顾