数据科学基础
教学周 |
课时 |
内容 |
说明 |
|
1 |
2 |
导论 |
什么是数据科学;应用案例;大数据5V;数据科学必备基础;Python简介 |
导论.pptx |
2 |
2 |
概率论与数理统计recap |
独立、相关;条件概率;贝叶斯定理;大数定理;中心极限定理;相关和因果;参数估计;假设检验 |
MonteCarlo.ipynb, Benford's Law.ipynb
|
3 |
2 |
线性代数与NumPy库 |
矩阵运算;矩阵的索引;逆矩阵;SVD;NumPy介绍 |
libraries/Numpy Basics.ipynb |
4 |
2 |
数据读写与数据可视化 |
文件操作与pandas库介绍;Web Crawler抓取网络数据;常见的数据可视化类型及展示;Matplotlib库介绍;plotly库介绍 |
libraries/Pandas.ipynb, libraries/Matplotlib.ipynb, libraries/Plotly.ipynb |
5 |
2 |
上机 |
|
6-7 |
2 |
机器学习初步 |
机器学习简介;线性回归;梯度下降法;代价函数 |
|
8 |
2 |
数据挖掘初步 |
数据挖掘简介;关联规则 |
|
9 |
2 |
sklearn库 |
常用模型和算法;sklearn库介绍 |
|
10 |
2 |
图像处理与深度学习 |
深度学习简介;经典的深度神经网络模型;图像分类;目标检测;keras库介绍 |
5.11 Fine Tuning (VGG16 Leaf).ipynb, 6.2. Convolutional VAE.ipynb,
8.7 Object Detection -Fundus .ipynb, 5. artistic_style_transfer.ipynb,
15.1 Reinforced Learning on TTT.ipynb
|
11-12 |
4 |
NLP / 文本挖掘 |
RNN系列;Attention模型 |
|
13 |
2 |
大数据伦理 |
算法偏见;数据及算法版权;合法地使用开源项目:常见开源协议介绍 Open Source and GPL3 LGPL3 Apache 2.0 |
|
14 |
2 |
大数据的并行处理 |
BGD、SGD、BGD、MapReduce |
|
15 |
2 |
复习 |
数据科学要点回顾 |
相关概念.ppt |
统计分析
教学周 |
课时 |
内容 |
说明 |
|
1 |
2 |
导论课 |
统计简史;
数据统计分析的概念;应用案例介绍;
强调概率论和数理统计在其他应用型学科中的重要性;
工具软件对比:IBM SPSS,GUN PSPP,Python,R
|
2 |
2 |
概率论-基本概念 |
随机试验、样本空间、随机事件、概率、条件概型与乘法公式、全概率公式、贝叶斯定理、贝叶斯分类器、生成模型、频率学派 vs 贝叶斯学派 |
3 |
2 |
概率论-随机变量及其分布 |
离散型随机变量,0-1分布、泊松分布、二项分布;连续性随机变量,均匀分布、指数分布、正态分布;概率密度函数,分布函数。
随机变量的数字特征:期望、方差、协方差、相关系数、矩。
大数定律和蒙特卡洛;中心极限定理
|
4 |
2 |
数理统计-抽样分布
|参数估计
|
总体、样本、统计量、抽样分布:卡方分布、t分布、F分布;
参数估计。点估计:矩估计法、最大似然法;区间估计:单侧置信区间、双侧置信区间
|
|
5 |
2 |
数理统计-假设检验 |
参数检验:拒绝域法、p值法、两类错误、效能分析; 正态总体的均值和方差的假设检验;
|
|
6 |
2 |
统计图形 |
散点图、直方图、QQ-Plot、PP-Plot等 |
|
7-8 |
4 |
基于方差的分析系列 |
方差分析(ANOVA);相关分析;回归分析;GLzM、ANCOVA、multi-way ANOVA、MANOVA |
|
9 |
2 |
非参数检验 |
分布拟合检验(卡方拟合检验)、秩和检验、
符号秩检验、
二项式检验、
列联表检验、
符号检验、
McNemar检验、
Kruskal Wallis检验、
Cochran Q检验
|
|
10 |
2 |
生存分析 |
Kaplan-Meier、
hazard ratio、
survival analysis、
logrank test
|
|
11 |
2 |
降维 |
降维、PCA、tSNE、UMAP、因子分析
|
|
12 |
2 |
聚类 |
K-means + HC + GMM + DBSCAN + Spectral Clustering |
|
13 |
2 |
Bootstrap |
Bootstrap,置信区间,集成学习,Adaboost |
|
14 |
2 |
神经网络系列 |
感知机、深度学习、神经网络发展史、ANN in SPSS |
|
15 |
2 |
时间序列分析 |
ACF、PACF、AR、MA、ARMA、稳态过程、ARIMA、SARIMA、ARCH等 |
|
机器学习
教学周 |
课时 |
内容 |
说明 |
|
1 |
2 |
导论课 |
大数据的概念和应用;大数据与机器学习;课程提纲;考核形式和课堂纪律 |
2 |
2 |
单变量的线性回归 |
线性回归模型;代价函数;梯度下降法;线性代数回顾:矩阵与向量;矩阵运算 |
3 |
2 |
多变量的线性回归 |
多参数的梯度下降法;多项式拟合;正规方程式(normal equations)求解参数 |
|
4 |
2 |
Logistic回归 |
Logistic回归模型;二分类;代价函数和梯度下降法;多分类 |
|
5 |
2 |
正则化(regularization) |
欠拟合/过拟合;改进的代价函数;线性回归和Logistic回归的正则化 |
|
6-7 |
4 |
ANN |
前向传播;代价函数;反向传播 |
|
8 |
2 |
阶段性总结 |
模型选择;训练/测试集;正规化;学习曲线 |
|
9 |
2 |
SVM |
SVM原理;SVM核 |
|
10 |
2 |
非监督学习 |
k-means;初始化 |
|
11 |
2 |
特征降维 |
PCA;NMF |
|
12-13 |
4 |
超参数优化与模型选择 |
偏差(bias)和方差(variance),交叉验证(cross validation),泛化能力(generalization) |
|
14 |
2 |
应用:推荐系统 |
高斯模型;回顾和综合运用前面的知识点 |
|
15 |
2 |
复习 |
重点回顾,考试安排 |
|
机器学习实验
教学周 |
课时 |
内容 |
说明 |
|
5 |
3 |
Python基础 |
讲解Python的基本语法
|
6 |
3 |
Python基础(续) |
Numpy、Matplotlib、Pandas、scikit-learn等常用Python库
|
7 |
3 |
单变量线性回归 |
用线性回归模型来预测企业利润
|
8 |
3 |
多变量线性回归 |
用多变量线性回归模型来预测论文的接收(根据两个reviewer的评分)情况,包括梯度下降和正规方程求解
|
9 |
3 |
逻辑回归与正规化 |
逻辑回归分类器,以及正规化方法的使用。
|
10 |
3 |
多分类问题和神经网络 |
使用逻辑回归模型和神经网络求解多分类问题,分别实现识别手写数字的应用。
|
11 |
3 |
神经网络训练 |
反向传播算法,完成对神经网络模型的训练
|
12 |
3 |
SVM |
支持向量机;线性核/高斯核
|
13-14 |
6 |
大作业 |
泛化能力;超参数优化;综合练习
|
* Acknowledgment & Reference: The Coursera open class 'Machine Learning' by Andrew Ng
管理信息系统
教学周 |
课时 |
内容 |
说明 |
|
1 |
2 |
导论课 |
信息系统案例剖析;课程提纲;考核形式和课堂纪律 |
2 |
2 |
基本概念 |
信息;系统;决策 |
3 |
2 |
组织、流程和管理 |
组织结构、物流/信息流、管理系统 |
|
4 |
2 |
MIS概论 |
MIS概念、历史、案例 |
|
5 |
2 |
信息技术基础 |
商业智能、数据挖掘、区块链、数据可视化 |
|
6 |
2 |
MIS战略规划 |
SCF、BSP、U/C矩阵 |
|
7-8 |
4 |
MIS系统分析 |
SA、逻辑模型、DFD、DD |
|
9-10 |
4 |
MIS系统设计 |
SD、物理模型 |
|
11 |
2 |
MIS系统实施、维护和评价 |
程序设计、SP、OOP、IDE、敏捷开发、测试、维护、评价 |
|
12 |
2 |
项目管理 |
PERT图 |
|
13-16 |
8 |
大作业 |
结合具体的项目完整地实现一个MIS原型系统,需要提供各个阶段的相关文档 |
|
数据挖掘
教学周 |
课时 |
内容 |
说明 |
|
1 |
3 |
导论 |
什么是数据挖掘;应用案例;大数据5V |
导论.pptx |
2 |
3 |
概率论与数理统计recap |
独立、相关;条件概率;贝叶斯定理;大数定理;中心极限定理;相关和因果;参数估计;假设检验 |
MonteCarlo.ipynb, Benford's Law.ipynb
|
3 |
3 |
预测建模 - 回归 |
线性回归模型(单变量、多变量);代价函数;梯度下降法;线性代数回顾:矩阵与向量;矩阵运算;正规方程;多项式回归 |
4 |
3 |
预测建模 - 分类 |
Sigmoid激活函数;Logistic回归模型;二分类;代价函数和梯度下降法;多分类。欠拟合/过拟合;正则化(regularization)。Hinge Loss和SVM决策边界;核(kernel) |
|
5 |
3 |
预测建模 - 分类(续) |
神经网络:前向传播;代价函数;反向传播;深度学习。
决策树:Info Gain , Gini Impurity;随机森林;集成学习(bagging,boosting)。
贝叶斯分类器。
KNN;
距离
|
5.11 Fine Tuning (VGG16 Leaf).ipynb, 6.2. Convolutional VAE.ipynb,
8.7 Object Detection -Fundus .ipynb, 5. artistic_style_transfer.ipynb,
15.1 Reinforced Learning on TTT.ipynb
|
6 |
3 |
阶段性总结 |
偏差(bias)/方差(variance);模型选择;训练集/交叉验证集/测试集;学习曲线;不均衡的数据;查准率/查全率/F1-Score |
|
7 |
3 |
聚类 |
k-means;Spectral Clustering |
|
8 |
3 |
异常检测 |
Multivariant Gaussian Distribution,Cross Validation |
|
9 |
3 |
关联挖掘 |
support, confidence |
|
10 |
3 |
综合应用:文本挖掘 |
特征提取:将文本转化为计算机可处理的向量形式;
单词表征:Word Embedding,TF-IDF;
文档表征:Bow(Bag of word), N-gram;
分类:文本分类,情感分析;
回归:情感分析 (polarity: negative 0-1 positive)
|
|
11 |
3 |
综合应用:文本挖掘(续) |
文档主题模型(Topic Model): LDA,NMF,Clustering;
深度学习:Word Embedding, RNN, LSTM, GRU;
案例研究:关联规则挖掘;食品添加剂知识图谱
|
|
C语言程序设计与实践
教学周 |
课时 |
内容 |
说明 |
|
1 |
2 |
导论课 |
主流程序语言介绍;计算机系统的组成;二进制、十六进制;C语言的特点;C语言的学习建议 |
2 |
2 |
集成开发环境 |
Visual Studio IDE的介绍;程序调试:断点设置、单步调试、变量窗口、内存窗口;编码风格;程序示例 |
3 |
2 |
基本数据类型和表达式 |
C语言保留关键字;数据类型;常量、变量;运算符
|
4 |
2 |
控制台输入输出语句 |
基本输入输出函数库stdio.h;scanf、printf |
|
5 |
2 |
程序结构 |
顺序结构、选择结构、循环结构 |
|
6 |
2 |
数组 |
整型数组、字符串;向量和矩阵;字符串操作函数库string.h |
|
7 |
2 |
函数 |
函数定义和调用;形参、实参;递归调用;变量的作用域:局部变量、全局变量 |
|
8 |
2 |
编译预处理 |
宏定义 #define;文件包含 #include;条件编译 #ifdef 跨平台的实现 |
|
9 |
2 |
指针 |
|
|
10 |
2 |
结构和联合 |
struct、union、链表 |
|
11 |
2 |
I/O操作 |
文件读写操作 |
|
12 |
2 |
算法 |
数据结构+算法=程序;算法导论 |
|
13-14 |
4 |
上机练习 |
|
|
15 |
2 |
复习 |
知识点系统性回顾 |
|