MachineLearning/content.md at master · dukechain/MachineLearning

1. Primary Topics 基础

Classification and Regression 分类与回归

Generalized Linear Model 广义线性模型 (GLM)
- Linear Regression 线性回归
  - Locally Weighted Linear Regression 局部加权线性回归 LWLR
- Logistic Regression 逻辑回归
Suport Vector Machine 支持向量机 SVM
- Linear Kernel 线性核
- Polynomial Kernel 多项式核
- Radial Basis Function/Gaussian Kernel 高斯核 RBF
Neural Network 神经网络 (NN)
K-Nearest Neighbor K近邻 (KNN)
Bayesian Models 贝叶斯模型
- Naive Bayes 朴素贝叶斯 (NB)
- Bayesian Network/Belief Network/Directed Acyclic Graphical model 贝叶斯网络/信念网络/有向无环图模型
Decision Trees 决策树
- ID3
- C4.5
- Classification and Regression Tree 分类回归树 (CART)
Ensemble 模型组合
- 线性组合
- Bootstrap aggregating (Bagging) -> Random Forests 随机森林 (RF)
- Boosting 提升
  - Adaptive Boosting 自适应提升 (AdaBoost) -> Boosting Tree 提升树
  - Gradient Boosting -> Gradient-Boosted Regression Trees 梯度提升回归树 (GBRT/GBDT)
  - L2 Boosting
  - Logit Boosting
- Cascade

Clustering 聚类

K-means K-均值
DB-SCAN
Gaussian Mixture Model 混合高斯模型 (GMM)
Power Iteration Clustering (PIC)

Frequent Pattern Mining 频繁模式挖掘

Association Rules
FP-growth
PrefixSpan

2. Practice 实践

Feature Engineering 特征工程

Feature Construction 特征构建
Feature Extraction 特征提取
- Principal Component Analysis 主成分分析 (PCA)
- Linear Discriminant Analysis 线性判别分析 (LDA)
- Independent Component Analysis 独立成分分析 (ICA)
Feature Selection 特征选择
- Filter 过滤式方法
  - Coefficient Score 相关系数
  - Chi-squared Test 卡方检验
  - Mutual Information/Information Gain 互信息/信息增益
- Wrapper 封装式方法
  - Complete 完全搜索
  - Heuristic 启发式搜索
  - Random 随机搜索
- Embedded 嵌入式方法
  - 正则化
  - 决策树
  - 深度学习

Model Evaluation 模型评价

Model Validation 模型验证
- Hold-out Validation
- K-fold cross-validation K折交叉验证
- Leave one out/Jackknife 留一交叉验证/刀切法
- Bootstrapping 自助法
Model Testing 模型测试
- A/B Testing

Model Selection 模型选择

Feature Engineering
Algorithm Selection
Hyperparameter Tuning 超参数调优
- Grid Search 格搜索
- Random Search 随机搜索
- Smart Search 智能搜索
  - Derivative-free optimization
  - Bayesian optimization
  - random forest smart tuning

3. Special Topics 专题

Recommender System 推荐系统

Content Filtering
Collaborative Filtering 协同过滤
- Neighborhood Methods
  - Item-oriented
  - User-oriented
- Latent Factor Models
  - Matrix Factorization

Topic Models 主题模型

Latent Semantic Indexing 潜语义索引 (LSI)
Probability Latent Semantic Indexing 概率潜语义索引 (pLSI) [SIGIR 1999]
Latent Dirichlet Allocation (LDA) [JMLR 2003]

Sequence Labeling 序列标注

Hidden Markov Model 隐马尔科夫模型 (HMM)
- Evaluation 评估: Forward algorithm 前向算法
- Decoding 解码: Viterbi algorithm 维特比算法
- Learning 学习: Forward-backward algorithm 前向-后向算法
Maximum Entropy Markov Model 最大熵马尔科夫模型 (MEMM)
- Label Bias Problem 标注偏置问题
Markov Random Field 马尔科夫随机场 (MRF)
Conditional Random Field 条件随机场 (CRF)

Deep Learning 深度学习

AutoEncoder 自动编码器
- Sparse AutoEncoder 稀疏自动编码器
- Denoising AutoEncoders 降噪自动编码器
Sparse Coding 稀疏编码
Restrict Boltzmann Machine 限制波尔兹曼机 (RBM)
Deep Belief Networks 深信度网络
Convolutional Neural Networks 卷积神经网络

4. Important Concepts 重要概念

Underfitting vs. Overfitting 欠拟合与过拟合
- Bias vs. Variance 偏差与方差
Empirical Risk Minimization vs. Structural Risk Minimization 经验风险与结构风险 (ERM vs. SRM)
Regularization 正则化
- Ridge Regression 岭回归
- Least Absolute Shrinkage and Selection Operator 最小绝对值收敛和选择算子算法 LASSO
Normalization 归一化
Learning Curve 学习曲线
Discriminative Model vs. Generative Model 判别式模型与生成式模型
Parametric Model vs. Nonparametric Model 参数模型和非参数模型

5. Mathematical Fundament 数学基础

Linear Algebra 线性代数

Eigenvalue Decomposition 特征值分解
Singular Value Decomposition 奇异值分解 (SVD)
Low Rank Matrix Decomposition 低秩矩阵分解
- Stochastic Gradient Descent
- Alternating Least Squares (ALS)

Probability and Mathematical Statistics 概率论与数理统计

Probability Distributions 概率分布
- Conjugate Prior 共轭先验
  - Beta distribution and Binomial distribution
  - Dirichlet distribution and Multinomial distribution
- Exponential Family 指数族
  - Gaussian Distribution
  - Binomial Distribution
  - Poisson Distribution
  - Gamma Distribution
  - Exponential Distribution
  - Beta Distribution
  - Dirichlet Distribution
Parameter Estimation 参数估计方法
- Maximum Likelihood Estimation 最大似然估计 (MLE)
- Maximum A Posteriori probability 最大后验概率 (MAP)
- Expectation Maximization 期望最大化 (EM)
- Monte Carlo Simulation 蒙特卡罗模拟
  - Metropolis–Hastings algorithm
  - Gibbs sampling

Numerical Optimization 数值优化

First Order Derivative一阶导数法
- (Batch) Gradient Descent (批量)梯度下降法/最速下降法 (GD)
- Stochastic Gradient Descent 随机梯度下降法 (SGD)
- Mini-Batch Gradient Descent 微型批量梯度下降
- Conjugate Gradient Descent 共轭梯度下降法
- Levenberg-Marquardt
Second Order Derivative 二阶导数法
- Newton Method 牛顿法
- Qusi-newton Method 拟牛顿法
  - DFP
  - BFGS
  - L-BFGS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

1. Primary Topics 基础

Classification and Regression 分类与回归

Clustering 聚类

Frequent Pattern Mining 频繁模式挖掘

2. Practice 实践

Feature Engineering 特征工程

Model Evaluation 模型评价

Model Selection 模型选择

3. Special Topics 专题

Recommender System 推荐系统

Topic Models 主题模型

Sequence Labeling 序列标注

Deep Learning 深度学习

4. Important Concepts 重要概念

5. Mathematical Fundament 数学基础

Linear Algebra 线性代数

Probability and Mathematical Statistics 概率论与数理统计

Numerical Optimization 数值优化

FilesExpand file tree

content.md

Latest commit

History

content.md

File metadata and controls

1. Primary Topics 基础

Classification and Regression 分类与回归

Clustering 聚类

Frequent Pattern Mining 频繁模式挖掘

2. Practice 实践

Feature Engineering 特征工程

Model Evaluation 模型评价

Model Selection 模型选择

3. Special Topics 专题

Recommender System 推荐系统

Topic Models 主题模型

Sequence Labeling 序列标注

Deep Learning 深度学习

4. Important Concepts 重要概念

5. Mathematical Fundament 数学基础

Linear Algebra 线性代数

Probability and Mathematical Statistics 概率论与数理统计

Numerical Optimization 数值优化