Skip to content

Latest commit

 

History

History
233 lines (156 loc) · 10.1 KB

File metadata and controls

233 lines (156 loc) · 10.1 KB

1. Primary Topics 基础

Classification and Regression 分类与回归

Clustering 聚类

  • K-means K-均值

  • DB-SCAN

  • Gaussian Mixture Model 混合高斯模型 (GMM)

  • Power Iteration Clustering (PIC)

Frequent Pattern Mining 频繁模式挖掘

  • Association Rules

  • FP-growth

  • PrefixSpan

2. Practice 实践

Feature Engineering 特征工程

  • Feature Construction 特征构建

  • Feature Extraction 特征提取

    • Principal Component Analysis 主成分分析 (PCA)
    • Linear Discriminant Analysis 线性判别分析 (LDA)
    • Independent Component Analysis 独立成分分析 (ICA)
  • Feature Selection 特征选择

    • Filter 过滤式方法
      • Coefficient Score 相关系数
      • Chi-squared Test 卡方检验
      • Mutual Information/Information Gain 互信息/信息增益
    • Wrapper 封装式方法
      • Complete 完全搜索
      • Heuristic 启发式搜索
      • Random 随机搜索
    • Embedded 嵌入式方法
      • 正则化
      • 决策树
      • 深度学习

Model Evaluation 模型评价

  • Model Validation 模型验证

    • Hold-out Validation
    • K-fold cross-validation K折交叉验证
    • Leave one out/Jackknife 留一交叉验证/刀切法
    • Bootstrapping 自助法
  • Model Testing 模型测试

    • A/B Testing

Model Selection 模型选择

  • Feature Engineering

  • Algorithm Selection

  • Hyperparameter Tuning 超参数调优

    • Grid Search 格搜索
    • Random Search 随机搜索
    • Smart Search 智能搜索
      • Derivative-free optimization
      • Bayesian optimization
      • random forest smart tuning

3. Special Topics 专题

Recommender System 推荐系统

  • Content Filtering

  • Collaborative Filtering 协同过滤

Topic Models 主题模型

  • Latent Semantic Indexing 潜语义索引 (LSI)

  • Probability Latent Semantic Indexing 概率潜语义索引 (pLSI) [SIGIR 1999]

  • Latent Dirichlet Allocation (LDA) [JMLR 2003]

Sequence Labeling 序列标注

  • Hidden Markov Model 隐马尔科夫模型 (HMM)

    • Evaluation 评估: Forward algorithm 前向算法
    • Decoding 解码: Viterbi algorithm 维特比算法
    • Learning 学习: Forward-backward algorithm 前向-后向算法
  • Maximum Entropy Markov Model 最大熵马尔科夫模型 (MEMM)

  • Markov Random Field 马尔科夫随机场 (MRF)

  • Conditional Random Field 条件随机场 (CRF)

  • AutoEncoder 自动编码器

    • Sparse AutoEncoder 稀疏自动编码器
    • Denoising AutoEncoders 降噪自动编码器
  • Sparse Coding 稀疏编码

  • Restrict Boltzmann Machine 限制波尔兹曼机 (RBM)

  • Deep Belief Networks 深信度网络

  • Convolutional Neural Networks 卷积神经网络

4. Important Concepts 重要概念

  • Underfitting vs. Overfitting 欠拟合与过拟合

  • Empirical Risk Minimization vs. Structural Risk Minimization 经验风险与结构风险 (ERM vs. SRM)

  • Regularization 正则化

    • Ridge Regression 岭回归
    • Least Absolute Shrinkage and Selection Operator 最小绝对值收敛和选择算子算法 LASSO
  • Normalization 归一化

  • Learning Curve 学习曲线

  • Discriminative Model vs. Generative Model 判别式模型与生成式模型

  • Parametric Model vs. Nonparametric Model 参数模型和非参数模型

5. Mathematical Fundament 数学基础

Linear Algebra 线性代数

  • Eigenvalue Decomposition 特征值分解

  • Singular Value Decomposition 奇异值分解 (SVD)

  • Low Rank Matrix Decomposition 低秩矩阵分解

    • Stochastic Gradient Descent
    • Alternating Least Squares (ALS)

Probability and Mathematical Statistics 概率论与数理统计

  • Probability Distributions 概率分布

    • Conjugate Prior 共轭先验
      • Beta distribution and Binomial distribution
      • Dirichlet distribution and Multinomial distribution
    • Exponential Family 指数族
      • Gaussian Distribution
      • Binomial Distribution
      • Poisson Distribution
      • Gamma Distribution
      • Exponential Distribution
      • Beta Distribution
      • Dirichlet Distribution
  • Parameter Estimation 参数估计方法

    • Maximum Likelihood Estimation 最大似然估计 (MLE)
    • Maximum A Posteriori probability 最大后验概率 (MAP)
    • Expectation Maximization 期望最大化 (EM)
    • Monte Carlo Simulation 蒙特卡罗模拟
      • Metropolis–Hastings algorithm
      • Gibbs sampling

Numerical Optimization 数值优化

  • First Order Derivative一阶导数法

    • (Batch) Gradient Descent (批量)梯度下降法/最速下降法 (GD)

    • Stochastic Gradient Descent 随机梯度下降法 (SGD)

    • Mini-Batch Gradient Descent 微型批量梯度下降

    • Conjugate Gradient Descent 共轭梯度下降法

    • Levenberg-Marquardt

  • Second Order Derivative 二阶导数法