Machine Learning Basics
辉少博客中关于机器学习基础算法的推导合集:贝叶斯分类、Fisher LDA、感知器、SVM、逻辑回归
Overview
这一系列文章覆盖了监督学习中最核心的线性/非线性分类方法,从概率视角(贝叶斯)到几何视角(SVM)再到迭代优化(感知器)。
Key Facts / Claims
贝叶斯分类器
- 后验概率公式:\(p(w_i|x) = \frac{p(x|w_i)p(w_i)}{p(x)}\)
- 等方差等先验时,决策边界退化为最近均值分类器:\(x = \frac{m_1 + m_2}{2}\)
- 不等协方差时,决策边界为二次曲面
Fisher 线性判别分析 (LDA)
- 目标:最大化类间散度 / 类内散度比率
- Fisher 准则:\(J_F = \frac{(\mathbf{w}^T \mathbf{m}_1 - \mathbf{w}^T \mathbf{m}_2)^2}{\mathbf{w}^T \mathbf{S}_W \mathbf{w}}\)
- 最优投影:\(\mathbf{w} = \gamma \mathbf{S_W^{-1}} (\mathbf{m}_1 - \mathbf{m}_2)\)
- 转化为广义特征值问题:\(\mathbf{S}_B \mathbf{w} = \lambda \mathbf{S}_W \mathbf{w}\)
感知器 (Perceptron)
- 线性二分类器,决策函数:\(f(x) = \text{sign}(w \cdot x + b)\)
- 更新规则:\(w_{k+1} = w_k + yx\)(误分类时)
- 收敛性:有限步内收敛,更新次数上限 \(M \leq \frac{\| w_0 - \alpha w^* \|^2}{\beta^2}\)
支持向量机 (SVM)
- 最大化间隔:\(y_k \left( \frac{\langle w, x_k \rangle}{\|w\|} - b \right) \geq \Delta\)
- 对偶问题:\(\max_{\alpha \geq 0} \left[ \sum \alpha_k - \frac{1}{2} \sum \alpha_k \alpha_l y_k y_l \langle \phi(x_k), \phi(x_l) \rangle \right]\)
- 核技巧:通过特征映射 \(\phi\) 隐式处理高维空间
Related
- [[flash-attention]] — 现代深度学习中的注意力优化
- [[transformer]] — 基于注意力的大模型架构
- [[kl-divergence]] — 概率分布间的距离度量
- [[llm-rl-algorithms]] — 强化学习中的优化理论
- [[sft-vs-rlhf]] — SFT 的统计学本质
Sources
- 贝叶斯分类和决策边界 — 2024-08-31
- Fisher 线性判别分析 — 2024-08-31
- Perceptron(感知器) — 2024-08-31
- 支持向量机 — 2024-09-01