Hui

Hui

We create the world, we change the world

Machine Learning Basics

Machine Learning Basics

辉少博客中关于机器学习基础算法的推导合集：贝叶斯分类、Fisher LDA、感知器、SVM、逻辑回归

Overview

这一系列文章覆盖了监督学习中最核心的线性/非线性分类方法，从概率视角（贝叶斯）到几何视角（SVM）再到迭代优化（感知器）。

Key Facts / Claims

贝叶斯分类器

后验概率公式：$p(w_i x) = \frac{p(x w_i)p(w_i)}{p(x)}$
等方差等先验时，决策边界退化为最近均值分类器：$x = \frac{m_1 + m_2}{2}$
不等协方差时，决策边界为二次曲面

Fisher 线性判别分析 (LDA)

目标：最大化类间散度 / 类内散度比率
Fisher 准则：$J_F = \frac{(\mathbf{w}^T \mathbf{m}_1 - \mathbf{w}^T \mathbf{m}_2)^2}{\mathbf{w}^T \mathbf{S}_W \mathbf{w}}$
最优投影：$\mathbf{w} = \gamma \mathbf{S_W^{-1}} (\mathbf{m}_1 - \mathbf{m}_2)$
转化为广义特征值问题：$\mathbf{S}_B \mathbf{w} = \lambda \mathbf{S}_W \mathbf{w}$

感知器 (Perceptron)

线性二分类器，决策函数：$f(x) = \text{sign}(w \cdot x + b)$
更新规则：$w_{k+1} = w_k + yx$（误分类时）
收敛性：有限步内收敛，更新次数上限 $M \leq \frac{| w_0 - \alpha w^* |^2}{\beta^2}$

支持向量机 (SVM)

最大化间隔：$y_k \left( \frac{\langle w, x_k \rangle}{|w|} - b \right) \geq \Delta$
对偶问题：$\max_{\alpha \geq 0} \left[ \sum \alpha_k - \frac{1}{2} \sum \alpha_k \alpha_l y_k y_l \langle \phi(x_k), \phi(x_l) \rangle \right]$
核技巧：通过特征映射 $\phi$ 隐式处理高维空间

[[flash-attention]] — 现代深度学习中的注意力优化
[[transformer]] — 基于注意力的大模型架构
[[kl-divergence]] — 概率分布间的距离度量
[[llm-rl-algorithms]] — 强化学习中的优化理论
[[sft-vs-rlhf]] — SFT 的统计学本质

Sources

贝叶斯分类和决策边界 — 2024-08-31
Fisher 线性判别分析 — 2024-08-31
Perceptron(感知器) — 2024-08-31
支持向量机 — 2024-09-01