Fisher 线性判别分析 (LDA)

August 31, 2024 less than 1 minute read

1. Fisher 准则重述

在 Fisher LDA 中，我们寻找一个投影向量 $\mathbf{w}$ 来最大化类间距离并最小化类内距离。这可以通过最大化以下 Fisher 准则来实现：

\[J_F = \frac{{(\mathbf{w}^T \mathbf{m}_1 - \mathbf{w}^T \mathbf{m}_2)^2}}{{\mathbf{w}^T \mathbf{S}_W \mathbf{w}}}\]

其中，$\mathbf{m}_1$ 和 $\mathbf{m}_2$ 是两个类的均值向量，而 $\mathbf{S}_W$ 是类内散度矩阵, $SW = C1 + C2$, projected variance $w^T C_1 w$ and $w^T C_2 w$.

2. 重新表述优化问题

直接优化比率可能数学上不易操作，更有效的方法是最大化 $\mathbf{w}^T \mathbf{S}_B \mathbf{w}$（类间散度矩阵），同时通过约束 $\mathbf{w}^T \mathbf{S}_W \mathbf{w} = 1$来规范化 $\mathbf{w}$的长度。这可以提高求解的数值稳定性。

3. 拉格朗日乘数法

使用拉格朗日乘数法引入约束条件，定义拉格朗日函数为：

\[L(\mathbf{w}, \lambda) = \mathbf{w}^T \mathbf{S}_B \mathbf{w} - \lambda (\mathbf{w}^T \mathbf{S}_W \mathbf{w} - 1)\]

4. 求导并置零

对 L 关于 $\mathbf{w}$ 求导，并置零求解：

\[\frac{\partial L}{\partial \mathbf{w}} = 2 \mathbf{S}_B \mathbf{w} - 2 \lambda \mathbf{S}_W \mathbf{w} = 0\]

这导致一个广义特征值问题：

\[\mathbf{S}_B \mathbf{w} = \lambda \mathbf{S}_W \mathbf{w}\]

考虑到 $\mathbf{S}_B \mathbf{w}$ 与 $\mathbf{m}_1 - \mathbf{m}_2$ 同方向，我们有：

\[\mathbf{S}_W \mathbf{w} = \beta (\mathbf{m}_1 - \mathbf{m}_2)\]

其中 $\beta$是一个标量。为了找到 $\mathbf{w}$ 的表达式，我们对上述等式两边同时乘以 $\mathbf{S}_W^{-1}$（假设 $\mathbf{S}_W$ 是可逆的）：

\[\mathbf{w} = \gamma \mathbf{S_W^{-1}} (\mathbf{m}_1 - \mathbf{m}_2)\]

这里，$\gamma$ 是另一个标量，表明 $\mathbf{w}$ 可以表示为 $\mathbf{m}_1 - \mathbf{m}_2$在通过 $\mathbf{S_W^{-1}}$变换后的方向。

5. 结论

上述推导表明，最佳的投影向量 $\mathbf{w}$ 是广义特征值问题的解，其中 $\mathbf{S_B}$ 和 $\mathbf{S_W}$ 分别是类间和类内散度矩阵。

Fisher 线性判别分析 (LDA)

1. Fisher 准则重述

2. 重新表述优化问题

3. 拉格朗日乘数法

4. 求导并置零

5. 结论

Leave a comment

You may also enjoy

DDPM 数学推导

DDPM 与 Score Matching 的统一推导与『为什么要这样做』

2024

U-Net中的下采样和上采样运算符并不总是必要的