主成分分析（2次元）

2025年8月8日

2次元データで、PCAが“分散最大の方向”をどう見つけるかを直感と数式で学びます。

PCADimensionality ReductionVariance

はじめに

PCA（主成分分析）は、高次元データを情報を保ちながら低次元に圧縮する代表手法です。 2次元では、

を求める問題として理解できます。

中心化された2次元データを $x_i\in\mathbb{R}^2$ とします。単位ベクトル $w$ への射影は $z_i=w^\top x_i$ です。

射影後の分散は

\mathrm{Var}(z)=w^\top S w

（ $S$ は共分散行列）で与えられます。PCAはこれを最大化する $w$ を探します。

制約 $\|w\|=1$ のもとで最大化すると、

S w = \lambda w

が得られ、最大固有値に対応する固有ベクトルが第1主成分になります。

データ雲を最もよく「伸びの方向」で表す軸が第1主成分です。この軸に沿って射影すると、情報損失を最小限に抑えた1次元表現が得られます。

各主成分の寄与率は

\text{Explained Variance Ratio}_k = \frac{\lambda_k}{\sum_j \lambda_j}

で表され、どの主成分がどれだけ情報を保持するかを示します。

下のデモでデータ分布を変えると、主成分軸・固有値・寄与率がどう変化するかを確認できます。

Original 2D dataset with correlation.

Mean: (0, 0) n = 0