主成分分析(2次元)

2次元データで、PCAが“分散最大の方向”をどう見つけるかを直感と数式で学びます。

PCADimensionality ReductionVariance

はじめに

PCA(主成分分析)は、高次元データを情報を保ちながら低次元に圧縮する代表手法です。 2次元では、

  • 最も分散が大きい方向(第1主成分)
  • それに直交し、次に分散が大きい方向(第2主成分)

を求める問題として理解できます。

1. 問題設定

中心化された2次元データを xiR2x_i\in\mathbb{R}^2 とします。単位ベクトル ww への射影は zi=wxiz_i=w^\top x_i です。

射影後の分散は

Var(z)=wSw\mathrm{Var}(z)=w^\top S w

SS は共分散行列)で与えられます。PCAはこれを最大化する ww を探します。

2. 固有値問題との対応

制約 w=1\|w\|=1 のもとで最大化すると、

Sw=λwS w = \lambda w

が得られ、最大固有値に対応する固有ベクトルが第1主成分になります。

  • 第1主成分:最大固有値の固有ベクトル
  • 第2主成分:次に大きい固有値の固有ベクトル(第1と直交)

3. 幾何学的な見方

データ雲を最もよく「伸びの方向」で表す軸が第1主成分です。 この軸に沿って射影すると、情報損失を最小限に抑えた1次元表現が得られます。

4. 寄与率

各主成分の寄与率は

Explained Variance Ratiok=λkjλj\text{Explained Variance Ratio}_k = \frac{\lambda_k}{\sum_j \lambda_j}

で表され、どの主成分がどれだけ情報を保持するかを示します。

インタラクティブデモ

下のデモでデータ分布を変えると、主成分軸・固有値・寄与率がどう変化するかを確認できます。

Step-by-Step PCA in 2D

Step 0: Raw Data

Original 2D dataset with correlation.

Mean: (0, 0) n = 0

まとめ

  • PCAは「分散最大の方向」を見つける手法。
  • 2次元では共分散行列の固有値分解として理解できる。
  • 主成分は次元削減・可視化・前処理に広く使われる。
← 図鑑に戻る