主成分分析(2次元)
2次元データで、PCAが“分散最大の方向”をどう見つけるかを直感と数式で学びます。
PCADimensionality ReductionVariance
はじめに
PCA(主成分分析)は、高次元データを情報を保ちながら低次元に圧縮する代表手法です。 2次元では、
- 最も分散が大きい方向(第1主成分)
- それに直交し、次に分散が大きい方向(第2主成分)
を求める問題として理解できます。
1. 問題設定
中心化された2次元データを とします。単位ベクトル への射影は です。
射影後の分散は
( は共分散行列)で与えられます。PCAはこれを最大化する を探します。
2. 固有値問題との対応
制約 のもとで最大化すると、
が得られ、最大固有値に対応する固有ベクトルが第1主成分になります。
- 第1主成分:最大固有値の固有ベクトル
- 第2主成分:次に大きい固有値の固有ベクトル(第1と直交)
3. 幾何学的な見方
データ雲を最もよく「伸びの方向」で表す軸が第1主成分です。 この軸に沿って射影すると、情報損失を最小限に抑えた1次元表現が得られます。
4. 寄与率
各主成分の寄与率は
で表され、どの主成分がどれだけ情報を保持するかを示します。
インタラクティブデモ
下のデモでデータ分布を変えると、主成分軸・固有値・寄与率がどう変化するかを確認できます。
Step-by-Step PCA in 2D
Step 0: Raw Data
Original 2D dataset with correlation.
Mean: (0, 0)
n = 0
まとめ
- PCAは「分散最大の方向」を見つける手法。
- 2次元では共分散行列の固有値分解として理解できる。
- 主成分は次元削減・可視化・前処理に広く使われる。