K-means とクラスタ形状

2025年8月18日

K-meansが球状クラスタに強く、非球状クラスタでは失敗しやすい理由を可視化で解説します。

ClusteringKMeansUnsupervised Learning

はじめに

K-means は代表的なクラスタリング手法ですが、クラスタが丸い（等方的）形であることを暗黙に仮定しています。

そのため、

という性質があります。

K-means は次を最小化します。

\sum_{k=1}^{K}\sum_{x_i\in C_k}\|x_i-\mu_k\|^2

各点を「最も近い重心」に割り当てるので、境界は線形（Voronoi分割）になります。

この条件では、重心ベースの分割が自然です。

このようなとき、距離最小化だけでは本来の構造を捉えにくくなります。

非球状データには、次の手法が有効な場合があります。

下のデモでは、球状クラスタと非球状クラスタで K-means の挙動を比較できます。

Compare k-means performance on circular vs. non-circular data side by side

k value:

Initialization:

Iteration: 0

SSE: 0.0

Status:Running

Iteration: 0

SSE: 0.0

Status:Running

Left (Circular Data):

Spherical clusters that k-means handles well. Clean separation achieved in few steps.

Right (Non-circular Data):

Non-spherical clusters that k-means struggles with. Forces linear boundaries on curved structures.