度数分布とヒストグラム:適切なビン幅の選び方

度数分布とヒストグラムの入門、そして可視化のための適切なビン幅の選び方を学びましょう。

HistogramData VisualizationBeginner

度数分布とは何か?

データを分析する際、各値(または値の範囲)がどのくらい頻繁に現れるかを知りたいことがよくあります。
度数分布表は、データを区間(階級またはビンと呼ばれる)に整理し、各区間に含まれるデータ点の数を数えます。

作成手順:

  1. データの範囲を確認する
  2. 範囲をいくつかの区間(ビン)に分割する
  3. 各区間に含まれる観測値の数を数える

例:0から100までのテスト点数があるとします。10点刻みの区間を使う場合:

  • 0~10点:2名
  • 10~20点:5名
  • 20~30点:8名
    …といった具合です。

ヒストグラムとは何か?

ヒストグラムは度数分布をグラフで表現したものです。
横軸には区間(ビン)を、縦軸には度数を配置します。

棒グラフ(カテゴリカルデータ用)とは異なり、ヒストグラムは連続的な区間を示すため、棒は隙間なく接しています。

なぜビン幅が重要なのか

ヒストグラムを描く際、ビン幅(各区間の大きさ)を決める必要があります。
この選択は分布の見え方に劇的な影響を与えます。

1. ビン幅が大きすぎる場合

  • ヒストグラムが過度に滑らかに見え、重要な特徴が隠れてしまいます。
  • 例:0~100を1つのビンにまとめると、全体の数しか分からず、分布の形が見えません。

2. ビン幅が小さすぎる場合

  • ヒストグラムがギザギザに見えます。
  • データのランダムなノイズが全体のパターンを覆い隠してしまう可能性があります。

ビン幅を選ぶためのルール

統計学には、ビン幅の選択を助けるいくつかのガイドラインがあります。

スタージェスの公式

nn個のデータ点に対して、推奨されるビン数kkは:

k=1+log2(n)k = 1 + \log_2(n)

ステップごとの計算(n=100n=100の例):

  1. log2(100)6.64\log_2(100)\approx 6.64を計算
  2. 1を足す:k7.64k \approx 7.64
  3. 適切な整数に丸める:約8ビン

データの範囲をR=max(x)min(x)R = \max(x)-\min(x)とすると、対応するビン幅は:

h=Rkh = \frac{R}{k}

フリードマン・ダイアコニス法

この手法は、ビン幅hhを以下のように設定します:

h=2IQRn1/3h = \frac{2 \cdot IQR}{n^{1/3}}

ここでIQR=Q3Q1IQR = Q_3 - Q_1は四分位範囲です。

ステップごとの計算:

  1. Q1Q_1(第1四分位数)とQ3Q_3(第3四分位数)を求める
  2. IQR=Q3Q1IQR = Q_3 - Q_1を計算
  3. n1/3n^{1/3}(標本サイズの立方根)を計算
  4. 公式に代入してhhを求める
  5. 必要に応じてkR/hk \approx R/hを計算

この手法は外れ値に対して頑健で、歪んだデータに対してもよく機能します。

実践的なアドバイス

  • スタージェスの公式を最初の目安として使う
  • ヒストグラムが主要な形状を明らかにしつつ、ノイズが多すぎないか確認する
  • 必要に応じて調整hhを少し大きくしたり小さくしたり)
  • 外れ値や強い歪みがある場合はフリードマン・ダイアコニス法を優先

目標は公式に盲目的に従うことではなく、データの構造を最もよく明らかにするビンを選ぶことです。

インタラクティブデモ

以下のツールを使ってビン幅を試し、ヒストグラムの形状がどのように変化するかを見てみましょう:

インタラクティブヒストグラム:ビン数の影響

350

現在のビン数

10

スタージェス公式

-Infinity

1 + log₂(n)

フリードマン・ダイアコニス法

10

2×IQR/n^(1/3)

注目すべきポイント:

ビンが少なすぎる:

ヒストグラムが過度に滑らかに見え、重要な特徴が隠れる

ビンが多すぎる:

ヒストグラムがギザギザに見え、ノイズがパターンを覆い隠す

ちょうど良い:

過度のノイズなしに明確な形状が見える - 推奨値を試してみてください!

標本サイズ: 0 データ点 | 範囲: N/A

重要なポイント

  • 度数分布:データを区間に整理する
  • ヒストグラム:度数分布のグラフィカルな表現
  • ビン幅:大きすぎると詳細が隠れ、小さすぎるとノイズが強調される
  • スタージェスの公式またはフリードマン・ダイアコニス法を出発点として、実用的に調整する
← 図鑑に戻る