度数分布とヒストグラム:適切なビン幅の選び方
度数分布とヒストグラムの入門、そして可視化のための適切なビン幅の選び方を学びましょう。
HistogramData VisualizationBeginner
度数分布とは何か?
データを分析する際、各値(または値の範囲)がどのくらい頻繁に現れるかを知りたいことがよくあります。
度数分布表は、データを区間(階級またはビンと呼ばれる)に整理し、各区間に含まれるデータ点の数を数えます。
作成手順:
- データの範囲を確認する
- 範囲をいくつかの区間(ビン)に分割する
- 各区間に含まれる観測値の数を数える
例:0から100までのテスト点数があるとします。10点刻みの区間を使う場合:
- 0~10点:2名
- 10~20点:5名
- 20~30点:8名
…といった具合です。
ヒストグラムとは何か?
ヒストグラムは度数分布をグラフで表現したものです。
横軸には区間(ビン)を、縦軸には度数を配置します。
棒グラフ(カテゴリカルデータ用)とは異なり、ヒストグラムは連続的な区間を示すため、棒は隙間なく接しています。
なぜビン幅が重要なのか
ヒストグラムを描く際、ビン幅(各区間の大きさ)を決める必要があります。
この選択は分布の見え方に劇的な影響を与えます。
1. ビン幅が大きすぎる場合
- ヒストグラムが過度に滑らかに見え、重要な特徴が隠れてしまいます。
- 例:0~100を1つのビンにまとめると、全体の数しか分からず、分布の形が見えません。
2. ビン幅が小さすぎる場合
- ヒストグラムがギザギザに見えます。
- データのランダムなノイズが全体のパターンを覆い隠してしまう可能性があります。
ビン幅を選ぶためのルール
統計学には、ビン幅の選択を助けるいくつかのガイドラインがあります。
スタージェスの公式
個のデータ点に対して、推奨されるビン数は:
ステップごとの計算(の例):
- を計算
- 1を足す:
- 適切な整数に丸める:約8ビン
データの範囲をとすると、対応するビン幅は:
フリードマン・ダイアコニス法
この手法は、ビン幅を以下のように設定します:
ここでは四分位範囲です。
ステップごとの計算:
- (第1四分位数)と(第3四分位数)を求める
- を計算
- (標本サイズの立方根)を計算
- 公式に代入してを求める
- 必要に応じてを計算
この手法は外れ値に対して頑健で、歪んだデータに対してもよく機能します。
実践的なアドバイス
- スタージェスの公式を最初の目安として使う
- ヒストグラムが主要な形状を明らかにしつつ、ノイズが多すぎないか確認する
- 必要に応じて調整(を少し大きくしたり小さくしたり)
- 外れ値や強い歪みがある場合はフリードマン・ダイアコニス法を優先
目標は公式に盲目的に従うことではなく、データの構造を最もよく明らかにするビンを選ぶことです。
インタラクティブデモ
以下のツールを使ってビン幅を試し、ヒストグラムの形状がどのように変化するかを見てみましょう:
インタラクティブヒストグラム:ビン数の影響
350
現在のビン数
10
スタージェス公式
-Infinity
1 + log₂(n)
フリードマン・ダイアコニス法
10
2×IQR/n^(1/3)
注目すべきポイント:
ビンが少なすぎる:
ヒストグラムが過度に滑らかに見え、重要な特徴が隠れる
ビンが多すぎる:
ヒストグラムがギザギザに見え、ノイズがパターンを覆い隠す
ちょうど良い:
過度のノイズなしに明確な形状が見える - 推奨値を試してみてください!
標本サイズ: 0 データ点 | 範囲: N/A
重要なポイント
- 度数分布:データを区間に整理する
- ヒストグラム:度数分布のグラフィカルな表現
- ビン幅:大きすぎると詳細が隠れ、小さすぎるとノイズが強調される
- スタージェスの公式またはフリードマン・ダイアコニス法を出発点として、実用的に調整する