箱ひげ図、四分位範囲、外れ値の検出
箱ひげ図の読み方、四分位範囲(IQR)の計算、データの外れ値検出方法を学びましょう。
BeginnerData VisualizationOutliersBoxplotIQR
平均と分散だけでデータを要約できるのか?
統計学では、平均と分散がデータセットの要約によく使われます。
しかし、これらの値だけでは、特に歪みや外れ値の存在について、全体像が見えないことがあります。
例えば:
- 平均は極端な値(外れ値)に非常に敏感です。
- 分散は全体的な広がりを示しますが、大部分のデータがどこに集中しているかは分かりません。
この問題に対処するため、私たちはよく箱ひげ図を使います。
箱ひげ図とは何か?
箱ひげ図は、データ分布の視覚的要約です。以下を1つの図で表示します:
中央値、四分位数、データの広がり、潜在的な外れ値すべてを1つの図で示します。
箱ひげ図の構成要素:
- 箱(ボックス)
データの中央50%(Q1からQ3まで)を表します。 - 箱内の線
中央値(Q2)。 - ひげ(ウィスカー)
通常は外れ値を除く最小値と最大値まで延びます。 - 点(●)
ひげの外側にある外れ値。
四分位数とIQR
四分位数を定義するには、まずデータを昇順に並べます:
- Q1(第1四分位数):第25百分位数
- Q2(中央値):第50百分位数
- Q3(第3四分位数):第75百分位数
**四分位範囲(IQR)**は:
これは、データの中央50%の広がりを測定します。
外れ値の定義
IQRを使った外れ値の一般的なルール:
- 下限:
- 上限:
この範囲外にある点は外れ値と見なされ、ひげの外側に点として表示されます。
計算例
データセット:
[2, 4, 5, 7, 8, 10, 15, 18, 20]
- データはすでにソート済み
- 中央値(Q2)= 8
- Q1 = 4.5(2と7の中央値)
- Q3 = 16.5(15と18の中央値)
- IQR = 16.5 - 4.5 = 12
外れ値の検出:
- 下限 =
- 上限 =
すべての点がこの範囲内にあるため、外れ値は存在しません。
インタラクティブデモ
下のデモでは、プリセットデータセットから選択して箱ひげ図を探索できます。
ツールは自動的に四分位数、IQR を計算し、外れ値をハイライト表示します。
インタラクティブ箱ひげ図エクスプローラー
異なるデータセットを選択して、箱ひげ図がデータ分布、四分位数、外れ値をどのように明らかにするかを探索してください。
外れ値のないバランスの取れたデータ
📱 モバイル:横にスクロールして全体を表示
データセットの値
データ: [12, 15, 16, 18, 20, 21, 22, 24, 25, 26, 28, 30, 32, 35, 38]
この縦型箱ひげ図の読み方:
- • 箱はデータの中央50%を含む(Q1からQ3まで)
- • 箱内の太い線は中央値(Q2)を 示す
- • ひげは最も遠い非外れ値点まで延びる
- • 赤い点は四分位数から1.5 × IQR を超える外れ値を表す
- • 右側の青い点はすべての個別データ点を示す
- • 四分位数ラベルは左側に点線で接続されて配置される