箱ひげ図、四分位範囲、外れ値の検出

箱ひげ図の読み方、四分位範囲(IQR)の計算、データの外れ値検出方法を学びましょう。

BeginnerData VisualizationOutliersBoxplotIQR

平均と分散だけでデータを要約できるのか?

統計学では、平均分散がデータセットの要約によく使われます。
しかし、これらの値だけでは、特に歪み外れ値の存在について、全体像が見えないことがあります。

例えば:

  • 平均は極端な値(外れ値)に非常に敏感です。
  • 分散は全体的な広がりを示しますが、大部分のデータがどこに集中しているかは分かりません。

この問題に対処するため、私たちはよく箱ひげ図を使います。


箱ひげ図とは何か?

箱ひげ図は、データ分布の視覚的要約です。以下を1つの図で表示します:
中央値、四分位数、データの広がり、潜在的な外れ値すべてを1つの図で示します。

箱ひげ図の構成要素:

  • 箱(ボックス)
    データの中央50%(Q1からQ3まで)を表します。
  • 箱内の線
    中央値(Q2)。
  • ひげ(ウィスカー)
    通常は外れ値を除く最小値と最大値まで延びます。
  • 点(●)
    ひげの外側にある外れ値。

四分位数とIQR

四分位数を定義するには、まずデータを昇順に並べます:

  • Q1(第1四分位数):第25百分位数
  • Q2(中央値):第50百分位数
  • Q3(第3四分位数):第75百分位数

**四分位範囲(IQR)**は:

IQR=Q3Q1IQR = Q3 - Q1

これは、データの中央50%の広がりを測定します。


外れ値の定義

IQRを使った外れ値の一般的なルール:

  • 下限:
    Q11.5×IQRQ1 - 1.5 \times IQR
  • 上限:
    Q3+1.5×IQRQ3 + 1.5 \times IQR

この範囲外にある点は外れ値と見なされ、ひげの外側に点として表示されます。


計算例

データセット:
[2, 4, 5, 7, 8, 10, 15, 18, 20]

  1. データはすでにソート済み
  2. 中央値(Q2)= 8
  3. Q1 = 4.5(2と7の中央値)
  4. Q3 = 16.5(15と18の中央値)
  5. IQR = 16.5 - 4.5 = 12

外れ値の検出:

  • 下限 = 4.51.5×12=13.54.5 - 1.5 \times 12 = -13.5
  • 上限 = 16.5+1.5×12=34.516.5 + 1.5 \times 12 = 34.5

すべての点がこの範囲内にあるため、外れ値は存在しません。


インタラクティブデモ

下のデモでは、プリセットデータセットから選択して箱ひげ図を探索できます。
ツールは自動的に四分位数、IQR を計算し、外れ値をハイライト表示します。

インタラクティブ箱ひげ図エクスプローラー

異なるデータセットを選択して、箱ひげ図がデータ分布、四分位数、外れ値をどのように明らかにするかを探索してください。

外れ値のないバランスの取れたデータ

📱 モバイル:横にスクロールして全体を表示

データセットの値

データ: [12, 15, 16, 18, 20, 21, 22, 24, 25, 26, 28, 30, 32, 35, 38]

この縦型箱ひげ図の読み方:

  • はデータの中央50%を含む(Q1からQ3まで)
  • 箱内の太い線は中央値(Q2)を示す
  • ひげは最も遠い非外れ値点まで延びる
  • 赤い点は四分位数から1.5 × IQR を超える外れ値を表す
  • • 右側の青い点はすべての個別データ点を示す
  • 四分位数ラベルは左側に点線で接続されて配置される
← 図鑑に戻る