統計におけるデータの種類の理解
統計学習の最初のステップはデータの種類を理解することです。この記事では、質的データと量的データの違いを、名義、順序、離散、連続変数の明確な例とともに紹介します。
統計におけるデータの種類の理解
統計学習は常に一つの重要な質問から始まります:どのような種類のデータを扱っているのか?
日常的な状況について考えてみてください:
- クラスの身長
- 試験の点数
- 好きな果物についてのアンケート回答
これらはすべて「データ」ですが、同じ方法で分析することはできません。
適切な統計手法を選ぶためには、まずデータの種類を分類する必要があります。
1. 質的データ(カテゴリカルデータ)
カテゴリカルまたは質的データとも呼ばれます。
これらは数値的測定ではなく、カテゴリや質を記述します。
- 例1:血液型(A、B、O、AB)
- 例2:好きな果物(りんご、バナナ、オレンジ)
- 例3:性別(男性、女性、その他)
頻度をカウントしたり、カテゴリをグループ化したりできますが、平均を計算することはできません。
カテゴリカルデータの2つの種類
-
名義尺度(Nominal Scale)
- 固有の順序がないカテゴリ
- 例:血液型、出身地、色
-
順序尺度(Ordinal Scale)
- 順序があるカテゴリですが、意味のある数値的距離はない
- 例:5段階アンケート評価(満足→不満足)、コンテストの順位
2. 量的データ(数値データ)
数値的または量的データとも呼ばれます。
これらは測定可能な量を表す数値です。
ここでは、平均、分散、相関の計算が意味を持ちます。
- 例1:身長(cm)
- 例2:試験の点数(0-100)
- 例3:年収(円)
数値データの2つの種類
-
離散データ(Discrete Data)
- 「数えられる」値
- 例:子どもの数、サイコロの目
-
連続データ(Continuous Data)
- 無限の精度で測定できる値
- 例:身長、体重、時間
💡 注:連続データのヒストグラムを描くとき、区切りのある「棒グラフ」のように見えるかもしれません。しかし、これは観測されたサンプルを区間にグループ化しているためです。
連続データの真の考え方は滑らかな分布です。密度曲線を重ねることで、その連続性を強調できます。
まとめ:データの4つの種類
-
カテゴリカルデータ
- 名義(例:血液型)
- 順序(例:満足度評価)
-
数値データ
- 離散(例:子どもの数)
- 連続(例:身長)
この分類は単なる整理作業ではありません。どの統計手法が有効かを決定します。
- 名義データ → 比率、カイ二乗検定
- 順序データ → 中央値、順位相関
- 離散データ → 確率質量関数、カウントモデル
- 連続データ → 平均、分散、回帰分析
👉 つまり、データの種類を特定することは、あらゆる統計分析の最初のステップです。
インタラクティブデータの種類デモ
異なるデータタイプがどのように見え、どのように動作するかを探索しましょう
名義データ
固有の順序がないカテゴリ。 頻度をカウントできますが、意味のある平均を計算することはできません。
例:好きな果物アンケート
- • りんご: 25回答
- • バナナ: 20回答
- • オレンジ: 18回答
- • ぶどう: 15回答
- • その他: 12回答
自分のデータを試してみよう!
コンマで区切られた値を入力すると、デモが自動的にデータを分類し、可視化します:
クイックリファレンス
カテゴリカルデータ
名義: 順序なし(色、名前、カテゴリ)
順序: 順序あり(評価、ランク、成績)
数値データ
離散: 数えられる値(車の台数、サイコロの目)
連続: 測定可能な値(身長、体重、時間)
インタラクティブデモのアイデア(名義、順序、離散、連続)
デモでは学習者が異なるデータ型がどのように見えるかをすばやく確認できるようにします:
-
名義データの例:好きな果物(りんご、バナナ、オレンジ)
→ 円グラフで表示(順序なし) -
順序データの例:5段階満足度スケール
→ 棒グラフで表示(順序を強調するため左から右に配置) -
離散データの例:サイコロの目(1-6)
→ 値の間にギャップがある棒グラフ -
連続データの例:身長(150-190 cm)
→ 滑らかな密度曲線が重ねられたヒストグラム
ボーナス:ユーザーがデータセットを入力できるようにします。デモはそれを「名義/順序/離散/連続」として自動分類し、対応する可視化を表示します。