統計におけるデータの種類の理解

統計学習の最初のステップはデータの種類を理解することです。この記事では、質的データと量的データの違いを、名義、順序、離散、連続変数の明確な例とともに紹介します。

Types of DataBeginner

統計におけるデータの種類の理解

統計学習は常に一つの重要な質問から始まります:どのような種類のデータを扱っているのか?

日常的な状況について考えてみてください:

  • クラスの身長
  • 試験の点数
  • 好きな果物についてのアンケート回答

これらはすべて「データ」ですが、同じ方法で分析することはできません。
適切な統計手法を選ぶためには、まずデータの種類を分類する必要があります。


1. 質的データ(カテゴリカルデータ)

カテゴリカルまたは質的データとも呼ばれます。
これらは数値的測定ではなく、カテゴリや質を記述します。

  • 例1:血液型(A、B、O、AB)
  • 例2:好きな果物(りんご、バナナ、オレンジ)
  • 例3:性別(男性、女性、その他)

頻度をカウントしたり、カテゴリをグループ化したりできますが、平均を計算することはできません

カテゴリカルデータの2つの種類

  1. 名義尺度(Nominal Scale)

    • 固有の順序がないカテゴリ
    • 例:血液型、出身地、色
  2. 順序尺度(Ordinal Scale)

    • 順序があるカテゴリですが、意味のある数値的距離はない
    • 例:5段階アンケート評価(満足→不満足)、コンテストの順位

2. 量的データ(数値データ)

数値的または量的データとも呼ばれます。
これらは測定可能な量を表す数値です。
ここでは、平均、分散、相関の計算が意味を持ちます。

  • 例1:身長(cm)
  • 例2:試験の点数(0-100)
  • 例3:年収(円)

数値データの2つの種類

  1. 離散データ(Discrete Data)

    • 「数えられる」値
    • 例:子どもの数、サイコロの目
  2. 連続データ(Continuous Data)

    • 無限の精度で測定できる値
    • 例:身長、体重、時間

💡 注:連続データのヒストグラムを描くとき、区切りのある「棒グラフ」のように見えるかもしれません。しかし、これは観測されたサンプルを区間にグループ化しているためです。
連続データの真の考え方は滑らかな分布です。密度曲線を重ねることで、その連続性を強調できます。


まとめ:データの4つの種類

  • カテゴリカルデータ

    • 名義(例:血液型)
    • 順序(例:満足度評価)
  • 数値データ

    • 離散(例:子どもの数)
    • 連続(例:身長)

この分類は単なる整理作業ではありません。どの統計手法が有効かを決定します

  • 名義データ → 比率、カイ二乗検定
  • 順序データ → 中央値、順位相関
  • 離散データ → 確率質量関数、カウントモデル
  • 連続データ → 平均、分散、回帰分析

👉 つまり、データの種類を特定することは、あらゆる統計分析の最初のステップです。


インタラクティブデータの種類デモ

異なるデータタイプがどのように見え、どのように動作するかを探索しましょう

名義データ

固有の順序がないカテゴリ。 頻度をカウントできますが、意味のある平均を計算することはできません。

例:好きな果物アンケート

  • • りんご: 25回答
  • • バナナ: 20回答
  • • オレンジ: 18回答
  • • ぶどう: 15回答
  • • その他: 12回答
重要なポイント: 順序は重要ではありません - これらのカテゴリは任意の順序で配置できます!

自分のデータを試してみよう!

コンマで区切られた値を入力すると、デモが自動的にデータを分類し、可視化します:

クイックリファレンス

カテゴリカルデータ

名義: 順序なし(色、名前、カテゴリ)
順序: 順序あり(評価、ランク、成績)

数値データ

離散: 数えられる値(車の台数、サイコロの目)
連続: 測定可能な値(身長、体重、時間)

インタラクティブデモのアイデア(名義、順序、離散、連続)

デモでは学習者が異なるデータ型がどのように見えるかをすばやく確認できるようにします:

  • 名義データの例:好きな果物(りんご、バナナ、オレンジ)
    → 円グラフで表示(順序なし)

  • 順序データの例:5段階満足度スケール
    → 棒グラフで表示(順序を強調するため左から右に配置)

  • 離散データの例:サイコロの目(1-6)
    → 値の間にギャップがある棒グラフ

  • 連続データの例:身長(150-190 cm)
    → 滑らかな密度曲線が重ねられたヒストグラム

ボーナス:ユーザーがデータセットを入力できるようにします。デモはそれを「名義/順序/離散/連続」として自動分類し、対応する可視化を表示します。

← 図鑑に戻る