一般化線形モデル(GLM)

「一般化線形モデル(GLM)」の基本を、図とインタラクティブデモで学べる日本語版記事です。

RegressionGLM

単回帰から始める一般化線形モデル(GLM)入門

はじめに

線形回帰は、連続値の目的変数を予測するための基本的な統計モデルです。
しかし、目的変数が二値(はい/いいえ)やカウント(発生回数)である場合、通常の線形回帰はうまく機能しません。たとえば、負の回数や 1 を超える確率といった、現実には不適切な予測値を出してしまうことがあります。

こうした問題を解決するのが 一般化線形モデル(GLM) です。
GLM は、分布と変換(リンク関数)を拡張することで、さまざまな型のデータに対応できます。この記事では、よく知られた単回帰モデルを出発点に、GLM を段階的に理解していきます。

1. 単回帰の復習

単回帰モデルは次のように書けます。

Y=β0+β1X+ε,εN(0,σ2)Y = \beta_0 + \beta_1 X + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)

このモデルの前提は次のとおりです。

  • 目的変数 YY は連続値である
  • 誤差項 ε\varepsilon は正規分布に従う
  • YY の平均は XX の一次式で表せる(E[Y]=β0+β1X\mathbb{E}[Y] = \beta_0 + \beta_1 X

YY が正規分布に近いふるまいをする場合には、この枠組みは非常に有効です。

2. 線形回帰だけでは難しいケース

実データでは、単回帰の前提が成り立たないことがよくあります。たとえば:

  • 二値データ:広告をクリックするか(Y{0,1}Y \in \{0,1\}
  • カウントデータ:1日に起きる事故件数(YNY \in \mathbb{N}

このとき線形回帰は、次のような不自然な予測を生みます。

  • 確率が [0,1][0,1] の外に出る
  • カウントが負になる
  • 分散が一定でない・残差が正規にならない

このため、より柔軟な枠組みである GLM が必要になります。

3. GLM を構成する 3 つの要素

GLM は、次の 3 要素で構成されます。

(1) 応答変数の分布

応答変数 YY指数型分布族 の分布に従うと仮定します。代表例は次のとおりです。

  • 正規分布(連続値)
  • ベルヌーイ分布(二値)
  • ポアソン分布(カウント)

(2) 線形予測子

線形回帰と同様に、説明変数の線形結合を作ります。

η=β0+β1X\eta = \beta_0 + \beta_1 X

本記事では、理解しやすさのために 1 変数 XX の形に限定しています。

(3) リンク関数

リンク関数は、応答変数の平均 μ=E[Y]\mu = \mathbb{E}[Y] と線形予測子 η\eta を結びます。

η=g(μ)\eta = g(\mu)

代表的なリンク関数:

  • 恒等リンク:g(μ)=μg(\mu)=\mu(線形回帰)
  • ロジットリンク:g(μ)=log(μ1μ)g(\mu)=\log\left(\frac{\mu}{1-\mu}\right)(二値)
  • 対数リンク:g(μ)=log(μ)g(\mu)=\log(\mu)(カウント)

4. 例:二値データに対するロジスティック回帰

広告クリックの有無(Y{0,1}Y \in \{0,1\})を考えます。GLM としては:

  • 分布:ベルヌーイ分布
  • リンク関数:ロジット
  • 線形予測子:η=β0+β1X\eta=\beta_0+\beta_1X

と置けるため、

log(p1p)=β0+β1X\log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X

となります。ここで p=P(Y=1)p=\mathbb{P}(Y=1)。これを解くと

p=11+e(β0+β1X)p = \frac{1}{1+e^{-(\beta_0+\beta_1X)}}

となり、予測確率が常に 0〜1 に収まることが保証されます。

5. GLM 構築の手順

  1. 目的変数の型を確認する(連続・二値・カウント)
  2. 分布を選ぶ(正規・ベルヌーイ・ポアソンなど)
  3. リンク関数を選ぶ(目的変数の範囲に合うもの)
  4. 線形予測子を定義する(例:η=β0+β1X\eta=\beta_0+\beta_1X
  5. パラメータを推定する(通常は最尤推定)
  6. 当てはまりを評価する(AIC、逸脱度、残差など)

まとめ

  • GLM は「分布」「線形予測子」「リンク関数」の 3 要素で構成される。
  • 線形回帰が扱いにくい二値・カウントデータにも自然に対応できる。
  • 目的変数の性質に合わせて分布とリンクを選ぶことが、モデル設計の要点である。

Interactive GLM Builder

1
Choose Distribution
2
Select Link Function
3
Define Linear Predictor
4
View Predictions

Step 1: Choose Distribution

← 図鑑に戻る