一般化線形モデル（GLM）

2025年7月18日

「一般化線形モデル（GLM）」の基本を、図とインタラクティブデモで学べる日本語版記事です。

RegressionGLM

単回帰から始める一般化線形モデル（GLM）入門

はじめに

線形回帰は、連続値の目的変数を予測するための基本的な統計モデルです。
しかし、目的変数が二値（はい/いいえ）やカウント（発生回数）である場合、通常の線形回帰はうまく機能しません。たとえば、負の回数や 1 を超える確率といった、現実には不適切な予測値を出してしまうことがあります。

こうした問題を解決するのが 一般化線形モデル（GLM） です。
GLM は、分布と変換（リンク関数）を拡張することで、さまざまな型のデータに対応できます。この記事では、よく知られた単回帰モデルを出発点に、GLM を段階的に理解していきます。

1. 単回帰の復習

単回帰モデルは次のように書けます。

Y = \beta_0 + \beta_1 X + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)

このモデルの前提は次のとおりです。

目的変数 $Y$ は連続値である
誤差項 $\varepsilon$ は正規分布に従う
$Y$ の平均は $X$ の一次式で表せる（ $\mathbb{E}[Y] = \beta_0 + \beta_1 X$ ）

$Y$ が正規分布に近いふるまいをする場合には、この枠組みは非常に有効です。

2. 線形回帰だけでは難しいケース

実データでは、単回帰の前提が成り立たないことがよくあります。たとえば：

二値データ：広告をクリックするか（ $Y \in \{0,1\}$ ）
カウントデータ：1日に起きる事故件数（ $Y \in \mathbb{N}$ ）

このとき線形回帰は、次のような不自然な予測を生みます。

確率が $[0,1]$ の外に出る
カウントが負になる
分散が一定でない・残差が正規にならない

このため、より柔軟な枠組みである GLM が必要になります。

3. GLM を構成する 3 つの要素

GLM は、次の 3 要素で構成されます。

(1) 応答変数の分布

応答変数 $Y$ は 指数型分布族 の分布に従うと仮定します。代表例は次のとおりです。

正規分布（連続値）
ベルヌーイ分布（二値）
ポアソン分布（カウント）

(2) 線形予測子

線形回帰と同様に、説明変数の線形結合を作ります。

\eta = \beta_0 + \beta_1 X

本記事では、理解しやすさのために 1 変数 $X$ の形に限定しています。

(3) リンク関数

リンク関数は、応答変数の平均 $\mu = \mathbb{E}[Y]$ と線形予測子 $\eta$ を結びます。

\eta = g(\mu)

代表的なリンク関数：

恒等リンク： $g(\mu)=\mu$ （線形回帰）
ロジットリンク： $g(\mu)=\log\left(\frac{\mu}{1-\mu}\right)$ （二値）
対数リンク： $g(\mu)=\log(\mu)$ （カウント）

4. 例：二値データに対するロジスティック回帰

広告クリックの有無（ $Y \in \{0,1\}$ ）を考えます。GLM としては：

分布：ベルヌーイ分布
リンク関数：ロジット
線形予測子： $\eta=\beta_0+\beta_1X$

と置けるため、

\log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X

となります。ここで $p=\mathbb{P}(Y=1)$ 。これを解くと

p = \frac{1}{1+e^{-(\beta_0+\beta_1X)}}

となり、予測確率が常に 0〜1 に収まることが保証されます。

5. GLM 構築の手順

目的変数の型を確認する（連続・二値・カウント）
分布を選ぶ（正規・ベルヌーイ・ポアソンなど）
リンク関数を選ぶ（目的変数の範囲に合うもの）
線形予測子を定義する（例： $\eta=\beta_0+\beta_1X$ ）
パラメータを推定する（通常は最尤推定）
当てはまりを評価する（AIC、逸脱度、残差など）

まとめ

GLM は「分布」「線形予測子」「リンク関数」の 3 要素で構成される。
線形回帰が扱いにくい二値・カウントデータにも自然に対応できる。
目的変数の性質に合わせて分布とリンクを選ぶことが、モデル設計の要点である。

Interactive GLM Builder

Choose Distribution

Select Link Function

Define Linear Predictor

View Predictions

Step 1: Choose Distribution

Normal Distribution

For continuous outcomes (e.g., height, temperature)

Example: Predicting house prices

Bernoulli Distribution

For binary outcomes (success/failure)

Example: Will a customer click an ad?

Poisson Distribution

For count data (number of events)

Example: Number of accidents per day