一般化線形モデル(GLM)
「一般化線形モデル(GLM)」の基本を、図とインタラクティブデモで学べる日本語版記事です。
RegressionGLM
単回帰から始める一般化線形モデル(GLM)入門
はじめに
線形回帰は、連続値の目的変数を予測するための基本的な統計モデルです。
しかし、目的変数が二値(はい/いいえ)やカウント(発生回数)である場合、通常の線形回帰はうまく機能しません。たとえば、負の回数や 1 を超える確率といった、現実には不適切な予測値を出してしまうことがあります。
こうした問題を解決するのが 一般化線形モデル(GLM) です。
GLM は、分布と変換(リンク関数)を拡張することで、さまざまな型のデータに対応できます。この記事では、よく知られた単回帰モデルを出発点に、GLM を段階的に理解していきます。
1. 単回帰の復習
単回帰モデルは次のように書けます。
このモデルの前提は次のとおりです。
- 目的変数 は連続値である
- 誤差項 は正規分布に従う
- の平均は の一次式で表せる()
が正規分布に近いふるまいをする場合には、この枠組みは非常に有効です。
2. 線形回帰だけでは難しいケース
実データでは、単回帰の前提が成り立たないことがよくあります。たとえば:
- 二値データ:広告をクリックするか()
- カウントデータ:1日に起きる事故件数()
このとき線形回帰は、次のような不自然な予測を生みます。
- 確率が の外に出る
- カウントが負になる
- 分散が一定でない・残差が正規にならない
このため、より柔軟な枠組みである GLM が必要になります。
3. GLM を構成する 3 つの要素
GLM は、次の 3 要素で構成されます。
(1) 応答変数の分布
応答変数 は 指数型分布族 の分布に従うと仮定します。代表例は次のとおりです。
- 正規分布(連続値)
- ベルヌーイ分布(二値)
- ポアソン分布(カウント)
(2) 線形予測子
線形回帰と同様に、説明変数の線形結合を作ります。
本記事では、理解しやすさのために 1 変数 の形に限定しています。
(3) リンク関数
リンク関数は、応答変数の平均 と線形予測子 を結びます。
代表的なリンク関数:
- 恒等リンク:(線形回帰)
- ロジットリンク:(二値)
- 対数リンク:(カウント)
4. 例:二値データに対するロジスティック回帰
広告クリックの有無()を考えます。GLM としては:
- 分布:ベルヌーイ分布
- リンク関数:ロジット
- 線形予測子:
と置けるため、
となります。ここで 。これを解くと
となり、予測確率が常に 0〜1 に収まることが保証されます。
5. GLM 構築の手順
- 目的変数の型を確認する(連続・二値・カウント)
- 分布を選ぶ(正規・ベルヌーイ・ポアソンなど)
- リンク関数を選ぶ(目的変数の範囲に合うもの)
- 線形予測子を定義する(例:)
- パラメータを推定する(通常は最尤推定)
- 当てはまりを評価する(AIC、逸脱度、残差など)
まとめ
- GLM は「分布」「線形予測子」「リンク関数」の 3 要素で構成される。
- 線形回帰が扱いにくい二値・カウントデータにも自然に対応できる。
- 目的変数の性質に合わせて分布とリンクを選ぶことが、モデル設計の要点である。
Interactive GLM Builder
1
Choose Distribution2
Select Link Function3
Define Linear Predictor4
View Predictions