ロジスティック回帰

2026年3月22日

シグモイド関数から最尤推定、交差エントロピー損失まで、インタラクティブなデモで学ぶロジスティック回帰の基礎。

RegressionClassificationGLM

線形回帰からロジスティック回帰へ

単回帰では、連続値の目的変数 $y$ を $x$ の一次関数としてモデル化しました。しかし、 $y$ が二値（0 か 1）の場合はどうでしょうか？

例えば：患者が病気を発症するか？顧客が広告をクリックするか？

線形回帰は $[0, 1]$ の範囲外の値を予測してしまうことがあり、確率としては不適切です。常に 0 と 1 の間の値を出力するモデルが必要です。

これこそが ロジスティック回帰 の役割であり、一般化線形モデル（GLM）の枠組みにおいてベルヌーイ分布とロジットリンク関数を持つ特殊なケースとして自然に位置づけられます。

以下を考えます：

ここでの重要な問いは： $z \in (-\infty, \infty)$ をどうやって確率 $p \in (0, 1)$ に変換するか？

その答えが シグモイド（ロジスティック）関数です：

P(y = 1 \mid x) = \frac{e^z}{1 + e^z} = \frac{1}{1 + e^{-z}}

この関数には次のような性質があります：

シグモイド関数は実数全体を滑らかに区間 $(0, 1)$ に「押しつぶす」ことで、有効な確率を与えてくれます。

最適なパラメータ $w$ と $b$ はどのように求めるのでしょうか？**最尤推定（MLE）**を使います。つまり、観測データが最も起こりやすくなるパラメータを見つけます。

1つのデータ点 $(x_i, y_i)$ に対する尤度は：

P(y_i \mid x_i) = p_i^{\,y_i} (1 - p_i)^{1 - y_i}

ここで $p_i = \frac{e^{z_i}}{1 + e^{z_i}}$ 、 $z_i = w^\top x_i + b$ です。

全データセットに対する尤度は、すべての観測値の積です：

L = \prod_{i=1}^{n} p_i^{\,y_i} (1 - p_i)^{1 - y_i}

対数を取ると 対数尤度 が得られます：

\log L = \sum_{i=1}^{n} \left[ y_i \log p_i + (1 - y_i) \log(1 - p_i) \right]

線形回帰の OLS とは異なり、微分して 0 とおく方法では解けません — 閉じた形の解が存在しないのです。

代わりに、負の対数尤度である交差エントロピー損失を最小化します：

\mathcal{L} = -\sum_{i=1}^{n} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]

この損失関数は、確信を持った誤った予測に対して大きなペナルティを与えます：

この最適化には勾配降下法などの反復的手法を使います：

w \leftarrow w - \alpha \frac{\partial \mathcal{L}}{\partial w}, \qquad b \leftarrow b - \alpha \frac{\partial \mathcal{L}}{\partial b}

ロジスティック回帰を体感してみましょう。重みとバイアスのスライダーを動かしてシグモイド曲線の変化を観察したり、Start Gradient Descent をクリックして最適なパラメータを自動で学習する様子を確認できます。

Click on the chart to add data points (top half → y=1, bottom half → y=0)

Weight (w): 2.000

Bias (b): 0.000

Iteration

Log Loss

0.0000

Accuracy

92.9%

y = 1y = 0SigmoidDecision Boundary

チャートをクリックしてデータ点を追加（上半分 → y=1、下半分 → y=0）
「Cross-Entropy Loss」タブに切り替えて、損失ランドスケープのヒートマップを確認できます
- 濃い青色は損失が低い（モデルの当てはまりが良い）領域を示します
- 明るい緑・黄色系は損失が高い（当てはまりが悪い）領域を示します
- 赤い点は現在の $(w, b)$ の位置 — 勾配降下法で青い領域に向かって移動します
勾配降下法を開始して、赤い点が損失面の最小値へ向かう様子を観察しましょう
重なる位置にデータ点を追加（例：x=−2 付近に y=1）して、ノイズに対するモデルの振る舞いを確認しましょう

ロジスティック回帰は一般化線形モデル（GLM）の特殊なケースです：

分類結果の評価には、感度・特異度・ROC曲線が役立ちます。

ロジスティック回帰は、シグモイド関数によって線形予測子を確率に変換し、交差エントロピー損失を反復的に最適化することで最適なパラメータを求めます。統計学と機械学習における最も基本的な分類モデルの一つであり、解釈しやすく、実用的な応用にも十分な性能を発揮します。