二値分類におけるBinary Cross Entropyの勾配計算とモデル更新

二値分類タスクを機械学習を用いて解く際には、ロジスティック回帰や（最終層の活性化関数を（標準）シグモイド関数とした）深層学習などが利用される。

これらのモデルを勾配降下法で学習するためには、損失関数である Binary Cross Entropy の勾配を計算する必要があるので、その計算をする。

対数の底は情報理論の文脈では $2$ を用いるが、勾配計算の微分の文脈では便宜上 $e$ を用いる（最終的な結果が定数倍変わってしまうが、学習率に吸収されるため勾配計算では問題ない）。

定義

入力と目的変数

入力を $\bm{x}$ 、目的変数を $y$ とすると以下のように表される。

\begin{aligned} \bm{x} &= \begin{pmatrix} x_1 & x_2 & \dots & x_n \end{pmatrix} \in \mathbb{R}^n\\ y &\in \left\{0, 1\right\}\\ \end{aligned}

ここで、入力とはロジスティック回帰の場合は特徴量のベクトル、深層学習の場合は隠れ層の最終層（出力層の直前の層）の出力のベクトルを指す。

重みとバイアス

線形結合の重みを $\bm{w}$ 、バイアスを $b$ とすると以下のように表される。

\begin{aligned} \bm{w} &= \begin{pmatrix} w_1 & w_2 & \dots & w_n \end{pmatrix} \in \mathbb{R}^n\\ b &\in \mathbb{R}\\ \end{aligned}

予測モデル

（標準）シグモイド関数を $\sigma:\mathbb{R} \to (0,1)$ とすると、ロジット $z$ と予測確率 $t$ は以下のように表される。

ここで、 $(0,1)$ は開区間 $\{x\in\mathbb{R}|0<x<1\}$ を表す。

\begin{aligned} z &= \bm{x} \bm{w} + b\\ &= x_1 w_1 + x_2 w_2 + \dots + x_n w_n + b\\ t &= \sigma(z) = \frac{1}{1 + \exp(-z)} = \frac{1}{1 + e^{-z}} \end{aligned}

交差エントロピーの意味

目的変数 $y$ の確率変数を $Y$ 、予測値 $\hat{y}$ の確率変数を $\hat{Y}$ とすると、 $Y$ の分布 $p$ と $\hat{Y}$ の分布 $q$ は、 $b \in \{0, 1\}$ を用いて以下のように表される。

\begin{aligned} p(b) &= p(Y=b|\bm{x})\\ &= \begin{cases} y & b=1\\1-y & b=0 \end{cases}\\ &= by + (1 - b)(1 - y)\\ q(b) &= q(\hat{Y}=b|\bm{x})\\ &= \begin{cases} t & b=1\\1-t & b=0 \end{cases}\\ &= bt + (1 - b)(1 - t) \end{aligned}

$p$ と $q$ の交差エントロピー $H(p, q)$ は以下のように表される。

\begin{aligned} H(p, q) &= E_{b\sim p}\left[I_{q}(b)\right]\\ &= E_{b\sim p}\left[-\log\left(q(b)\right)\right]\\ &= -\sum_{b\in\{0,1\}} p(b) \log\left(q(b)\right)\\ &= -\left(p(1) \log(q(1)) + p(0) \log(q(0))\right)\\ &= -\left(y \log(t) + (1 - y) \log(1 - t)\right) \end{aligned}

ここで、 $I_{q}(b)$ は分布 $q$ による確率変数 $b$ の自己情報量を表し、 $E_{b\sim p}\left[I_{q}(b)\right]$ は確率変数 $b$ が分布 $p$ に従うときの $I_{q}(b)$ の期待値を表す。

交差エントロピー $H(p, q)$ は、以下のように変形できる。

\begin{aligned} H(p, q) &= E_{b\sim p}\left[I_{q}(b)\right]\\ &= E_{b\sim p}\left[I_{q}(b)\right] - E_{b\sim p}\left[I_{p}(b)\right] + E_{b\sim p}\left[I_{p}(b)\right]\\ &= E_{b\sim p}\left[I_{q}(b) - I_{p}(b)\right] + E_{b\sim p}\left[I_{p}(b)\right]\\ &= D(p||q) + H_{b\sim p}(b)\\ \end{aligned}

ここで、 $H_{b\sim p}(b)$ は確率変数 $b$ が分布 $p$ に従うときの $b$ のエントロピーを表し、 $D(p||q)$ は分布 $p$ と分布 $q$ の KL ダイバージェンスを表す。

KL ダイバージェンス $D(p||q)$ は分布 $p$ と分布 $q$ の距離（遠さ）やズレを表す指標とされる。

エントロピー $H_{b\sim p}(b)$ は分布 $q$ によらず一定であるため、交差エントロピー $H(p, q)$ を最小化することは、KL ダイバージェンス $D(p||q)$ を最小化することと同じであり、分布 $p$ に近い分布 $q$ を求めることができる。

損失関数

交差エントロピー $H(p, q) = -\left(y \log(t) + (1 - y) \log(1 - t)\right)$ を $y$ と $t$ の関数として表したものを損失関数とする。

損失関数 $L:\{0,1\},(0,1) \to \mathbb{R}$ は以下のように表される。

\begin{aligned} L(y, t) &= -\left(y \log(t) + (1 - y) \log(1 - t)\right)\\ \end{aligned}

勾配計算

重み $\bm{w}$ の勾配 $\frac{\partial L}{\partial \bm{w}}(y, t)$ とバイアス $b$ の勾配 $\frac{\partial L}{\partial b}(y, t)$ を計算する。

それぞれ、以下のように変形できる。

\begin{aligned} \frac{\partial L}{\partial \bm{w}}(y, t) &= \frac{\partial z}{\partial \bm{w}} \frac{\partial t}{\partial z} \frac{\partial L}{\partial t}(y, t)\\ \frac{\partial L}{\partial b}(y, t) &= \frac{\partial z}{\partial b} \frac{\partial t}{\partial z} \frac{\partial L}{\partial t}(y, t)\\ \end{aligned}

それぞれの値を求める。

\begin{aligned} \frac{\partial L}{\partial t}(y, t) &= \frac{\partial}{\partial t}\left(-\left(y \log(t) + (1 - y) \log(1 - t)\right)\right)\\ &= -\left(\frac{y}{t} - \frac{1 - y}{1 - t}\right)\\ &= -\left(\frac{y(1 - t) - (1 - y)t}{t(1 - t)}\right)\\ &= -\left(\frac{y - yt - t + yt}{t(1 - t)}\right)\\ &= -\left(\frac{y - t}{t(1 - t)}\right)\\ &= \frac{t - y}{t(1 - t)}\\ \frac{\partial t}{\partial z} &= \frac{\partial}{\partial z}\sigma(z)\\ &= \frac{\partial}{\partial z}\left(\frac{1}{1 + e^{-z}}\right)\\ &= \frac{\partial}{\partial z}\left(1 + e^{-z}\right)^{-1}\\ &= -\left(1 + e^{-z}\right)^{-2} \cdot \frac{\partial}{\partial z}\left(1 + e^{-z}\right)\\ &= -\left(1 + e^{-z}\right)^{-2} \cdot e^{-z} \cdot \frac{\partial}{\partial z}(-z)\\ &= -\left(1 + e^{-z}\right)^{-2} \cdot e^{-z} \cdot (-1)\\ &= \frac{e^{-z}}{\left(1 + e^{-z}\right)^2}\\ &= \frac{1}{1 + e^{-z}} \cdot \frac{e^{-z}}{1 + e^{-z}}\\ &= \frac{1}{1 + e^{-z}} \cdot \frac{e^{-z} + 1 - 1}{1 + e^{-z}}\\ &= \frac{1}{1 + e^{-z}} \cdot \frac{\left(1 + e^{-z}\right) - 1}{1 + e^{-z}}\\ &= \frac{1}{1 + e^{-z}} \cdot \left(1 - \frac{1}{1 + e^{-z}}\right)\\ &= t(1 - t)\\ \frac{\partial z}{\partial \bm{w}} &= \frac{\partial}{\partial \bm{w}}\left(\bm{x} \bm{w} + b\right)\\ &= \bm{x}\\ \frac{\partial z}{\partial b} &= \frac{\partial}{\partial b}\left(\bm{x} \bm{w} + b\right)\\ &= 1 \end{aligned}

これらを代入して、重み $\bm{w}$ の勾配とバイアス $b$ の勾配を求める。

\begin{aligned} \frac{\partial L}{\partial \bm{w}}(y, t) &= \bm{x} \cdot t(1 - t) \cdot \frac{t - y}{t(1 - t)}\\ &= (t - y)\bm{x}\\ \frac{\partial L}{\partial b}(y, t) &= 1 \cdot t(1 - t) \cdot \frac{t - y}{t(1 - t)}\\ &= t - y \end{aligned}

勾配降下法

勾配降下法で学習を行う場合を考える。

学習率を $\eta$ とすると、重み $\bm{w}$ とバイアス $b$ の更新は、以下のように行う。

\begin{aligned} \bm{w} &\leftarrow \bm{w} - \eta \frac{\partial L}{\partial \bm{w}}(y, t)\\ &= \bm{w} - \eta (t - y)\bm{x}\\ b &\leftarrow b - \eta \frac{\partial L}{\partial b}(y, t)\\ &= b - \eta (t - y) \end{aligned}

重み付け

正例に対する重みを $\alpha$ とすると、重み付き損失関数 $L_\alpha(y, t):\{0,1\},(0,1) \to \mathbb{R}$ は以下のように表される。

\begin{aligned} L_\alpha(y, t) &= -\left(\alpha y \log(t) + (1 - y) \log(1 - t)\right)\\ \end{aligned}

ここで、 $\alpha > 1$ のときは正例に対して重みを大きくし、再現率を高め、 $\alpha < 1$ のときは負例に対して重みを大きくし、適合率を高める。 $\alpha$ の値はデータセットに含まれる正例の割合を $p_1$ とすると、 $\alpha = \frac{1 - p_1}{p_1} = \frac{1}{p_1} - 1$ とすることが多い。

重み $\bm{w}$ の勾配 $\frac{\partial L_\alpha}{\partial \bm{w}}(y, t)$ とバイアス $b$ の勾配 $\frac{\partial L_\alpha}{\partial b}(y, t)$ を計算する。

$L(y, t)$ の際と同様に、それぞれ、以下のように変形できる。

\begin{aligned} \frac{\partial L_\alpha}{\partial \bm{w}}(y, t) &= \frac{\partial z}{\partial \bm{w}} \frac{\partial t}{\partial z} \frac{\partial L_\alpha}{\partial t}(y, t)\\ \frac{\partial L_\alpha}{\partial b}(y, t) &= \frac{\partial z}{\partial b} \frac{\partial t}{\partial z} \frac{\partial L_\alpha}{\partial t}(y, t)\\ \end{aligned}

$\frac{\partial L_\alpha}{\partial t}(y, t)$ を求める。

\begin{aligned} \frac{\partial L_\alpha}{\partial t}(y, t) &= \frac{\partial}{\partial t}\left(-\left(\alpha y \log(t) + (1 - y) \log(1 - t)\right)\right)\\ &= -\left(\frac{\alpha y}{t} - \frac{1 - y}{1 - t}\right)\\ &= -\left(\frac{\alpha y(1 - t) - (1 - y)t}{t(1 - t)}\right)\\ &= \frac{(1 - y)t - \alpha y(1 - t)}{t(1 - t)} \end{aligned}

これと先に求めた値を代入して、重み $\bm{w}$ の勾配とバイアス $b$ の勾配を求める。

\begin{aligned} \frac{\partial L_\alpha}{\partial \bm{w}}(y, t) &= \bm{x} \cdot t(1 - t) \cdot \frac{(1 - y)t - \alpha y(1 - t)}{t(1 - t)}\\ &= \left((1 - y)t - \alpha y(1 - t)\right)\bm{x}\\ \frac{\partial L_\alpha}{\partial b}(y, t) &= 1 \cdot t(1 - t) \cdot \frac{(1 - y)t - \alpha y(1 - t)}{t(1 - t)}\\ &= (1 - y)t - \alpha y(1 - t) \end{aligned}