行列を使った最小二乗法による多変量線形回帰モデルの導出

作成日 2025年3月7日金曜日

更新日 2026年1月22日木曜日

多変量線形回帰モデル y^=xw+b\hat{y} = \boldsymbol{x}\boldsymbol{w} + b におけるパラメータである重みベクトル w\boldsymbol{w} およびバイアス bb を、行列演算を用いて最小二乗法により導出する。

変数の定義

扱うデータとパラメータを定義する。 ここで、nNn\in\N はデータ数、mNm\in\N は説明変数の数を表す。

データ

説明変数行列 XX と目的変数ベクトル y\boldsymbol{y} を以下のように定義する。

X=(x1x2xn)=(x11x12x1mx21x22x2mxn1xn2xnm)Rn,my=(y1y2yn)Rn\begin{aligned} X&=\begin{pmatrix} \boldsymbol{x}_1\\ \boldsymbol{x}_2\\ \vdots\\ \boldsymbol{x}_n\\ \end{pmatrix}=\begin{pmatrix} x_{{1}{1}}&x_{{1}{2}}&\dots&x_{{1}{m}}\\ x_{{2}{1}}&x_{{2}{2}}&\dots&x_{{2}{m}}\\ \vdots&\vdots&\ddots&\vdots\\ x_{{n}{1}}&x_{{n}{2}}&\dots&x_{{n}{m}} \end{pmatrix}\in\R^{n,m}\\ \boldsymbol{y}&=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}\in\R^n \end{aligned}

また、全要素が 11 のベクトル 1\boldsymbol{1} を以下のように定義する。

1=(111)Rn\begin{aligned} \boldsymbol{1}&=\begin{pmatrix} 1\\ 1\\ \vdots\\ 1 \end{pmatrix}\in\R^n \end{aligned}

パラメータ

推定対象である重みベクトル w\boldsymbol{w} とバイアス bb を以下のように定義する。

w=(w1w2wm)RmbR\begin{aligned} \boldsymbol{w}&=\begin{pmatrix} w_1\\ w_2\\ \vdots\\ w_m \end{pmatrix}\in\R^m\\ b&\in\R \end{aligned}

統計量の行列表示

後で式を整理するために、平均、分散共分散行列、共分散ベクトルを行列形式で表現する。

平均 xˉ\bar{\boldsymbol{x}}yˉ\bar{y}

XX は各説明変数ごとに平均を計算する。

xˉ=(xˉ1xˉ2xˉm)=(1ni=1nxi11ni=1nxi21ni=1nxim)=1nXT1Rmyˉ=1ni=1nyi=1n1TyR\begin{aligned} \bar{\boldsymbol{x}}&=\begin{pmatrix} \bar{x}_1\\ \bar{x}_2\\ \vdots\\ \bar{x}_m \end{pmatrix} =\begin{pmatrix} \frac{1}{n}\sum_{i=1}^n x_{{i}{1}}\\ \frac{1}{n}\sum_{i=1}^n x_{{i}{2}}\\ \vdots\\ \frac{1}{n}\sum_{i=1}^n x_{{i}{m}} \end{pmatrix}=\frac{1}{n}X^\mathsf{T}\boldsymbol{1}\in\R^m\\ \bar{y}&=\frac{1}{n}\sum_{i=1}^n y_i=\frac{1}{n}\boldsymbol{1}^\mathsf{T}\boldsymbol{y}\in\R \end{aligned}

分散共分散行列 SXXS_{XX} と共分散ベクトル sXy\boldsymbol{s}_{Xy}

SXX=(Sx1x1Sx1x2Sx1xmSx2x1Sx2x2Sx2xmSxmx1Sxmx2Sxmxm)=(1ni=1n(xi1xˉ1)(xi1xˉ1)1ni=1n(xi1xˉ1)(xi2xˉ2)1ni=1n(xi1xˉ1)(ximxˉm)1ni=1n(xi2xˉ2)(xi1xˉ1)1ni=1n(xi2xˉ2)(xi2xˉ2)1ni=1n(xi2xˉ2)(ximxˉm)1ni=1n(ximxˉm)(xi1xˉ1)1ni=1n(ximxˉm)(xi2xˉ2)1ni=1n(ximxˉm)(ximxˉm))=1n(XTxˉ1T)(X1xˉT)=1n(XTXXT1xˉTxˉ1TX+xˉ1T1xˉT)=1nXTXxˉxˉTxˉxˉT+xˉxˉT=1nXTXxˉxˉTRm,msXy=(sx1ysx2ysxmy)=(1ni=1n(xi1xˉ1)(yiyˉ)1ni=1n(xi2xˉ2)(yiyˉ)1ni=1n(ximxˉm)(yiyˉ))=1n(XTxˉ1T)(y1yˉ)=1n(XTyXT1yˉxˉ1Ty+xˉ1T1yˉ)=1nXTyxˉyˉxˉyˉ+xˉyˉ=1nXTyxˉyˉRm\begin{aligned} S_{XX}&=\begin{pmatrix} S_{x_1x_1}&S_{x_1x_2}&\dots&S_{x_1x_m}\\ S_{x_2x_1}&S_{x_2x_2}&\dots&S_{x_2x_m}\\ \vdots&\vdots&\ddots&\vdots\\ S_{x_mx_1}&S_{x_mx_2}&\dots&S_{x_mx_m} \end{pmatrix}\\ &=\begin{pmatrix} \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{1}}-\bar{x}_1\right)\left(x_{{i}{1}}-\bar{x}_1\right)&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{1}}-\bar{x}_1\right)\left(x_{{i}{2}}-\bar{x}_2\right)&\dots&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{1}}-\bar{x}_1\right)\left(x_{{i}{m}}-\bar{x}_m\right)\\ \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{2}}-\bar{x}_2\right)\left(x_{{i}{1}}-\bar{x}_1\right)&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{2}}-\bar{x}_2\right)\left(x_{{i}{2}}-\bar{x}_2\right)&\dots&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{2}}-\bar{x}_2\right)\left(x_{{i}{m}}-\bar{x}_m\right)\\ \vdots&\vdots&\ddots&\vdots\\ \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{m}}-\bar{x}_m\right)\left(x_{{i}{1}}-\bar{x}_1\right)&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{m}}-\bar{x}_m\right)\left(x_{{i}{2}}-\bar{x}_2\right)&\dots&\frac{1}{n}\sum_{i=1}^n\left(x_{{i}{m}}-\bar{x}_m\right)\left(x_{{i}{m}}-\bar{x}_m\right) \end{pmatrix}\\ &=\frac{1}{n}\left(X^\mathsf{T}-\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}\right)\left(X-\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}\right)=\frac{1}{n}\left(X^\mathsf{T}X-X^\mathsf{T}\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}-\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}X+\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}\right)\\ &= \frac{1}{n}X^\mathsf{T}X - \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^\mathsf{T} - \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^\mathsf{T} + \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^\mathsf{T}=\frac{1}{n}X^\mathsf{T}X - \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^\mathsf{T}\in\R^{m,m}\\ \boldsymbol{s}_{Xy}&=\begin{pmatrix} s_{x_1y}\\ s_{x_2y}\\ \vdots\\ s_{x_my} \end{pmatrix}=\begin{pmatrix} \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{1}}-\bar{x}_1\right)\left(y_i-\bar{y}\right)\\ \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{2}}-\bar{x}_2\right)\left(y_i-\bar{y}\right)\\ \vdots\\ \frac{1}{n}\sum_{i=1}^n\left(x_{{i}{m}}-\bar{x}_m\right)\left(y_i-\bar{y}\right) \end{pmatrix}\\ &=\frac{1}{n}\left(X^\mathsf{T}-\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}\right)\left(\boldsymbol{y}-\boldsymbol{1}\bar{y}\right)=\frac{1}{n}\left(X^\mathsf{T}\boldsymbol{y}-X^\mathsf{T}\boldsymbol{1}\bar{y}-\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}\boldsymbol{y}+\bar{\boldsymbol{x}}\boldsymbol{1}^\mathsf{T}\boldsymbol{1}\bar{y}\right)\\ &=\frac{1}{n}X^\mathsf{T}\boldsymbol{y}-\bar{\boldsymbol{x}}\bar{y}-\bar{\boldsymbol{x}}\bar{y}+\bar{\boldsymbol{x}}\bar{y}=\frac{1}{n}X^\mathsf{T}\boldsymbol{y}-\bar{\boldsymbol{x}}\bar{y}\in\R^m \end{aligned}

目的関数の設定と微分

回帰式は y^=Xw+1b\hat{\boldsymbol{y}} = X\boldsymbol{w}+\boldsymbol{1}b であるので、残差平方和 ϵ\epsilon は以下のようになる。 この ϵ\epsilon を最小化する。

ϵ=yy^2=(yy^)T(yy^)\epsilon = \left|\left|\boldsymbol{y}-\hat{\boldsymbol{y}}\right|\right|^2 = \left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)^\mathsf{T}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)

ベクトル微分の適用

連鎖律を用いて、各パラメータで偏微分を行う。

重み w\boldsymbol{w} による微分

ϵw=(y^w)Tϵy^=XT2(yy^)=2XT(yy^)=2XT(y(Xw+1b))=2XTy+2XTXw+2bXT1\begin{aligned} \frac{\partial\epsilon}{\partial\boldsymbol{w}}&=\left(\frac{\partial\hat{\boldsymbol{y}}}{\partial\boldsymbol{w}}\right)^\mathsf{T}\frac{\partial\epsilon}{\partial\hat{\boldsymbol{y}}}\\ &=X^\mathsf{T}\cdot-2\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=-2X^\mathsf{T}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=-2X^\mathsf{T}\left(\boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right)\\ &=-2X^\mathsf{T}\boldsymbol{y}+2X^\mathsf{T}X\boldsymbol{w}+2bX^\mathsf{T}\boldsymbol{1} \end{aligned}

バイアス bb による微分

ϵb=(y^b)Tϵy^=1T2(yy^)=21T(yy^)=21T(y(Xw+1b))=21Ty+21TXw+2nb\begin{aligned} \frac{\partial\epsilon}{\partial b}&=\left(\frac{\partial \hat{\boldsymbol{y}}}{\partial b}\right)^\mathsf{T}\frac{\partial \epsilon}{\partial\hat{\boldsymbol{y}}}\\ &=\boldsymbol{1}^\mathsf{T}\cdot-2\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=-2\boldsymbol{1}^\mathsf{T}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=-2\boldsymbol{1}^\mathsf{T}\left(\boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right)\\ &=-2\boldsymbol{1}^\mathsf{T}\boldsymbol{y}+2\boldsymbol{1}^\mathsf{T}X\boldsymbol{w}+2nb \end{aligned}

連鎖率を使わない場合

連鎖律を使わずに代入と展開を行ってから微分を行う方法も示す。

以下の2つのベクトルの微分公式を用いて計算を行う。

x(cTx)=cx(xTAx)=(A+AT)x\begin{aligned} \frac{\partial}{\partial \boldsymbol{x}} \left(\boldsymbol{c}^\mathsf{T} \boldsymbol{x}\right) &= \boldsymbol{c}\\ \frac{\partial}{\partial \boldsymbol{x}} \left(\boldsymbol{x}^\mathsf{T} A \boldsymbol{x}\right) &= \left(A + A^\mathsf{T}\right)\boldsymbol{x} \end{aligned}

重み w\boldsymbol{w} による微分とバイアス bb による微分をそれぞれ計算する。

ϵw=w(yy^)T(yy^)=w(y(Xw+1b))T(y(Xw+1b))=w{(y1b)Xw}T{(y1b)Xw}=w{(y1b)T(y1b)(y1b)TXw(Xw)T(y1b)+(Xw)TXw}=w{(y1b)T(y1b)2(y1b)TXw+wTXTXw}=02XT(y1b)+2XTXw=2XTy+2bXT1+2XTXwϵb=b(yy^)T(yy^)=b{y(Xw+1b)}T{y(Xw+1b)}=b{(yXw)1b}T{(yXw)1b}=b{(yXw)T(yXw)(yXw)T1b(1b)T(yXw)+(1b)T1b}=b{(yXw)T(yXw)2b1T(yXw)+nb2}=021T(yXw)+2nb=21Ty+21TXw+2nb\begin{aligned} \frac{\partial\epsilon}{\partial\boldsymbol{w}}&=\frac{\partial}{\partial\boldsymbol{w}}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)^\mathsf{T}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=\frac{\partial}{\partial\boldsymbol{w}}\left(\boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right)^\mathsf{T}\left(\boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right)\\ &=\frac{\partial}{\partial\boldsymbol{w}}\left\{ \left(\boldsymbol{y} - \boldsymbol{1}b\right) - X\boldsymbol{w} \right\}^\mathsf{T} \left\{ \left(\boldsymbol{y} - \boldsymbol{1}b\right) - X\boldsymbol{w} \right\} \\ &= \frac{\partial}{\partial\boldsymbol{w}} \left\{ \left(\boldsymbol{y} - \boldsymbol{1}b\right)^\mathsf{T} \left(\boldsymbol{y} - \boldsymbol{1}b\right) - \left(\boldsymbol{y} - \boldsymbol{1}b\right)^\mathsf{T} X\boldsymbol{w} - \left(X\boldsymbol{w}\right)^\mathsf{T} \left(\boldsymbol{y} - \boldsymbol{1}b\right) + \left(X\boldsymbol{w}\right)^\mathsf{T} X\boldsymbol{w} \right\} \\ &= \frac{\partial}{\partial\boldsymbol{w}} \left\{ \left(\boldsymbol{y} - \boldsymbol{1}b\right)^\mathsf{T} \left(\boldsymbol{y} - \boldsymbol{1}b\right) - 2\left(\boldsymbol{y} - \boldsymbol{1}b\right)^\mathsf{T} X\boldsymbol{w} + \boldsymbol{w}^\mathsf{T} X^\mathsf{T} X \boldsymbol{w} \right\}\\ &= \boldsymbol{0} - 2X^\mathsf{T} \left(\boldsymbol{y} - \boldsymbol{1}b\right) + 2X^\mathsf{T} X \boldsymbol{w} \\ &= -2X^\mathsf{T} \boldsymbol{y} + 2bX^\mathsf{T}\boldsymbol{1} + 2X^\mathsf{T} X \boldsymbol{w}\\ \frac{\partial\epsilon}{\partial b}&=\frac{\partial}{\partial b}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)^\mathsf{T}\left(\boldsymbol{y}-\hat{\boldsymbol{y}}\right)\\ &=\frac{\partial}{\partial b}\left\{ \boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right\}^\mathsf{T}\left\{ \boldsymbol{y}-\left(X\boldsymbol{w}+\boldsymbol{1}b\right)\right\}\\ &=\frac{\partial}{\partial b}\left\{ \left(\boldsymbol{y}-X\boldsymbol{w}\right)-\boldsymbol{1}b\right\}^\mathsf{T}\left\{ \left(\boldsymbol{y}-X\boldsymbol{w}\right)-\boldsymbol{1}b\right\}\\ &=\frac{\partial}{\partial b}\left\{ \left(\boldsymbol{y}-X\boldsymbol{w}\right)^\mathsf{T}\left(\boldsymbol{y}-X\boldsymbol{w}\right)-\left(\boldsymbol{y}-X\boldsymbol{w}\right)^\mathsf{T}\boldsymbol{1}b-\left(\boldsymbol{1}b\right)^\mathsf{T}\left(\boldsymbol{y}-X\boldsymbol{w}\right)+\left(\boldsymbol{1}b\right)^\mathsf{T}\boldsymbol{1}b\right\}\\ &=\frac{\partial}{\partial b}\left\{ \left(\boldsymbol{y}-X\boldsymbol{w}\right)^\mathsf{T}\left(\boldsymbol{y}-X\boldsymbol{w}\right)-2b\boldsymbol{1}^\mathsf{T}\left(\boldsymbol{y}-X\boldsymbol{w}\right)+nb^2\right\}\\ &=0-2\boldsymbol{1}^\mathsf{T}\left(\boldsymbol{y}-X\boldsymbol{w}\right)+2nb\\ &=-2\boldsymbol{1}^\mathsf{T}\boldsymbol{y}+2\boldsymbol{1}^\mathsf{T}X\boldsymbol{w}+2nb \end{aligned}

正規方程式の解法

零ベクトル 0\boldsymbol{0} を以下のように定義する。

0=(000)Rm\begin{aligned} \boldsymbol{0}&=\begin{pmatrix} 0\\ 0\\ \vdots\\ 0 \end{pmatrix}\in\R^m \end{aligned}

最小値において各微分係数は 00 となるため、以下の連立方程式(正規方程式)を解く。

{ϵw=0ϵb=0{2XTy+2XTXw+2bXT1=021Ty+21TXw+2nb=0{XTXw+bXT1=XTy(1)1TXw+nb=1Ty(2)\begin{aligned} \begin{cases} \frac{\partial\epsilon}{\partial\boldsymbol{w}}=\boldsymbol{0}\\ \frac{\partial\epsilon}{\partial b}=0 \end{cases}&\Leftrightarrow \begin{cases} -2X^\mathsf{T}\boldsymbol{y}+2X^\mathsf{T}X\boldsymbol{w}+2bX^\mathsf{T}\boldsymbol{1}=\boldsymbol{0}\\ -2\boldsymbol{1}^\mathsf{T}\boldsymbol{y}+2\boldsymbol{1}^\mathsf{T}X\boldsymbol{w}+2nb=0 \end{cases}\\ &\Leftrightarrow \begin{cases} X^\mathsf{T}X\boldsymbol{w}+bX^\mathsf{T}\boldsymbol{1}=X^\mathsf{T}\boldsymbol{y}&\cdots(1)\\ \boldsymbol{1}^\mathsf{T}X\boldsymbol{w}+nb=\boldsymbol{1}^\mathsf{T}\boldsymbol{y}&\cdots(2) \end{cases} \end{aligned}

バイアス bb の導出

(2)(2) 式より、バイアスは各変数の平均を用いて以下のように表される。

1TXw+nb=1Tynb=1Ty1TXwb=1n1Ty1n1TXwb=yˉxˉTw\begin{aligned} \boldsymbol{1}^\mathsf{T}X\boldsymbol{w}+nb=\boldsymbol{1}^\mathsf{T}\boldsymbol{y}&\Leftrightarrow nb=\boldsymbol{1}^\mathsf{T}\boldsymbol{y}-\boldsymbol{1}^\mathsf{T}X\boldsymbol{w}\\ &\Leftrightarrow b=\frac{1}{n}\boldsymbol{1}^\mathsf{T}\boldsymbol{y}-\frac{1}{n}\boldsymbol{1}^\mathsf{T}X\boldsymbol{w}\\ &\Leftrightarrow b=\bar{y}-\bar{\boldsymbol{x}}^\mathsf{T}\boldsymbol{w} \end{aligned}

重み w\boldsymbol{w} の導出

(1)(1) 式に得られた bb を代入し、整理する。

XTXw+bXT1=XTyXTXw+(yˉxˉTw)XT1=XTyXTXw+yˉXT1(xˉTw)XT1=XTyXTXw+yˉXT1XT1xˉTw=XTy(XTXXT1xˉT)w=  XTyyˉXT11n(XTXXT1xˉT)w=  1n(XTyyˉXT1)(1nXTXxˉxˉT)w=  1nXTyyˉxˉ(3)SXXw=sXy\begin{aligned} X^\mathsf{T}X\boldsymbol{w}+bX^\mathsf{T}\boldsymbol{1}=X^\mathsf{T}\boldsymbol{y}&\Leftrightarrow X^\mathsf{T}X\boldsymbol{w}+\left(\bar{y}-\bar{\boldsymbol{x}}^\mathsf{T}\boldsymbol{w}\right)X^\mathsf{T}\boldsymbol{1}=X^\mathsf{T}\boldsymbol{y}\\ &\Leftrightarrow X^\mathsf{T}X\boldsymbol{w}+\bar{y}X^\mathsf{T}\boldsymbol{1}-\left(\bar{\boldsymbol{x}}^\mathsf{T}\boldsymbol{w}\right)X^\mathsf{T}\boldsymbol{1}=X^\mathsf{T}\boldsymbol{y}\\ &\Leftrightarrow X^\mathsf{T}X\boldsymbol{w}+\bar{y}X^\mathsf{T}\boldsymbol{1}-X^\mathsf{T}\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}\boldsymbol{w}=X^\mathsf{T}\boldsymbol{y}\\ &\Leftrightarrow \left(X^\mathsf{T}X - X^\mathsf{T}\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}\right)\boldsymbol{w}=\;X^\mathsf{T}\boldsymbol{y} - \bar{y}X^\mathsf{T}\boldsymbol{1}\\ &\Leftrightarrow \frac{1}{n}\left(X^\mathsf{T}X - X^\mathsf{T}\boldsymbol{1}\bar{\boldsymbol{x}}^\mathsf{T}\right)\boldsymbol{w}=\;\frac{1}{n}\left(X^\mathsf{T}\boldsymbol{y} - \bar{y}X^\mathsf{T}\boldsymbol{1}\right)\\ &\Leftrightarrow \left(\frac{1}{n}X^\mathsf{T}X - \bar{\boldsymbol{x}}\bar{\boldsymbol{x}}^\mathsf{T}\right)\boldsymbol{w}=\;\frac{1}{n}X^\mathsf{T}\boldsymbol{y} - \bar{y}\bar{\boldsymbol{x}}&\cdots(3)\\ &\Leftrightarrow S_{XX}\boldsymbol{w}=\boldsymbol{s}_{Xy} \end{aligned}

結論

最小二乗法による最適なパラメータの解は、以下の通りとなる。

ただし、分散共分散行列 SXXS_{XX} が正則であることを前提とする。

{w^=SXX1sXyb^=yˉxˉTw^\begin{aligned} \begin{cases} \hat{\boldsymbol{w}} = S_{XX}^{-1}\boldsymbol{s}_{Xy}\\ \hat{b} = \bar{y} - \bar{\boldsymbol{x}}^\mathsf{T}\hat{\boldsymbol{w}} \end{cases} \end{aligned}

ここで、 説明変数と目的変数がそれぞれ中心化されていた場合、すなわち xˉ=0\bar{\boldsymbol{x}}=\boldsymbol{0} および yˉ=0\bar{y}=0 のときを考える。 このとき、 (3)(3) 式は XTXw=XTyX^\mathsf{T}X\boldsymbol{w}=X^\mathsf{T}\boldsymbol{y} となり、この式のほうを正規方程式と呼ぶことが多い。この式を使って最適なパラメータを XTXX^\mathsf{T}X である前提で求めると以下のようになる。

{w^=(XTX)1XTyb^=0\begin{aligned} \begin{cases} \hat{\boldsymbol{w}} = \left(X^\mathsf{T}X\right)^{-1}X^\mathsf{T}\boldsymbol{y}\\ \hat{b} = 0 \end{cases} \end{aligned}