Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

標準偏回帰係数

重回帰の標準偏回帰係数についての説明と実装結果です。

標準偏回帰係数

重回帰分析を行った結果得られる、偏回帰係数つまり各説明変数の係数ですが、これはもちろん単位系や各説明変数の大小に依存します。例えば、測定単位を g から kg に変えると偏回帰係数は 1 / 1000 の大きさになります。また、重さや長さなど単位系の異なる説明変数の偏回帰係数を比較しても意味がありません。そこで、偏回帰係数の大きさが測定単位によって左右されないようにするために、応答と各説明変数を平均 0、分散 1 に標準化(正規化)することが考えられます。標準化されたデータに基づいて計算された偏回帰係数を、標準偏回帰係数(Standardized Partial Regression Coefficient, SPRC)と呼びます。標準偏回帰係数は、標準化された説明変数に対する、標準化された目的変数の感度です。

標準偏回帰係数と偏回帰係数の間には、応答[math] y [/math]標準偏差と説明変数[math] x_i [/math]標準偏差を用いて下記のような関係があります。

[math] {\large \displaystyle \mathbf{標準偏回帰係数} = \mathbf{偏回帰係数} \times \mathbf{応答}y\mathbf{の標準偏差} \div \mathbf{説明変数} x_i\mathbf{の標準偏差} } [/math]

標準偏回帰係数を[math] {\beta}_i [/math]、偏回帰係数を[math] B_i [/math]として、応答[math] y [/math]の分散[math] S_y [/math]と説明変数[math] x_i [/math]標準偏差[math] S_i [/math]を用いて下記のようにも計算できます。

[math] \displaystyle {\beta}_i = B_i \sqrt{ \frac{S_y}{S_i} } [/math]

アヤメデータで計算

有名なiris (アヤメ)のデータで計算してみます。irisには、Sepal.Length (がく片の長さ)、Sepal.Width (がく片の幅)、Petal.Length (花弁の長さ)、Petal.Width (花弁の幅)の4つの量的変数と、Species (setosa、versicolor、virginica の3種類)という質的変数が含まれています。

ここでは Sepal.LengthをSepal.Width、Petal.Length、Petal.Widthで重回帰してみます。結果は下記の通りで、どの項も有意であることが分かります。

f:id:OceanOne:20211015020745p:plain

上記の解析結果について標準偏回帰係数の大きさ順にソートした結果を下記に示します。A=Sepal.Width、B=Petal.Length、C=Petal.Widthです。この場合の変数のふり幅の範囲内ではSepal.Length (がく片の長さ)が最も影響が大きいことがわかります。

f:id:OceanOne:20211015020926p:plain

ちなみに回帰係数の有意差検定結果を検定統計量でソートすると下記のようになり、標準偏回帰係数の場合とは違った見え方になります。点線は有意水準5%の境界です。応答への影響度と(実験範囲内での)依存性の確からしさは異なるということです。

f:id:OceanOne:20211016014519p:plain

まとめ

標準編回帰係数について、こちらのツールに実装してみました。