Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ステップワイズ法

中心複合計画(Central Composite Design, CCD)Box-Behnken計画(Box-Behnken Design, BBD) などで作成した計画は回帰分析により解析を行います。計画に用いた変数のうち応答に影響を与える変数を逐次求めるステップワイズ法を説明します。

回帰分析における変数選択法

重回帰分析において変数選択を行う古典的な方法としては下記の三つがあります。

(1) 強制投入法(force entry)
(2) 総当たり法(all possible subset)
(3) ステップワイズ法(step wise)

強制投入法は説明変数の候補を強制的に全て使用します。例え回帰係数が有意でなくとも、物理モデルから影響を与えることが明らかならば強制的に説明変数に加えたほうが良い場合があります。

総当たり法は全ての組み合わせを試して最も良く応答を説明できる説明変数の組み合わせを選択します。デメリットは計算時間ですが、最近はよほど大規模な解析でない限りあまり気にしなくても良いかも知れません。

ステップワイズ法が今回説明する手法です。一つずつ加えたり、減らしたりすることで逐次的に必要な説明変数を選択します。

ステップワイズ法

一口にステップワイズ法と言っても、説明変数ゼロから一つずつ加えていく増加法、逆に候補となる全説明変数を用いた回帰モデルからスタートして一つずつ減らしていく減少法があります。それぞれ評価値が最小(最大)になる組み合わせを探索します。

f:id:OceanOne:20210325003112p:plain:h150
Fig.1 増加法のイメージ
f:id:OceanOne:20210325003344p:plain:h150
Fig.2 減少法のイメージ

さらに各ステップで増減どちらも認める方法もあり、同じく説明変数ゼロから始めるものを増減法、全説明変数から始めるものを減増法と呼びます。

まとめると下記のような4通りのフローとなります。

(1) 増加法(forward inclusion)
(2) 減少法(backward elimination)
(3) 増減法(forward-backword stepwise)
(4) 減増法(backword-forward stepwise)

通常ステップワイズ法と呼ぶ場合は増減法や減増法を指す場合が多いです。

ステップワイズ法の評価指標

AIC (Akaike's Information Criterion) [1]

多項式近似を行うとパラメータ数が多いほど適合度(フィッティング精度)は上がりますが、過適合(overfitting)になる可能性があります。パラメータ数と適合度のバランスをとる指標にAIC (Akaike's Information Criterion)があります。具体的にはAICを最小化すれば良いモデルが得られます。

[math] \displaystyle AIC = n{\mathrm{ln}} (\frac{S_E}{n}) + 2k + n{\mathrm{ln}} (2\pi) [/math]

いくつか流儀があって、右辺第三項は定数項なので省いて下記で計算する場合もあります。

[math] \displaystyle AIC = n{\mathrm{ln}} (\frac{S_E}{n}) + 2k [/math]

◆c-AIC (correction of AIC) [2]

AICについて小標本の場合の修正を行ったものがc-AICです。

[math] \displaystyle AIC = n{\mathrm{ln}} (\frac{S_E}{n}) + 2 \frac {nk}{n-k-1} [/math]

BIC (Bayesian Information Criterion) [3]

AICと同様に最小化すれば良いモデルが得られます。

[math] \displaystyle BIC = n{\mathrm{ln}}(\frac{S_E}{n}) + k{\mathrm{ln}} ({n}) [/math]

◆HQC (Hannan–Quinn information) [4]

HQCなんてのもあるようです、AICBICより変数が選択されやすいです。

[math] \displaystyle HQC = n{\mathrm{ln}}(\frac{S_E}{n}) + 2k{\mathrm{ln}} ( {\mathrm{ln}} ({n}) ) [/math]

◆MallowsのCp (Mallows’s Cp) [5]

AICと同様に最小化すれば良いモデルが得られます。[math] \displaystyle MSE_A [/math](Mean Squared Error )は全説明変数を用いて回帰分析を行ったときの誤差の二乗平均、[math] \displaystyle SSE [/math](Sum of squared errors )は誤差の二乗和です。

[math] \displaystyle C_p = \frac{SSE}{MSE_A} - n + 2k [/math]


この他、偏回帰係数のP値の基づいて変数選択を行う場合もあります。

ステップワイズ法による変数選択例

下記のようなデータをモチーフにAICで変数選択してみます。

f:id:OceanOne:20210325010304p:plain:h250

AICを評価指標とした増加法では下記のようになります。

f:id:OceanOne:20210325010427p:plain:w150

AICを評価指標とした減少法では下記のようになります。

f:id:OceanOne:20210325011040p:plain:w150

ステップワイズ法の問題点

ステップワイズ法を行うと変数が客観的かつ自動的に選択されます。しかし、ある基準に基づいて自動的に説明変数が選択されるため万能ではありません。物理モデルの観点からは有意でなくとも必要な変数が除外されたり、不要な変数が取り込まれたりする危険性があります。この辺りの判断が出来る人材がエンジニアになると思います。機械的な取捨選択には、技術的な視点を持ったサポートが重要で、解析精度を上げるためには必要不可欠だと思います。

まとめ

回帰分析のためのステップワイズ法を説明しました。機械学習も発展していますが、外挿領域だと非線形なモデルは危なくて使えません。線形モデルベースで議論する上では、どこまで行っても回帰分析の基礎は重要ではないかと思います。そんな文脈で古典的なステップワイズ法でした。

[1] Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. In B. N. Petrov & F. Csaki (Eds.), Second international symposium on information theory. Budapest: Akademiai Kiado.
[2] Hurvich, C. M., & Tsai, C. L. (1989). Regression and time series model selection in small samples. Biometrika, 72(2), 297-307.
[3] Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461-464.
[4] Hannon, E. J., & Quinn, B. G. (1979). The determination of the order of an autoregression. Journal of the Royal Statistical Society, Series B, 41(2), 190-195.
[5] Mallows, C. L. (1973). “Some Comments on CP”. Technometrics 15 (4): 661–675. doi:10.2307/1267380. JSTOR 1267380.