Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

内挿と外挿

内挿(interpolation)と外挿(extrapolation)について書きます。エンジニアをやっていると製品性能を推定する場面に出くわすことが多いです。この場合行っている事は、状況証拠を入力変数とし、自身の経験から構築したモデル式にこれを入力することによって予測することです。経験から構築したモデルではなく理論的な解析式だという場合もあると思います。その場合でも理論式を導出する場合に何かしら仮定を置いていたりして、実際は多かれ少なかれ想定外の因子があると思います。そういう意味ではどこまで行っても経験式、或いは経験的なモデル式なのだと思います。

内挿と外挿

内挿はデータ点より内側にある点の予測、外挿は外側への予測です。当然外挿の方が精度が低いです。単回帰を例に可視化してみます。

回帰分析を例に

回帰分析を行った場合、回帰直線と共に回帰直線の信頼区間が得られます。得られた実験データに対して推定された回帰直線が、例えば「95%の確率でどの範囲にいるか」を示しているのが信頼区間になり、下図においてピンク色線で等高線図を示したものになります。この例で信頼区間の等高線は、90%、99%、99.9%、99.99%、99.999%、99.9999%に引いています。

f:id:OceanOne:20200816040730p:plain:w400

上述のデータと同じものを用いていますが、横軸の範囲を3倍まで広げると下記のようになります。最初のグラフではモデル式と実測値の乖離は(内挿の範囲内なので)小さく、回帰式で推定することに問題はなさそうですが、推定範囲を広げて実測値がない(外挿)範囲の応答が正しく見積もれるかというとかなり怪しいです。

f:id:OceanOne:20210214024535p:plain:w400

このように推定を行う場合、実測値の範囲内に予測したい範囲が収まっているかは重要です。実測値の範囲内でも、ギリギリの端領域だと推定精度は落ちてしまいいます。

まとめ

回帰式の信頼区間を例に内挿と外挿のイメージを書いてみました。良いデータ例のイメージがなかったので今回は触れませんでしたが、非線形な事象の場合、外挿の問題はかなり深刻です。非線形に外挿を行うなら、すくなくとも多項式フィッティングではなく何らかの物理モデルに基づいた予測式を用いるべきだと思っています。機械学習なども予測式を作る場合は同様なので、そういう領域の判断にエンジニアの必要性があるはずです。良い例が思い浮かんだらまた記事を書いてみます。