回帰分析と決定係数
回帰分析において決定係数R2(coefficient of determination)とはパラメータ(独立変数、説明変数、設計変数)が応答(従属変数、目的変数)をどのくらい説明できるかを表します。通常の回帰分析はR2の値を見ながら、必要な調整を行います。
決定係数については通常0~1の値をとり、1なら誤差ゼロです。線形回帰の場合は、基本的には相関係数の二乗になります。
実はちょっと困ったことに、実は決定係数の定義はいくつかあります。Tarald O. Kvalsethによれば、8種類の定義があり注意が必要とのこと*1。本稿では最も一般的と思われる決定係数の定義と、相関係数との関係を書き下します。
決定係数の定義
線形回帰の場合、モデル式
に対し
と決定係数を定義することが最も一般的なようです。データとモデル式との差分について二乗(RSS, Resisudal Sum of Squares=残差変動)をyの全変動で割り、これを1から引きます。モデル式で表せない残差が全体に対してどの程度の割合であるかを計算し、1と差分をとることでモデル式でどの程度データを説明できているか示すものです。
上式と等価な式として下記による決定係数の定義もあります。
データ平均値からの変動と、モデル式での平均値からの変動の比です。表式的にはこちらの方がわかりやすいように思います。
決定係数と相関係数
繰り返しになりますが、決定係数の定義は下記です。
右辺第2項分母は実データとモデル式の差分を二乗したものでRSS(Resisudal Sum of Squares=残差変動)とも呼ばれます。
モデル式は
ですから、下記のようになります。
回帰分析で示したように
となり、分散公式を使うと
なので
一方、決定係数定義式第2項分母は、
となり、決定係数の定義式に当てはめていくと
決定係数(R2)は、相関係数(R)の二乗となります。
もう一つの定義式
通常の回帰分析におけるもう一つ決定係数の定義は下記です。
右辺分母を変形していきます。
定義式の分母は前節と同様に
なので、定義式に代入すると
やはり決定係数(R2)は、相関係数(R)の二乗となります。
全変動、回帰変動、残差変動
決定係数の二つの定義式を並べると
分数項の分母で各々割ると
となります。
左辺は平均値からの変動(全変動)、右辺第1項はモデル式で表せた平均値からの変動(回帰変動)、右辺第2項はデータとモデル式の残差による変動(残差変動)と呼ばれます。つまり下記のようになります。
考えてみれば当たり前で、モデルで表せた分と誤差分を足すと全体になりますよ、という事です。
さいごに
今回は決定係数の定義を追って、ついでに回帰変動、残差変動について述べました。決定係数が相関係数の二乗であるというのは少し不思議な感じがします。しかし式を追うと、データをどの程度説明できているか示す指標になっていることがわかります。