共分散と相関係数
(そういえば書いていなかったので)相関係数について書きます。相関係数は共分散の改良版です。まずは共分散から入り、相関係数を説明します。
共分散から相関係数
(xi,yi)のデータ群があった時、共分散は下記のように定義されます。
ただし、xiとyiの平均をそれぞれ下記とします。
共分散の意味する所ですが、1/nを無視すると下記のようなデータ点列をn次元のベクトルと見た時の内積の形になっていることがわかります。
内積の公式から
このときの左辺が相関係数の定義になります。元のxi、yiの形式に焼きなおすと
内積の式から右辺がcosθであることを考えると、相関係数の値域は-1~+1で、n次元ベクトルXとYが並行で向きが同じ場合に+1、向きが逆の場合-1、直行している場合0になることがわかります。
さらに分子、分母を1/nで割ると
xiとyiに関する分散を下記のように置くと
と簡潔に表すことが出来ます。
相関係数について分母の割り算を、分子の各xi、yiの割り算に対応付けると次のようになります。
相関係数はxi、yiについて、それぞれ平均を差し引き、分散の平方根で割ることで平均0、分散1に正規化して計算した共分散と見なすことも出来ます。逆に言えば、共分散は元の変数の分散(スケール)の大きさに依存するが、相関係数はスケールに依存せず相関の強さを-1~+1で表せるように規格化したメトリックとも捉えられます。
まとめ
相関係数について、自分が一番しっくりくる、多次元ベクトルの内積のイメージを書きました。
一般的に相関係数といえば本稿で説明したものですが、これはピアソン(Pearson)の積率相関係数とも呼ばれます。ピアソンの積率相関係数と区別して、ノンパラメトリックなスピアマン(Spearman)の順位相関係数とケンドール(Kendall)の順位相関係数もあります。これらは追って。