Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

分散公式

少し唐突ですが、分散公式を書き下します(回帰分析での式変形に使います)。分散を計算する上では2通りの方法があります。下記の2式です。一つ目が通常の定義、二つ目が等価な分散公式です。

f:id:OceanOne:20200308235917j:plain

f:id:OceanOne:20200308235928j:plain

分散公式

分散公式の式変形をなるべく丁寧に追います。

f:id:OceanOne:20200309000512j:plain

まず二乗を展開します。

f:id:OceanOne:20200309000714j:plain

 

f:id:OceanOne:20200309001127j:plain

ここで第2項は平均の定義式

f:id:OceanOne:20200309001315j:plain

第3項は定数項なのでn倍されるだけです。

f:id:OceanOne:20200309001359j:plain

式を整理すると

f:id:OceanOne:20200309001425j:plain

f:id:OceanOne:20200309001442j:plain

分散公式にたどり着きます。

共分散公式

共分散にも公式があります。共分散公式もついでに追っていきます。共分散の定義式は下記です。

f:id:OceanOne:20200309001930j:plain

同様に展開して行きます。

f:id:OceanOne:20200309001952j:plain

f:id:OceanOne:20200309002007j:plain

f:id:OceanOne:20200309002047j:plain

f:id:OceanOne:20200309002102j:plain

f:id:OceanOne:20200309002117j:plain
ここで2変量の場合でなく、1変量としてyをxに置き換えれば分散公式になることは一目瞭然です。

まとめ

分散の算出は実務上ツールがやってくれることがほとんどですので、今回の式変形は実務の上で使うことはほぼないと思います。

ただし回帰分析の導出を追ったりする場合にも使うので、ご自身の理解のためには必要と思います。

また数値計算上では桁落ちの問題もあるため、分散を計算する2通りの方法は必ずしも同じ数値になりません。この辺りは実務も絡みますが、簡便な分散公式の方で使う二乗平均は大きな数値になるため桁落ちのリスクがあります。数値計算に関わる方は知っておいたほうが良いかと思います。