Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(5)- 正規分布で比較

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]も紹介してきました。今回はサンプルサイズを変化させて応答を見てみます。

 

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較

平均=0、標準偏差=1の正規分布に従う乱数から生成したデータについて、標準偏差、IQR(unbiased)、MAD(unbiased)、[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]、及び標準偏差以外の4手法の平均値を比較してみます。横軸は手法で1000回試行の結果です。標準偏差=1なので、縦軸は1が正解です。

まずN=4、5、6の結果です。やはり外れ値がないの場合なので、最尤推定となる標準偏差が推定精度が高いです。それ以外では、N=4ではIQR以外の推定精度が高く、改良されている感があります。でも、そこまで変わりません?

次いでN=10、20の結果です。N数が多くなると標準偏差以外では、ノンパラメトリック手法間の平均を取るとバラツキが小さめになっているようには見えます。N=4~20の全般的に[math] \displaystyle Q_n [/math]がバラツキ小さく見えます。

まとめ

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]正規分布に従う乱数で比較してみました。僅かな差ですが、新たに開発された手法の方が推定精度は高そうです。ただし、実務上は標準偏差以外の手法は外れ値にロバストになりますが、どれを使っても大差ないと思われます。

[1] Rousseeuw, P. J. and Croux, C. (1993), “Alternatives to the Median Absolute Deviation,” Journal of the American Statistical Association, 88, 1273–1283.