Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(7)- 指数分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動をここ で、確認しました。念押しで、今回は指数分布でサンプルサイズを変化させて応答を見てみます。自習です、業務上で使う上で対象分布の違いによる応答を押さえておきたい。

 

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較

範囲[0,1]に分布する一様分布に従う乱数から生成したデータについて、標準偏差、IQR(unbiased)、MAD(unbiased)、[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]、及び標準偏差以外の4手法の平均値を比較してみます。横軸は手法で1000回試行の結果です。

指数分布は下記です。

[math] \displaystyle f(x) = \lambda e^{-\lambda x } [/math]

指数分布の分散は[math] \displaystyle \lambda [/math]なので[math] \displaystyle \lambda = 1 [/math]標準偏差=1 が期待値です。

まずN=4、5、6の結果です。標準偏差以外のノンパラメトリックな手法は低めに出るようです。ノンパラ系のなかでもIQR以外は、やや外れ値が少ないか。

次いでN=10、20の結果です。N数が多くなるのと顕著ですが、標準偏差以外のノンパラメトリックな手法は標準偏差が低めに出るようです。N数が小さい場合は影響小さいですが、N数が増えるとさらに低下していくようです。

まとめ

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]を指数分布に従う乱数で比較してみました。指数分布の場合、標準偏差に対してノンパラメトリックな手法から推定した標準偏差は値が低めに出るようです。ただし特殊なケースなので、実務上は標準偏差以外の手法は外れ値にロバストになり、どれを使っても大差ないと思われます。

[1] Rousseeuw, P. J. and Croux, C. (1993), “Alternatives to the Median Absolute Deviation,” Journal of the American Statistical Association, 88, 1273–1283.