Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(6)- 一様分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分布でサンプルサイズを変化させて応答を見てみます。自習です。

 

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較

範囲[0,1]に分布する一様分布に従う乱数から生成したデータについて、標準偏差、IQR(unbiased)、MAD(unbiased)、[math] \displaystyle S_n [/math][math] \displaystyle Q_n [/math]、及び標準偏差以外の4手法の平均値を比較してみます。横軸は手法で1000回試行の結果です。一様分布の分散は[math] \displaystyle \frac{1}{12} [/math]なので標準偏差=0.288675135 が期待値です。

まずN=4、5、6の結果です。やはり外れ値がないの場合なので、最尤推定となる標準偏差が推定精度が高いです。それ以外では、IQRが暴れていますね。

次いでN=10、20の結果です。N数が多くなるのと顕著ですが、標準偏差の推定結果からは[math] \displaystyle Q_n [/math]以外はズレが大きく、かつ[math] \displaystyle Q_n [/math]のバラツキが小さいです。[math] \displaystyle Q_n [/math]標準偏差の代替として有効そうです。

まとめ

IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]を一様分布に従う乱数で比較してみました。一様分布の場合、[math] \displaystyle Q_n [/math]標準偏差の上位互換に見えます。ただし前回も言った通り、実務上は標準偏差以外の手法は外れ値にロバストになりますが、どれを使っても大差ないと思われます。

[1] Rousseeuw, P. J. and Croux, C. (1993), “Alternatives to the Median Absolute Deviation,” Journal of the American Statistical Association, 88, 1273–1283.