Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(3)- [math] \displaystyle S_n [/math]

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]を紹介します。

 

RousseeuwとCrouxの[math] \displaystyle S_n [/math]

MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[math] \displaystyle S_n [/math]は次のとおりです。

[math] \displaystyle S_n = 1.1926 \times med_i ( med_j(| x_i - x_j |)) [/math]

[math] \displaystyle S_n [/math]も少数サンプルで見積もり精度に偏りが生じます。

対象データを正規分布と仮定した場合Christophe CrouxとPeter J. Rousseeuwより補正値が提案されています[1]。下記形式で補正値を[math] \displaystyle c\_{sn} [/math]と置いて、下記のような数値となります。

[math] \displaystyle \hat{\sigma} = {c_{sn}} \times S_n [/math]

[math] \displaystyle n \gt 9 [/math]の場合は、

[math] \displaystyle b_n= \frac{n}{n-0.9} [/math]

です。

例えば平均=0、標準偏差=1の正規分布に従う乱数から生成したデータについて、Snを計算したのが下記です。横軸はサンプルサイズで1000回試行の結果です。標準偏差=1なので、縦軸は1が正解ですがサンプルサイズによってバラついているのが分かります。

補正結果は下記のようになり、元々の標準偏差=1に綺麗に近づいています。

まとめ

RousseeuwとCrouxの[math] \displaystyle S_n [/math]について標準偏差の推定ついて述べました。今回も、こちらのツールに実装しています、Menu > Open File (Normality Test)などで読み込むと他の統計値と一緒に計算します。

[1] Rousseeuw, P. J. and Croux, C. (1993), “Alternatives to the Median Absolute Deviation,” Journal of the American Statistical Association, 88, 1273–1283.