Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(4)- [math] \displaystyle Q_n [/math]

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。ここではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]も紹介しました。今回も同じくRousseeuwとCrouxら[1]によって提案された[math] \displaystyle Q_n [/math]を紹介します。

 

RousseeuwとCrouxの[math] \displaystyle Q_n [/math]

MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[math] \displaystyle S_n [/math]は次のとおりです。

[math] \displaystyle Q_n = 2.2191 \times \lbrace | x_i - x_j |; i \lt j \rbrace _{(k)} [/math]
[math] \displaystyle k = \left( \begin{array}{c} [\frac{n}{2}]+1 \\ 2 \end{array} \right) [/math]

2.2191の数値は原著論文では2.2219となっていますが、これはタイポのようです

本来であれば下記計算で、[math] \displaystyle \phi^{-1} [/math]正規分布の累積密度関数の逆関数です。

[math] \displaystyle d = \frac{1}{\sqrt{2}\phi^{-1}{(5/8)}} = 2.219144465985075864722 [/math]


[math] \displaystyle Q_n [/math]についても、やはり少数サンプルで見積もり精度に偏りが生じます。

対象データを正規分布と仮定した場合Christophe CrouxとPeter J. Rousseeuwより補正値が提案されています[1]。下記形式で補正値を[math] \displaystyle c\_{qn} [/math]と置いて、下記のような数値となります。

[math] \displaystyle \hat{\sigma} = {c_{qn}} \times S_n [/math]

[math] \displaystyle n \gt 9 [/math]では

奇数の場合、

[math] \displaystyle b_n= \frac{n}{n+1.4} [/math]

偶数の場合、

[math] \displaystyle b_n= \frac{n}{n+3.8} [/math]

です。

例えば平均=0、標準偏差=1の正規分布に従う乱数から生成したデータについて、Snを計算したのが下記です。横軸はサンプルサイズで1000回試行の結果です。標準偏差=1なので、縦軸は1が正解ですがサンプルサイズによってバラついているのが分かります。

補正結果は下記のようになり、元々の標準偏差=1に綺麗に漸近しています。自作コードなのですが、合ってそうです。

まとめ

RousseeuwとCrouxの[math] \displaystyle Q_n [/math]について標準偏差の推定ついて述べました。今回も、こちらのツールに実装しています、Menu > Open File (Normality Test)などで読み込むと他の統計値と一緒に計算します。

[1] Rousseeuw, P. J. and Croux, C. (1993), “Alternatives to the Median Absolute Deviation,” Journal of the American Statistical Association, 88, 1273–1283.