Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(1)- IQR

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。

 

IQR(四分位範囲)

外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。

[math] \displaystyle IQR = x_{75\%} - x_{25\%} [/math]

箱ひげ図(Boxplot)において箱の上端は第三四分位数、下端は第一四分位数なので、IQRとは視覚的には箱ひげ図の箱の長さです。

IQRから標準偏差の推定

IQRは標準偏差=1の正規分布において1.3489となります。このためIQRを1.3489で割った(0.7413をかけた)Normalized IQR(NIQR)が定義され、外れ値に影響を受けにくい標準偏差の推定値となります。

[math] \displaystyle NIQR = IQR \div 1.3489 [/math]
[math] \displaystyle NIQR = 0.7413 \times IQR [/math]

IQRから標準偏差の推定補正

IQRから標準偏差を推定できると前節で書きましたが、特に少数のサンプルサイズによって見積もり精度に偏りが生じます。

例えば平均=0、標準偏差=1の正規分布に従う乱数から生成したデータについて、NIQRを計算したのが下記です。横軸はサンプルサイズで1000回試行の結果です。標準偏差=1なので、縦軸は1が正解ですがサンプルサイズによってバラついているのが分かります。

対象データを正規分布と仮定すると補正値が提案されており[1]、下記形式で補正を[math] \displaystyle d_n [/math]と置いて、下記のような数値となります。

[math] \displaystyle \hat{\sigma} = \frac{\overline{IQR}}{d_n} [/math]

補正結果は下記のようになり、元々の標準偏差=1に綺麗に近づいています。ズレ分を補正しただけなので当然なのですが、ノンパラメトリックな要約量の場合、少数サンプルの偏りが大きめ出たり小さめに出たりとと注意が必要です。実務上で、本事例で困ったことはないですが。。。

まとめ

四分位偏差(IQR)から標準偏差を推定する場合の補正値について述べました。今回も、こちらのツールに実装しています、Menu > Open File (Normality Test)などで読み込むと他の統計値と一緒に計算します。

[1] Transformation and normalization of oligonucleotide microarray data, Sue C. Geller, Jeff P. Gregg, Paul Hagerman, David M. Rocke Bioinformatics, Volume 19, Issue 14, 22 September 2003, Pages 1817–1823,