Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量(2)- MAD

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。

 

範囲(Range)と偏差(deviation)

本題に入る前に統計学における範囲(Range)と偏差(deviation)について説明します。

まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は信用できません。通常はある程度クリーニングされたデータに対して、レンジでこれくらいだなと感覚的にデータバラツキを把握できます。何よりの利点は、明確に”どこから~どこまで変動する”か教えてくれる点です。エクセルでは=RANGE()です。

[math] \displaystyle Range = Max_i - Min_i [/math]

次に、偏差はある基準点からの差、そして差の絶対値を絶対偏差と呼びます。通常基準点は、正規分布を仮定して母集団の平均値とするので、平均値からの差分が代表的なものになります。

[math] \displaystyle Deviation = x_i - \mu [/math]

偏差はデータ群の一つ一つに対して定まるので、データ群に対しては絶対偏差の平均をとった平均絶対偏差(Mean Absolute Deviation)などが定義されます。エクセルで平均偏差は=AVEDEV()です。

[math] \displaystyle MeanAD = \frac{1}{n}\sum_{i=1}^{n}{ | x_i - \mu | } [/math]

やや紛らわしいですが"平均値からの絶対偏差の平均値(平均絶対偏差、Mean Absolute Deviation)"と"中央値からの絶対偏差の中央値(中央絶対偏差、Median Absolute Deviation)=MAD"があります。ロバストな推定量という文脈では後者が当てはまります。

[math] \displaystyle MedianAD = Median{ | x_i - Median(X) | } [/math]

MADから標準偏差の推定

MADは標準偏差=1の正規分布において1/1.4826となります。このためMADに1.4826をかけたNormalized MAD(NMAD)が定義され、外れ値に影響を受けにくい標準偏差の推定値となります。

[math] \displaystyle NMAD = 1.4826 \times MAD [/math]

MADから標準偏差の推定補正

MADからの標準偏差推定ですが、IQRと同様に少数のサンプルサイズによって見積もり精度に偏りが生じます。

例えば平均=0、標準偏差=1の正規分布に従う乱数から生成したデータについて、NMADを計算したのが下記です。横軸はサンプルサイズで1000回試行の結果です。標準偏差=1なので、縦軸は1が正解ですがサンプルサイズによってバラついているのが分かります。

対象データを正規分布と仮定した場合Christophe CrouxとPeter J. Rousseeuwより補正値が提案されています[1]。下記形式で補正値を[math] \displaystyle b_n [/math]と置いて、下記のような数値となります。

[math] \displaystyle \hat{\sigma} = {b_n} \times {\overline{NMAD}} [/math]

[math] \displaystyle n \gt 9 [/math]の場合は、

[math] \displaystyle b_n= \frac{n}{n-0.8} [/math]

補正結果は下記のようになり、元々の標準偏差=1に綺麗に近づいています。

まとめ

MADから標準偏差を推定する場合の補正値について述べました。今回も、こちらのツールに実装しています、Menu > Open File (Normality Test)などで読み込むと他の統計値と一緒に計算します。

[1] Croux, Christophe, and Peter J. Rousseeuw. “Time-efficient algorithms for two highly robust estimators of scale.“In Computational statistics, pp. 411-428. Physica, Heidelberg, 1992.