Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。

範囲と偏差

本題に入る前に統計学における範囲(Rangeと偏差(deviation)について説明します。

まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は信用できません。通常はある程度クリーニングされたデータに対して、レンジでこれくらいだなと感覚的にデータバラツキを把握できます。何よりの利点は、明確に”どこから~どこまで変動する”か教えてくれる点だと思います。エクセルでは=RANGE()です。

f:id:OceanOne:20200413144618j:plain

次に、偏差はある基準点からの差、そして差の絶対値を絶対偏差と呼びます。通常基準点は正規分布を仮定して母集団の平均値とするので、平均値からの差分が代表的なものになります。

f:id:OceanOne:20200413144916j:plain

偏差はデータ群の一つ一つに対して定まるので、データ群に対しては絶対偏差の平均をとった平均絶対偏差(Mean Absolute Deviation)などが定義されます。エクセルで平均偏差は=AVEDEV()です。

f:id:OceanOne:20200413145127j:plain

正規分布においては分散の最尤推定から導かれる分散の不偏推定量平方根は、標準偏差(=STDEV())になります。この文脈で説明するとなぜ標準"偏差"という名前なのか理解できると思います。

f:id:OceanOne:20200413145141j:plain

IQR(四分位範囲)

範囲と偏差は外れ値の影響を受けやすいものでした。外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。IQRは箱ひげ図(Boxplot)の箱の長さにあたります。

f:id:OceanOne:20200413145510j:plain

IQRは標準偏差=1の標準偏差において1.3489、このためIQRを1.3489で割った(0.7413をかけた)Normalized IQR(NIQR)も実用上から定義されています。

f:id:OceanOne:20200413145526j:plain

Median Absolute Deviation

やや紛らわしいのですが"平均値からの絶対偏差の平均値(平均絶対偏差、Mean Absolute Deviation)"と"中央値からの絶対偏差の中央値(中央絶対偏差、Median Absolute Deviation)"があります。ロバストな推定量という文脈では後者が当てはまります。

f:id:OceanOne:20200413145540j:plain

Median Absolute Deviationの場合は標準偏差との相対関係は1.4826xMedianAD(NMAD, Normailized MAD)です。

f:id:OceanOne:20200413145627j:plain

まとめ

今回はロバスト(ノンパラメトリック)なバラツキ要約量について説明しました。外れ値が大きい場合には今回説明した要約量が威力を発揮します。

また、本稿で紹介したものは比較的簡単なロバスト統計量です。M推定というのもありますが、複雑になってくると周囲の人々が興味を失っていくのが辛い所です。