ロバストZスコア(2)
データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。
通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。
(通常の)Zスコア
平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - \bar{X})}{\sigma} [/math]
ロバストZスコア
平均のかわりに中央値(median)やトリム平均を、標準偏差の代わりに正規四分位範囲(Nomralized Interquartile Range, IQR)を用いた正規化です。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - median)}{NIQR} [/math]
中央値(median)を用いる利点は、外れ値/異常値の影響を受けない点に加え、分布の形にも影響を受けない点です。NIQRに関しては外れ値/異常値の影響を受けない点は同様ですが、正規分布を仮定した調整を行っており前提は正規分布になります
ここからいくつかノンパラメトリックベースでZスコアの代替を提案します。
ロバストZスコア-a
平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したunbiasedな正規四分位範囲(Unbiased Nomralized Interquartile Range, UNIQR)を用いたケース。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - median)}{UNIQR} [/math]
ロバストZスコア-b
平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したUnbiased Median Absolute Deviation(中央絶対偏差, UMAD)を用いたケース。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - median)}{UMAD} [/math]
ロバストZスコア-c
平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したRousseeuw and Croux's [math] \displaystyle S_n [/math]を用いたケース。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - median)}{S_n} [/math]
ロバストZスコア-d
平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したRousseeuw and Croux's [math] \displaystyle Q_n [/math]を用いたケース。
得られているデータ[math] X_i [/math]に対して
[math] X_i = \displaystyle\frac{(X_i - median)}{Q_n} [/math]
ロバストZスコアの中心位置
中心位置については、平均の他下記のようなものが考えられます。
No. | 中心位置 |
---|---|
1 | average |
2 | median |
3 | trimmed mean(50%) |
4 | hodges-lehmann |
データの中心位置を上記4種、バラツキも標準偏差含めてロバストZスコアa~dで5種、計4x5=20種について比較してみます。まずは平均=0、標準偏差=1の正規分布に従う乱数について、値=4の外れ値を1つ含めてZスコアを計算してみます。Zスコアの正解=4で1000試行になります。サンプルサイズ=10、30、100の結果が下記です。
標準偏差を用いたものは外れ値影響でバラツキが大きくZスコアが小さめに出ている一方で、Zスコア推定のバラツキは小さいです。ロバストZスコアa~dの中ではIQR=MADでZスコアの正解=4に近い結果です。データの中心位置に関しては平均以外はどれも同等だけど、今回の正規分布に従う乱数ではMedianが良さそう。結局MedianとIQRベースが最強のようです。
まとめ
ロバストZスコアに関して、色々なデータ中心位置推定値とバラツキ推定値を試してみました。結局MedianとIQRからの計算が、少なくとも正規分布に従う乱数では最強のようです。