Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ロバストZスコア(2)

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。

通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。

(通常の)Zスコア

平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - \bar{X})}{\sigma} [/math]

ロバストZスコア

平均のかわりに中央値(median)やトリム平均を、標準偏差の代わりに正規四分位範囲(Nomralized Interquartile Range, IQR)を用いた正規化です。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{NIQR} [/math]

中央値(median)を用いる利点は、外れ値/異常値の影響を受けない点に加え、分布の形にも影響を受けない点です。NIQRに関しては外れ値/異常値の影響を受けない点は同様ですが、正規分布を仮定した調整を行っており前提は正規分布になります

ここからいくつかノンパラメトリックベースでZスコアの代替を提案します。

ロバストZスコア-a

平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したunbiasedな正規四分位範囲(Unbiased Nomralized Interquartile Range, UNIQR)を用いたケース。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{UNIQR} [/math]

ロバストZスコア-b

平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したUnbiased Median Absolute Deviation(中央絶対偏差, UMAD)を用いたケース。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{UMAD} [/math]

ロバストZスコア-c

平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したRousseeuw and Croux's [math] \displaystyle S_n [/math]を用いたケース。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{S_n} [/math]

ロバストZスコア-d

平均のかわりに中央値(median)を、標準偏差の代わりに少数サンプル影響などを補正したRousseeuw and Croux's [math] \displaystyle Q_n [/math]を用いたケース。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{Q_n} [/math]

ロバストZスコアの中心位置

中心位置については、平均の他下記のようなものが考えられます。

No. 中心位置
1 average
2 median
3 trimmed mean(50%)
4 hodges-lehmann

データの中心位置を上記4種、バラツキも標準偏差含めてロバストZスコアa~dで5種、計4x5=20種について比較してみます。まずは平均=0、標準偏差=1の正規分布に従う乱数について、値=4の外れ値を1つ含めてZスコアを計算してみます。Zスコアの正解=4で1000試行になります。サンプルサイズ=10、30、100の結果が下記です。

標準偏差を用いたものは外れ値影響でバラツキが大きくZスコアが小さめに出ている一方で、Zスコア推定のバラツキは小さいです。ロバストZスコアa~dの中ではIQR=MADでZスコアの正解=4に近い結果です。データの中心位置に関しては平均以外はどれも同等だけど、今回の正規分布に従う乱数ではMedianが良さそう。結局MedianとIQRベースが最強のようです。

まとめ

ロバストZスコアに関して、色々なデータ中心位置推定値とバラツキ推定値を試してみました。結局MedianとIQRからの計算が、少なくとも正規分布に従う乱数では最強のようです。