Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ロバストZスコア

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、おなじみの偏差値になります。

通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。

(通常の)Zスコア

平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行うと次式になります。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - \bar{X})}{\sigma} [/math]

ロバストZスコア

平均のかわりに中央値(median)を、標準偏差の代わりに正規四分位範囲(Nomralized Interquartile Range, IQR)を用いた正規化です。

得られているデータ[math] X_i [/math]に対して

[math] X_i = \displaystyle\frac{(X_i - median)}{NIQR} [/math]

中央値(median)を用いる利点は、外れ値/異常値の影響を受けない点に加え、分布の形にも影響を受けない点です。NIQRに関しては外れ値/異常値の影響を受けない点は同様ですが、正規分布を仮定した調整を行っており、前提は正規分布になります

寡聞にして存じ上げないのですが、中央値の代わりにトリム平均を使用する、NIQRの代わりに中央絶対偏差(Median Absolute Deviation, MAD)を用いることも出来ると思います。簡単なのに比較した結果は見かけません。今度やってみようと思います。

まとめ

データの正規化はデータ解析の前処理の一つになります。計算機上はスケールの異なるデータを比較する上での、情報落ちの標準化の意味合いもあると思います。その他いくつかの検定では前処理として正規化を行うものもあるので、検定手法の頑健性改善も検討可能性がありそう。やはり寡聞にして聞かないので、今度試してみます。