Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

外れ値(1)ー Smirnoff-Grubbs検定

外れ値検定について書きます。得られたデータの飛び値が外れ値なのかどうかは、よく検討課題になります。統計検定では主観を交えず数値として結果を得ることが出来ます。盲目的に検定結果を懐に携えておくと、実験計画を立てた時の思い入れを跳ねのける力を少しだけくれます。

Smirnoff-Grubbs検定

[math] \bar{x} [/math]を標本平均、[math] \displaystyle {\sigma}^2 [/math]を各郡の不偏分散とします。

[math] \displaystyle \frac {| x - \bar{x} |}{\sigma} [/math]

Smirnoff-Grubbs検定では帰無仮説は全てのデータが同じ母集団に属するとして、最大値と最小値のうち上記統計量が最も大きい方について検定を行います。上記の統計量に対し、Smirnof-Grubbs検定では検定の有意水準[math] \displaystyle \alpha [/math]とした時、自由度[math] \displaystyle n-2 [/math][math] t [/math]分布から[math] \displaystyle t_{{\alpha}/n} [/math]を算出して下記統計量より大きい場合に有意とします。

[math] \displaystyle \frac {(n-1)t_{{\alpha}/n} } { \sqrt{n(n-2) +n {t_{{\alpha}/n}}^2} } [/math]

検定例

平均0、標準偏差1の正規分布乱数を299個用意し、1点を3~4の範囲/0.1stepで加えたデータにSmirnoff-Grubbs検定を適用、P値=0.05で有意 の場合データ削除を行った結果が下記です。

f:id:OceanOne:20200806031221p:plain:w500

×プロットは箱ひげ図の外れ値基準(Q1/3からIQR*1.5より離れている)での表示でデータから削除されていません。3.95より離れた2条件ではSmirnoff-Grubbs検定によりデータ削除されて×プロットにも表示されていない結果です。

次の例は有名なアヤメ(iris)データのがく片の長さ(sepal length)を品種ごとに正規確率プロットした結果です。

f:id:OceanOne:20200806032501p:plain:w400

この例に通常のSmirnoff-Grubbs検定を適用した場合、P値<0.05では有意ではないので、平均値の代わりに中央値、標準偏差の代わりにNIQRを用いたSmirnoff-Grubbs検定結果が下記です。

f:id:OceanOne:20200806032625p:plain:w400

紫の品種(virginica)で一部データが除外されています。

まとめ

Smirnoff-Grubbs検定を実装して解析例を見てみました。私自身はやむを得ない理由でサンプル数の少ない実験を行う機会が多いです。そのような場合は外れ値とバラツキの考察にある程度時間を割かれてしまいます。主観が入らない結果を一つの意見として持っておくのは有用だと思っています。実装結果のツールはこちらに置いています。