Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

2標本におけるバラツキの差の検定(3)

2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。正規分布に従う乱数で、外れ値を含めてみます。正規確率プロットで比較してみます。

手法と配色は下記の通りです。

f:id:OceanOne:20220130002347p:plain

正規分布で外れ値混入率を変化させて比較

サンプル数10の2群データについて、標準偏差1.0と2.0正規乱数に従う1000回試行での結果が下記です。固定値100の外れ値混入率を変化させています。

f:id:OceanOne:20220211022257p:plain:h400
Fig.1 外れ値混入率=0.0%
f:id:OceanOne:20220211022412p:plain:h400
Fig.2 外れ値混入率=0.5%
f:id:OceanOne:20220211022517p:plain:h400
Fig.3 外れ値混入率=1.0%
f:id:OceanOne:20220211022741p:plain:h400
Fig.4 外れ値混入率=5.0%
f:id:OceanOne:20220211022842p:plain:h400
Fig.5 外れ値混入率=10.0%

f:id:OceanOne:20220211022257p:plainf:id:OceanOne:20220211022412p:plainf:id:OceanOne:20220211022517p:plainf:id:OceanOne:20220211022741p:plainf:id:OceanOne:20220211022842p:plain
Fig.6 外れ値混入率=0.0~10.0%の比較

こうしてみるとF検定などは正規確率プロット上は不連続になっていて、外れ値が入った瞬間にP値が大きくなっていそうです。F検定やSukhatme検定は不自然にP値が小さく、外れ値に騙されて有意になっていそうですね。でも、この比較はちょっとよくわからないかも。。。

正規分布で外れ値の大きさを変化させて比較

今度はサンプル数10の2群データについて、標準偏差1.0と2.0正規乱数に従う1000回試行までは前節と同様で、標準偏差1.0の方のデータに一点だけ外れ値を混入、外れ値の大きさを変化させてみます。

f:id:OceanOne:20220211022257p:plain:h400
Fig.7 外れ値なし
f:id:OceanOne:20220211235708p:plain:h400
Fig.8 外れ値=10
f:id:OceanOne:20220211235845p:plain:h400
Fig.9 外れ値=100

f:id:OceanOne:20220201012324p:plainf:id:OceanOne:20220211235708p:plainf:id:OceanOne:20220211235845p:plain
Fig.10 外れ値=なし、10、100

今回もF検定やSukhatme検定は不自然にP値が小さく、外れ値に騙されて有意になっていそうです。しかも標準偏差が小さい群に外れ値を混入したのですが、標準偏差が小さい群がバラツキが大きいと受け取る人もいるかもしれません。

まとめ

F検定、Mood検定、Klots検定、Savege検定、Siegel-Tukey検定、Ansari-Bradley検定、Sukhatme検定については、こちらのツールに実装しています。今回の比較では、F検定、Sukhatme検定あたりに差が出ました。F検定はともかく、Sukhatme検定も意外と外れ値に敏感なんですね。。。