Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

多重比較検定(2)- Games-Howell

Tukey-Kramerと同じように全ての対比較を同時に検定するための多重比較検定、Games-Howellの方法を紹介します。

Games-Howellの方法

Tukey-Kramerでは各郡の母分散は等しいことが前提でしたが、Games-Howellの場合は母分散には制限はありません。適応範囲が広く頑健ですが、検出力が低い(本当は差があるのにないと判断される可能性が高い)検定だそうです。とはいえ、実務上は等分散の仮定がなく頑健であることの方がメリットが高いと感じます。Games-Howellはwelchの統計量に基づく検定です。

  1. 群の数を[math] a [/math]、各群のデータ数を[math] n_i [/math]、全データ数を[math] N [/math]とする
  2. それぞれの群ごとに平均値[math]\bar{x_i}[/math]と分散[math] {\sigma}_i[/math]を計算
  3. 各対比較毎の自由度[math] \phi_{ij} [/math]を計算
  4. [math] \phi_E=\displaystyle \frac{ { (\frac{\sigma_i}{n_i}+\frac{\sigma_j}{n_j}) }^2 }{ \frac{ {\sigma_i}^2 }{{n_i}^2(n_i-1)} + \frac{{\sigma_j}^2}{{n_j}^2(n_j-1)} } [/math]
  5. 統計量[math] t_{ij} [/math]を計算
  6. [math] t_{ij}= \displaystyle \frac{|\bar{x_i}-\bar{x_j}|}{ \sqrt{(\frac{{\sigma}_i}{n_i}+\frac{{\sigma}_j}{n_j})} } \times \sqrt{2} [/math]
  7. スチューデント化された範囲の[math] \alpha [/math] %点 [math] q(a, \phi_{ij}, \alpha) [/math]より有意差判定

Tukery-Kramerの方法とGames-Howellの方法の違い

Tukey-Kramerの方法は下記のように計算します。

  1. 群の数を[math] a [/math]、各群のデータ数を[math] n_i [/math]、全データ数を[math] N [/math]とする
  2. それぞれの群ごとに平均値[math]\bar{x_i}[/math]と分散[math] {\sigma}_i[/math]を計算
  3. 自由度[math] \phi_E [/math]を計算
  4. [math] \phi_E=N-a [/math]
  5. 誤差分散[math] V_E [/math]を計算
  6. [math] V_E= \displaystyle\frac{\sum_{i=1}^{a} (n_i-1) {\sigma}_i}{\phi_E} [/math]
  7. 統計量[math] t_{ij} [/math]を計算
  8. [math] t_{ij}= \displaystyle \frac{|\bar{x_i}-\bar{x_j}|}{ \sqrt{V_E(\frac{1}{n_i}+\frac{1}{n_j})} } \times \sqrt{2} [/math]
  9. スチューデント化された範囲の[math] \alpha [/math] %点 [math] q(a, \phi_E, \alpha) [/math]より有意差判定

大きな違いは統計量[math] t_{ij} [/math]を計算する時の分母で、Tukey-Kramerでは全グループのデータを使いますが、Games-Howellでは比較対象の2グループのデータしか使いません。このため、各グループの分散に違いがある場合はGames-Howellの方が精度が上がります。

Tukery-Kramerの方法とGames-Howellの方法の比較

Tukery-Kramerの方法とGames-Howellの方法の比較をしてみます。グループ数を3,4,5ととし、1番目のグループの平均値/標準偏差を1/1、残りのグループの平均値を0、標準偏差は最大2で1から群数が大きくなるにつれて線形で大きく設定しました(3グループなら1/0.5/2、4グループなら1/0.33/0.66/2)。データは乱数を用いて生成し、試行回数は1000回です。以下グラフ中ではTukery-Kramerの方法をTK、Games-Howellの方法をGHと省略します。

試行結果のP値に関する箱ひげ図を下記に示します。各グループのデータ数(N)も3、5、10と3水準試行しています。

f:id:OceanOne:20200628032646j:plain:w450
Fig.1 Tukey-KramerとGames-Howellの比較(N=3の場合)
f:id:OceanOne:20200628032701j:plain:w450
Fig.2 Tukey-KramerとGames-Howellの比較(N=5の場合)
f:id:OceanOne:20200628032943j:plain:w450
Fig.3 Tukey-KramerとGames-Howellの比較(N=10の場合)

仮定しているデータが等分散でないため、やはり基本的にはGames-Howellの方法の方がP値が低い傾向にあります。Games-Howellの方法はグループ数が増えてもP値の変動はないですが、Tukey-Kramerの方法はグループ数増加とともにGames-Howellの方法との差は開いていきます。


今度はFig.1のデータ数(N)が3のデータについて、各グループ数(3、5、10)のデータを正規確率プロット形式で比較してみます。

f:id:OceanOne:20200628034259j:plain:w450
Fig.4 Tukey-KramerとGames-Howellの比較(N=5、グループ数=3の場合)
f:id:OceanOne:20200628034412j:plain:w450
Fig.5 Tukey-KramerとGames-Howellの比較(N=5、グループ数=5の場合)
f:id:OceanOne:20200628034508j:plain:w450
Fig.6 Tukey-KramerとGames-Howellの比較(N=5、グループ数=10の場合)

基本的には先ほどの通りでGames-Howellの方法の方がP値が低いですが、個別データを見てみるとP値が0.1付近くらいからグループ数が少ないほどTukey-Kramerの方法の方がP値が低く、有意差が出やすいようです。

ここからは実務面での個人的な意見ですが、等分散かどうかもよくわからない新規の実験を毎回行うような場合には上記のような微妙な差は無視してよいように思います(誤りであればご指摘ください)。それよりも有意差の可能性を指摘してくれるGames-Howellの方法を適用したいです。有意差がない条件は忘れ去られますが、有意差が出れば再現性実験、モデル考察など次の段階に進めます。

終わりに

Tukey-Kramer法のような対比較を行う多重比較検定としてGames-Howell法を紹介しました。

Games-Howell法はこちらで実装しています。遊んでみてください。