Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

Kruskal-Wallis検定

一元配置分散分析に対応するノンパラメトリック検定としてKruskal-Wallis検定があります。実務でも良く使う手法だと思います。が、これまで記事中で触れた事はあるのですが記事にしていないことに気づきました。ということで、Kruskal-Wallis検定です。

Kruskal-Wallis検定でわかる事

Kruskal-Wallis(クラスカル・ウォリス)検定は、3つ以上のグループ間に差があるかどうかを知りたい時に用いるノンパラメトリック検定です。一元配置分散分析が3つ以上の水準の平均の差を検定するのに対し、Kruskal-Wallis検定は3つ以上の水準の中央値の差を検定します。なので、分散分析と同じくP値が有意だった場合言えることは、どれか一つ以上の水準に差がある、ということです。

Kruskal-Wallis検定

Kruskal-Wallis検定では水準を無視して全てのデータからなる集合に対して順位付けを行います。そして、この順位を各郡ごとに足して。[math] \displaystyle R_i [/math]を計算します。データ総数を[math] \displaystyle N [/math]、水準数を[math] \displaystyle k [/math]として、検定統計量[math] \displaystyle H [/math]は下記のように計算されます。

[math] \displaystyle H =\frac {12}{N(N+1)} \sum_{i=1}^{k}{ \frac{ {R_i}^2 }{n_i} } - 3(N+1) [/math]

データ間で同順位がある場合には、次のように調整された検定統計量が提案されています。同順位のデータには平均順位を与え、[math] \displaystyle l [/math]は同順位の組の個数、[math] \displaystyle t_j [/math]は同順位の組の中でのデータ数です。

[math] \displaystyle H =\frac {\frac {12}{N(N+1)} \sum_{i=1}^{k}{ \frac{ {R_i}^2 }{n_i} } - 3(N+1) }{1-\frac{\sum_{j=1}^{l}{ {t_j}^3-{t_j} }}{N^3-N} } [/math]

まとめ

Kruskal-Wallis検定の計算方法について述べました。今回も、こちらのツールに実装しています。メニューバーからOpen File(Q-Q plot)やOpen File(Box plot)で各可視化結果と共に検定結果を確認できます。