Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値が推定精度が高いですし、外れ値などに対しては中央値の方がロバストです。一長一短なので、双方の手法が存在していることを認識して、対象データの特徴に応じて使い分けるのが良いと思います。

一覧表

ひたすら比較する表にします。

Parametric Nonparametric
分布の中央値(Location) Average(平均値) Median(中央値)
分布のバラツキ(Variation)
(Scale)
Standard deviation(標準偏差) IQR(四分位範囲)
Median Absolute Deviation(中央絶対偏差)
Rousseeuw and Croux's [math] \displaystyle S_n [/math]
Rousseeuw and Croux's [math] \displaystyle Q_n [/math]
分布の偏り Skewness(歪度) Nonparametric Skew
Bowley’s measure of skewness
Kelly’s measure of skewness
分布の尖り Kurtsis(尖度)
Correlation
(相関)
Pearson’s correlation coefficient
(ピアソンの積率相関係数)

Speaman’s correlation coefficient
(スピアマンの順位相関係数)

Kendall’s correlation coefficient
(ケンドールの順位相関係数)

Hoeffding's D
Distance correlation
MIC(Maximal Information Coefficient)
Regression
(回帰)
OLS(Ordinaly Least Square)
(最小2乗回帰)

SMA(Standard Major Axis)
(標準主軸回帰)

PCR(Prencipal Component Regression)
(主成分回帰)

Passing-Bablock method
Theil's Incomplete method
独立2群の中央値比較検定 Unpaired t-test
Welch's t-test
Mann-Whitney U-test
Brunner-Munzel test
1元配置の中央値比較検定
(独立3群以上)
One-way Factorial ANOVA
(1元配置分散分析)
Kruskal-Wallis
2元配置の中央値比較検定 Two-way ANOVA
(2元配置分散分析)
Friedman
Iman-Davenport
Quade
多重比較検定 Tukey‒Kramer Steel-Dwass
Games-Howel

終わりに

ノンパラメトリック手法について対応をひたすら並べました。ノンパラメトリックな手法も漸近的に正規分布を仮定していたりします。 製品バラツキを考えると、実用上一番の問題は外れ値の存在と扱い方です。ルーチンワーク的にデータ監視する場合にはノンパラの方が頑健でしょうし、少数データを吟味する上ではマニュアルでデータクリーニング後パラメトリックな手法を用いるのが良いように思います。

ユニバーサルな正解などないので、物理も統計も勉強するしかないです。