Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ロバスト(ノンパラメトリック)な回帰

今回はPassing and Bablokの方法と、Theil's imcomplete methodを紹介します。どちらも外れ値に影響を受けない、ロバストな手法です。Passing and BablokはY=Xであるようなデータが前提なので前提条件に注意が必要です。

Passing and Bablokの方法

Passing と Bablok (1983) は、2測定方法間を比較する方法を提案しています。2測定法を比較する場合、測定法間にはいずれも誤差が含まれているため、最小二乗法による一次回帰を適応すると、回帰直線の切片や傾きの正しい推定値が得られないことがあります。

Passing-Bablok法では、あらゆるi≠jのデータ点の組に対して傾きを求め、これらの中央値を求めます。傾きは-∞から∞を取りうるので、角度に直すと-90°から90°の範囲となります。このまま中央値を求めると0°の方へバイアスがかかりますが、もともと傾き=1を想定した手法なので傾きを角度にして-45°から135°に並べ変えたあと、傾きの中央値を推定値とします。切片の推定はyi-bxiを全データについて求め中央値を用います。

Fig.1にY=Xのデータにノイズと外れ値加えたデータと、このデータに対して回帰分析を行った回帰直線を示します。

f:id:OceanOne:20200403020354j:plain

Fig.1 外れ値を含んだデータに対する単回帰結果

外れ値の影響を受けて、Xが小さい領域で回帰直線がデータ傾向から外れています。Passing-Bablok法による回帰結果をFig.2、拡大図をFig.3に示します。

f:id:OceanOne:20200403020452j:plain

Fig.2 Passing-Bablok法による回帰

 

f:id:OceanOne:20200403021051j:plain

Fig.3 Passing-Bablok法による回帰(拡大)

 中央値を用いた頑健な手法のため、回帰直線が外れ値の影響を受けにくいことが分かります。

Theil's imcomplete method

Theil's incomplete methodは点のペアを通るすべての線の傾きの中央値を選択することによって、標本点にフィットさせる方法です。 Henri TheilとPranab K. Senにちなんで命名され、1950年と1968年にそれぞれこの方法に関する論文を発表されました。

この手法は、まずxiでデータをソートし2群のデータに分けます(奇数データの場合、中央データは削除)。それぞれの群のXの小さい方からペアとし、傾きを計算、傾きの中央値を推定値とします。Passing-Bablokと同様に切片の推定はyi-bxiを全データについて求め中央値を用います。

f:id:OceanOne:20200404010232j:plain

Fig.4、5にFig.1と同じデータについてTheil's incomplete methodを適用した結果を示します。

f:id:OceanOne:20200403021957j:plain

Fig.4 Theil's incomplete method

f:id:OceanOne:20200403022028j:plain

Fig.5 Theil's incomplete method(拡大)

まとめ

今回はノンパラメトリックな回帰手法を紹介しました。外れ値が多い場合にはロバストな手法は大きな威力を発揮します。あまり広く使われている手法ではありませんが、色々な手法を知っておくといざというときに役に立ちます。上司に説明するのが面倒くさいときもありますが・・・

 

[1] H. Passing and W. Bablok, “A new biometrical procedure for testing the equality of measurements
from two different analytical methods. application of linear regression procedures for method comparison studies in clinical chemistry, part i”, Clinical Chemistry and Laboratory Medicine, 21, 11,
pp. 709–720 (1983).

[2]Theil, H. (1950), "A rank-invariant method of linear and polynomial regression analysis. I, II, III", Nederl. Akad. Wetensch., Proc., 53: 386–392, 521–525, 1397–1412, MR 0036489.

[3]Sen, Pranab Kumar (1968), "Estimates of the regression coefficient based on Kendall's tau", Journal of the American Statistical Association, 63 (324): 1379–1389, doi:10.2307/2285891, JSTOR 2285891, MR 0258201.