Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

外れ値(3)ー 外れ値との付き合い方

外れ値は解析を行う上で、障害以外の何物でもありません。しかし外れ値の中でも意味のあるものとないものがあります。外れ値から有益な情報を取り出せるかはエンジニアの経験に大きく依存するのではないかと思います。そのあたり思う所を書きます。

外れ値と異常値

外れ値と異常値の違いはなんでしょう?

私も良くわかりません。。。得られたデータには何かしら意味があり、外れ値と異常値というのは解析する立場の違いだと思います。

例えばA条件とB条件で実験した場合、測定結果のうちいくつか正規分布から大きく逸脱するデータが得られたとします。この場合A/B条件の比較をするという観点からは、異常値と思われます。

しかしA条件のみ多数試行した結果について、測定結果の精度を考察する場合

(1) 実験(系)にバラツキが含まれる
(2) 測定器(系)にバラツキが含まれる
(3) データ分析(系)にバラツキが含まれる

それぞれ考えられます。


実験系については、技術者が実験系に想定するパラメータの他、外気の気温や気圧(台風とか)なども考えられます。

測定系については、人が介していると個人差や体調などに依存してバラツキが大きいのはよくあることです。また、油断していると測定器差が存外大きいなどもあります。

データ分析を行う上でもバラツキが入る余地はあります。特に実験を主導しているエンジニア(研究者)は思う通りの結果以外について外れ値と思ってしまう傾向があります。人間ですからある程度はしょうがないですし、そこまで思い入れがないような実験は逆に大したことがないと私は思います。

外れ値から得られる情報

考慮外の実験系へのバラツキ要因が分かれば、製品製造活動を行ううえでの管理パラメータが判明することになります。常に利益を求められる企業活動の観点からは非常に有益な情報です。


測定系へのバラツキ因子に関してはキャリブレーション頻度や精度などへの改善活動へ結び付けられるでしょう。また測定への人間系の影響に関してはなるべく自動化を推し進めるべきと思います。測定器としての人間はメンタルなども影響するのでどうしてもバラツキが大きくなってしまいます。


データ分析者に対しては、体調や個人差の他、心理的な(認知)バイアス(例えば確証バイアスなど)が考えられます。何れも場合によっては結果に大きな結果を与えることがあります。特にマネージメントが認知バイアスを持っていると最悪かも知れません。

まとめ

エンジニアの立場からは、認知バイアスなどの外乱要因は跳ねのけ、本質に迫った解析を行っていきたいです。肝に銘じたくて本稿を書きました。(おそらくは自分への戒めとして年単位で見直します、見直すはず)