Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

トライアンギュレーション(データの三角測量)

社会科学の分野において、トライアンギュレーション(triangulation)という言葉があります。日本語訳は、「三角測量」です。測量方法を表す言葉ですが、データソースや検証方法を複数化(複眼化)し、研究の妥当性を高める方法として考案されました。客観性を高めるうえで多角化は重要と感じていましたが、先人の同様な考え方に出会うことが出来ました。ノーマン・K・デンジンさんが1978年に著書のなかで提唱したものだそうです。

データ解析から物理現象のモデル解明に繋げる場合に、複眼的な思考を持つことは重要です。なぜなら、導き出した結論の客観性を多少なりとも担保することができるからです。デンジンさんは4つの要素に区別しています(曰く、1.データ、2.調査者、3.理論、4.技法だそうです)。今回は私なりにかみ砕いた説明をしてみたいと思います。

データの多元化

一回の実験結果だけで結論付けるのは危険です。色々なデータソースに頼るべきです。①時間、②場所、③(実験に関わる)人、④試料、⑤装置(処理、測定)、⑥実測あるいは数値計算結果。前提を変えて実験を繰り返したり、論文など外部データに頼る方法もあります。

※他者の実験結果の追試というのは、地味ですが実は非常に重要です。

データ解析(調査、研究)者の多元化

同じ実験結果でもデータ処理を行う人によって、結論が変わる可能性があります。

例えば、

・外れ値除外基準は同じでしょうか? 想定モデルが異なれば基準も変わりそうです。

・単純に思い込みが強い、あるいはおっちょこちょいかも知れません。

・考えたくないですが、嘘をついている可能性すらあります。

・数値データの丸め方も違うかもしれません。

解析手法の多元化

同様に同じデータを解析するにしても、古典的な統計手法や機械学習など解析アプローチも様々です。同じ実験結果でもデータ処理を行う人によって、結論が変わる可能性があります。

例えば、

・実験データ取得方法(実験計画法の手法、トレンドデータなど)

・解析手法(回帰分析、機械学習

理論の多元化

同じデータを解析するにしても、想定モデルによる差がでる場合があります。実験計画すら、前提モデルに依存する恐れがあります。

・不良加速モデル(温度加速、電界加速、湿度加速、etc.)

・フィッティングモデル(線形近似、指数関数近似

・データバラツキに対する確率モデル(正規分布ポアソン分布)

さいごに

実験結果から結論を出す場合に私自身が重要だと思っていることは、データソースを複数化することです。出来れば異なる実験を複数回したいものです。また数値計算(シミュレーション)も実験事実をサポートしてくれると心強いですね。直ぐに結論を出したい誘惑に負けず、多角的な検証をしてみてください。