相関関係と因果関係、あるいは疑似相関
XとYに相関関係が見られたとして、直ちにXとYに因果関係(原因と結果の関係)があると見なすのは危険です。問題意識を持っている人はともかく、コミュニティの全員になかなかリスクは伝わらないと感じます。
相関がある場合に考えられるケース
AとBに相関がある場合、考えられる因果関係は三つです。
(1) AがBの原因
(2) BがAの原因
(3) CがAとBの原因
相関関係にあるとはAとBに関連があること示すだけで、どちらが原因でどちらがその影響を受けた結果なのかはわかりません。このため(1)と(2)のケースがまず考えられます。
またAとBは関連はなく、どちらもCに関連しているだけという場合が(3)です。"疑似相関"あるいは"偽相関"と呼ばれます。"疑似相関"という言葉は考えてみると少し不思議な言葉です。"相関"という言葉には関連性や因果関係は含意されないので(3)のケースでも"相関がある"という表現は正しいです。あえて言えば"疑似因果関係"のような表現が正しいように思います。
複合ケース
ところで、実際にデータ解析を行っているともう少し複雑なケースもあります。(1)~(3)の複合ケースです。例えば、下記のような場合です。
・Bの変動の50%はAが原因で、
・Bの変動残り50%はCが原因で、
・C自体の原因はAである。
この場合、因果関係としてはAが原因で、Aを対策すれば良いのは自明です。しかし製品開発に当てはめて、Bの変動を抑える対策を考えてみるとアプローチが色々あります。おそらく下記のような対策が考えられるはずです。
・Aの変動を小さくする
・AのBに対する影響度を下げる
・CのBに対する影響度を下げる
・AのCに対する影響度を下げる
製品開発において性能改善なり、不良対策なり行う場合、相関関係を把握しているだけでは不十分です。因果関係を正しく理解すると、色々なアプローチを創出することができます。
さいごに
様々な相関係数の紹介などしてきましたが、疑似相関についても理解した上で適用すべきと思います。疑似相関を見抜けるか、因果関係を正しく類推できるかは、物理を理解しているか、あるいは経験があるかなど、結局は技術者の力量にかかっているのかなと思います。製品開発を行う技術者にとっては、データ解析技術も物理現象の理解も同じくらい重要ではないかと思います。