実データと確率プロット
正規確率プロットを、実データについて適用した結果について述べたいと思います。
母集団が正規分布でない場合
正規確率プロットでは対象データの母集団は正規分布であること期待します。しかし実際は、(1)正規分布でない、(2)外れ値を含む、(3)いくつかの分布の混合である、など色々な場合があります。
下記に示すのは、母集団が(a)一様分布(0~1)、(b)正規分布(平均0、標準偏差1)、(c)対数正規分布((b)の指数)に従う1000点のデータに対して正規確率プロットを適用した結果です。
値域0~1の一様分布では正規分布より0や1付近の出現確率が高いため、グラフ裾野の傾きが立っています。
正規確率プロットに対する単回帰のR2を見ると、確かに母集団が正規分布の場合が最も大きくなっています。
対数正規分布については分布上裾がロングテールとなるため、正規確率プロット上でも上裾が直線近似から外れる傾向が分かります。
Fig.1-(c)については横軸を対数にすることで綺麗な直線傾向を得ることが出来ます。正規確率プロットを行った上で、正規分布従っていない場合には対数変換してみるのも一つの手です。回帰直線も対数近似を適用すると、良好なR2が得られています。
外れ値を含む場合
正規確率プロットでは対象データの母集団は正規分布であることを期待します。ここでは期待する母集団とは無関係な外れ値が含まれた場合を想定します。実データを扱っていると外れ値を含むことは、ままあります。というか、大抵外れ値/異常値を含みます。
※外れ値/異常値はやっかいですが、取り扱いには経験が威力を発揮します。対象実験に長く従事していると、あり得ない値が感覚的にわかるからです。経験と統計学に基づいた判断は強力です。
下記には対象データの標準偏差に対し2倍のバラツキを持つデータを、10~50%含んだ正規確率プロットを示します。
ご覧のように、混入率が増えるに従って、回帰のR2は悪化していきます。グラフに描画した結果を追うと、全体的に直線近似から外れるわけではなく、分布裾だけずれていくことが分かります。このように、母集団から極端に外れたデータを正規確率プロットした場合には、裾データが外れていく傾向を示します。
下記に示すのは、対象データが平均0、標準偏差1に対して、異常値の混入確率をP=0.1、0.3、0.5、異常値の標準偏差をS=2.0、3.0、4.0(平均0)とした場合の結果です。なんとなく形状変化の感覚をつかんでもらえればと思います。
データ観測に問題がある場合
ここまでは取得したいデータは全て得られている場合の描画結果でした。しかし実際には、母集団とは無関係のデータが含まれていたり、データが欠損していたり、測定精度の問題がある場合もあります。
下記に例として、平均0、標準偏差1の正規分布において観測方法に上限があり(a)1sigma以上のデータは1と観測される場合、(b)1sigma以上のデータは欠損する場合を示します。
Fig.4-(a)の場合は上裾に観測上の問題がありそうなことはなんとなくわかりますが、Fig.4-(b)の場合は微妙です。正規確率プロットを行い、不自然なデータ上限が見られる場合はデータ取得方法について精査すべきです。
次に平均0、標準偏差1のデータに対し観測精度が0.2刻みと0.5刻みの正規確率プロットを示します。
データ観測を行う場合、かならず観測精度の問題が生じます。データ出力の小数点以下桁数が少ない場合は、階段状の正規確率プロットになります。これも知っておいたほうが良いと思います。また、それでもR2はそれほど劣化しません。
まとめ
正規確率プロットを描くことの効能は、データの正規性を確認するだけに留まりません。正規分布でない確率分布の検討、外れ値の検証、測定精度の確認など、様々なことを行うことが出来ます。一枚のグラフから読み取る情報量を最大限まで増やして、実践に応用していきたいですね。