Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

正規確率プロットの傾き

正規確率プロットは、描画結果が直線であることで正規分布に従っていることを確認する可視化方法です。では、その直線の傾きは何を意味しているのでしょうか?

※説明を読むのが面倒くさい方は、こちら のツールで遊んでみてください。

正規確率プロットの傾き

正規確率プロットは、期待する理論分布の分位数とソートされたデータを対応させてプロットする可視化方法です。まずFig.1-(a)に平均50、標準偏差10の正規確率プロットを示します。

f:id:OceanOne:20200214020739j:plain

Fig.1-(a) X軸:データ-Y軸:分位数

Fig.1-(a)に示すように期待した理論分布通りだと、このプロットは直線になります。ここではX軸にデータを取っていますが、ツールによってはXとYは入れ替わります。傾きの意味を考える上ではY軸にデータをとった方が都合がよいです。

f:id:OceanOne:20200216002349j:plain

Fig.1-(b) X軸:分位数-Y軸:データ


横軸に分位数(あるいはsigma)を取った場合、傾きがは1sigmaでのデータ変動量を意味します。正規分布で1sigmaは標準偏差そのものですので、正規確率プロットの傾きは標準偏差(の逆数)に対応します。Fig.1-(b)では1sigma分に相当する縦軸は10より少し少ない程度ですので、母集団の標準偏差10を推定していることになります。

もちろん、正式に最尤推定を行っているわけではないので、これは概算値になります。しかし正規確率プロットを目視で確認している事になるので、外れ値影響がないかなどの検証にもなり、外れ値を除けば頑健な標準偏差の推定量になります。

正規確率プロット描画方法と標準偏差

この節は半分趣味ですので、読み飛ばしてもかまいません。

正規確率プロットではソートされたデータの順位からPercentileを計算する場合に、(n+1)で割ると説明しました。実はいくつか流儀があり、一般化すると順位kに対しPercentileは(k-a)/(n+1-2a)で計算すると上手く確率プロットを描画できます(aは0~1の実数)。下表にいくつかの設定例を示します。

f:id:OceanOne:20200214023256j:plain

Table.1 確率プロットにおける順位数計算方法

これらのPercentileを使って正規確率プロットを描画し、傾きから標準偏差を求めた結果を次に示します。標準偏差1のデータから乱数で300、1000、3000点サンプリングし、横軸はa、縦軸は推定された標準偏差になります。

 

f:id:OceanOne:20200216003653j:plain

Fig.2-(a) 分位数計算方法と傾きから推定される標準偏差(300データ)

f:id:OceanOne:20200216004020j:plain

Fig.2-(b) 分位数計算方法と傾きから推定される標準偏差(1000データ)

f:id:OceanOne:20200216004622j:plain

Fig.2-(c) 分位数計算方法と傾きから推定される標準偏差(3000データ)

データ数が300~3000の場合、a=0つまり(n+1)で割った場合は、標準偏差は1以上になり、最尤推定値より大きめに出るようです。さらにa=1の場合には小さめになり、サンプル数が多いほどaの値によらず推定精度は上がります。a=0.6程度で最尤推定値とのズレも小さくなるようです。

複数データの正規確率プロットによる比較

正規確率プロットの傾きの意味が分かったところで、複数データの比較を行います。下図に、平均50で標準偏差10、15、20である100点のデータを一つの正規確率プロットに図示した結果を示します。 

f:id:OceanOne:20200216013652j:plain

Fig.3 複数データの比較結果

平均は50で、どれも同じなので縦軸0に対応する横軸は50に揃っています。ずれていれば平均値に差があることになります。そして標準偏差が大きくなるほど傾きは寝ています。つまりバラツキに差があることがわかります。正規確率プロットで複数データを比較することの強みの一つは、バラツキの比較を行える点です。

まとめ

正規確率プロットの傾きは標準偏差(の逆数)に対応します。複数のデータについて正規確率プロットを比較する場合は、傾きの比較からバラツキの大小を直感的に比較できることになります。細かい点は置いておいて、バラツキ比較ができる点は是非押さえておいてください。

また、こちら では拙いですが正規確率プロットを簡単に表示する自作ツールを置いています。遊んでみてください。