Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

正規確率プロット

箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットと、その描き方について説明します。 

※説明を読むのが面倒くさい方は、こちら のツールで慣れてみてください。

Q-Qプロット

Q-Qプロット(quantile-quantile plot)とは期待している確率分布と実データを比較するために用います。大抵の場合我々は正規分布を期待するので、正規分布ベースの正規Q-Qプロット(正規確率プロット)を指します。アウトプットとしてはプロット結果が直線なら「期待した確率分布に従う」ということが言えます。

※故障確率で使うWeibull分布を使ったWeibull potや、半導体分野では電圧-電流特性が所望の特性か確認する***plot(fowler-nordheim plot, poole-frenkel plot)、Tr.特性バラツキに関するperglom plotなど「何とかプロット」というのは沢山あります。共通して言えるのはプロットが「直線なら考えているモデルが正しそう」という事です。直線かどうかで視覚的にとらえやすくします。

正規Q-Qプロットの描き方

Q-Qプロットではデータと理論分布の分位数を比較、グラフにプロットします。データをソート、ランク付けして順位(分位)を求め、理論分布で対応する分位数と対にしてプロットします。

正規分布を想定して具体例を示します。下記のような10点のデータがあります。

f:id:OceanOne:20200209235647j:plain

まずはデータは大きい順(昇順)に並べ替えます。

f:id:OceanOne:20200210000305j:plain

小さいほうから順位(Rank)を付けると1~10位まで割り付けられます。分位点を求めるためにサンプル数10で割ると

f:id:OceanOne:20200210000846j:plain

1~10までの順位(Rank)は0~1までの数値(Percetile)に置き換わりました。これは、つまるところデータ出現頻度の累積確率です。 正規分布における累積確率密度関数逆関数(=NormSInv)を計算してSigmaを算出すると下表のようになります。

f:id:OceanOne:20200210001210j:plain

あれ、最下段のSigmaが#NUM!になっています。正規分布において確率0になるxは-∞、確率1は+∞です。このため、0と1のNormSInvは計算できません。計算できないとグラフ上にプロットもできません。

いくつか補正方法があるのですが、代表的なものは、順位からPercentileを求める場合にサンプル数NではなくN+1を用いるものです。計算結果は下記です。

f:id:OceanOne:20200210001225j:plain

Pericentileは希望通り0~1の間になりました。もういちどNormSInvを計算すると-1.335~+1.335の対称なSigmaが算出できました。

f:id:OceanOne:20200210002643j:plain

上記をグラフにプロットすると下記のようになります。例題のデータは正規分布に従う乱数を用いたので、正規Q-Qプロットも直線傾向を示しています。

f:id:OceanOne:20200210003221j:plain

このように、得られたデータと期待する確率分布の分位点をX-Yに図示したものがQ-Qプロットになります。

さいごに

ここまでで、データが得られたときに、エクセルさえあればQ-Qプロットを描くことができると思います。正規分布ベースの場合、私の周りではシグマプロットと呼ぶのですが、これはローカルルールなのでしょうか?個人的にはわかりやすいのですが、どうなんでしょう。

また、こちら では拙いですが正規確率プロットを簡単に表示する自作ツールを置いています。遊んでみてください。