正規確率プロット
箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットと、その描き方について説明します。
※説明を読むのが面倒くさい方は、こちら のツールで慣れてみてください。
Q-Qプロット
Q-Qプロット(quantile-quantile plot)とは期待している確率分布と実データを比較するために用います。大抵の場合我々は正規分布を期待するので、正規分布ベースの正規Q-Qプロット(正規確率プロット)を指します。アウトプットとしてはプロット結果が直線なら「期待した確率分布に従う」ということが言えます。
※故障確率で使うWeibull分布を使ったWeibull potや、半導体分野では電圧-電流特性が所望の特性か確認する***plot(fowler-nordheim plot, poole-frenkel plot)、Tr.特性バラツキに関するperglom plotなど「何とかプロット」というのは沢山あります。共通して言えるのはプロットが「直線なら考えているモデルが正しそう」という事です。直線かどうかで視覚的にとらえやすくします。
正規Q-Qプロットの描き方
Q-Qプロットではデータと理論分布の分位数を比較、グラフにプロットします。データをソート、ランク付けして順位(分位)を求め、理論分布で対応する分位数と対にしてプロットします。
正規分布を想定して具体例を示します。下記のような10点のデータがあります。
まずはデータは大きい順(昇順)に並べ替えます。
小さいほうから順位(Rank)を付けると1~10位まで割り付けられます。分位点を求めるためにサンプル数10で割ると
1~10までの順位(Rank)は0~1までの数値(Percetile)に置き換わりました。これは、つまるところデータ出現頻度の累積確率です。 正規分布における累積確率密度関数の逆関数(=NormSInv)を計算してSigmaを算出すると下表のようになります。
あれ、最下段のSigmaが#NUM!になっています。正規分布において確率0になるxは-∞、確率1は+∞です。このため、0と1のNormSInvは計算できません。計算できないとグラフ上にプロットもできません。
いくつか補正方法があるのですが、代表的なものは、順位からPercentileを求める場合にサンプル数NではなくN+1を用いるものです。計算結果は下記です。
Pericentileは希望通り0~1の間になりました。もういちどNormSInvを計算すると-1.335~+1.335の対称なSigmaが算出できました。
上記をグラフにプロットすると下記のようになります。例題のデータは正規分布に従う乱数を用いたので、正規Q-Qプロットも直線傾向を示しています。
このように、得られたデータと期待する確率分布の分位点をX-Yに図示したものがQ-Qプロットになります。
さいごに
ここまでで、データが得られたときに、エクセルさえあればQ-Qプロットを描くことができると思います。正規分布ベースの場合、私の周りではシグマプロットと呼ぶのですが、これはローカルルールなのでしょうか?個人的にはわかりやすいのですが、どうなんでしょう。
また、こちら では拙いですが正規確率プロットを簡単に表示する自作ツールを置いています。遊んでみてください。