Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

正規確率プロット/回帰分析/相関分析 可視化ツール

これまで正規確率プロット、各種相関分析、回帰分析を述べました。これらは統計分析フリーソフト「R」などを用いれば容易に計算、分析できます。それすら面倒な方と自身のために簡単なツールを作ってみたので公開します。こちらになります。正規確率プロットの可視化、各種回帰分析と各種相関係数の計算を行います。

正規確率プロット回帰分析/相関分析

メニューバー"File"->"Open File (Q-Q plot)"から所定の形式のcsvを選択すると、正規確率プロットを表示します。

データは縦方向に並べてください。1列の場合は下記のように表示し、次節の各種回帰分析も同時に行います。

f:id:OceanOne:20200501051800j:plain

2列以上の場合は、こちらのように表示します。直線近似はOLS(X->Y)のチェックボックスで非表示に出来ます。

f:id:OceanOne:20200501051932j:plain

データ系列の配色は、メニューバー"File"->"Setting"から変更できます。(が、あまり真面目に作ってません。

回帰分析/相関分析

メニューバー"File"->"Open File (regression)"から所定の形式のcsvを選択すると、様々な回帰分析のモデル式(ツール右上)と可視化結果(ツール左側)を表示します。

最小2乗回帰(Ordinary Least Squares regression, OLS)標準主軸回帰(Standard Major axis regression, SMA)又は幾何平均回帰(Geometric Mean Regression, GMR)主成分回帰(Prencipal Component Regression, PCR)Passing and Bablok法Theil's Incomplete methodなど全て計算するので、グラフ表示において回帰直線が煩雑な場合はチェックボックスを外すと消えます。

ツール右下には種々の相関係数とP値を出力します。

f:id:OceanOne:20200422023719j:plain

入力ファイル

入力ファイルはcsv(comma separeted file, カンマ区切り)ファイルで、2列固定、行頭1行目は項目の名称、2行名以降は実数値の羅列です。例えばこのような感じです。

f:id:OceanOne:20200422024436j:plain

解析例(X,Yにノイズあり)

XとY両方にノイズがあるデータに対して各回帰分析を適用してみます。まずXに対するYの回帰結果です。

f:id:OceanOne:20200428023903j:plain

この結果に対して、母回帰と予測の信頼区間は下記のようになります。

f:id:OceanOne:20200428024043j:plain

Xにもノイズが含まれるので、Yに対するXの回帰も行ってみます。

f:id:OceanOne:20200428024127j:plain

見事に両者はずれています。幾何平均回帰も加えてみます。

f:id:OceanOne:20200428024208j:plain

主成分回帰はどうでしょう。

f:id:OceanOne:20200428024238j:plain

主成分回帰は幾何平均回帰と似たような回帰になりました。

さいごに

公開してみました。種々の回帰分析の相対関係も、習うより可視化結果を比較した方がわかるのではないかと思い簡易ツールにしています。拙いですが、誤りなどご指摘いただければ出来る限り修正します。