Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

2020-04-01から1ヶ月間の記事一覧

相関関係と因果関係、あるいは疑似相関

XとYに相関関係が見られたとして、直ちにXとYに因果関係(原因と結果の関係)があると見なすのは危険です。問題意識を持っている人はともかく、コミュニティの全員になかなかリスクは伝わらないと感じます。 相関がある場合に考えられるケース AとBに相関が…

順位相関係数

一般的に使われる(ピアソンの積率)相関係数のほかに、スピアマンの順位相関係数とケンドールの順位相関係数があります。 ピアソンの積率相関係数はデータが正規分布していることが前提で、外れ値がある場合なども誤った結果になります。このような仮定を置…

正規確率プロット/回帰分析/相関分析 可視化ツール

これまで正規確率プロット、各種相関分析、回帰分析を述べました。これらは統計分析フリーソフト「R」などを用いれば容易に計算、分析できます。それすら面倒な方と自身のために簡単なツールを作ってみたので公開します。こちらになります。正規確率プロット…

共分散と相関係数

(そういえば書いていなかったので)相関係数について書きます。相関係数は共分散の改良版です。まずは共分散から入り、相関係数を説明します。 共分散から相関係数 (xi,yi)のデータ群があった時、共分散は下記のように定義されます。 ただし、xiとyiの平均…

自己相関関数と周期性解析

製品開発においては不具合、不良をつぶしていかなければなりません。そういったものの中には設計に起因して規則性を持つ場合があります。逆に言えば、規則性が理解できると設計との対応から不具合箇所を特定できる可能性があります。今回は規則性を持つデー…

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。 範囲と偏差 本題に入る前に統計学における範囲(Range…

乱数で中心極限定理

統計学で中心極限定理が説明していることは 期待値μ、分散σ2の任意の確率分布に従う母集団からの標本平均は、 nが十分大きい時には正規分布N(μ,σ2/n)で近似される です。つまり母集団に分散が定義できれば、どんな分布でも平均化していくと正規分布になる、…

一様乱数と逆関数法

今回はエクセルでの乱数計算を説明します。正規分布に従う乱数を扱うことができると、簡単なモンテカルロシミュレーションも実行できます。 一様乱数 エクセルにはRAND()という引数なしの関数があります。値域は0以上1未満で、値は等確率にランダムに現れま…

色々な単回帰の比較

これまで最小2乗回帰(Ordinary Least Squares regression, OLS)、標準主軸回帰(Standard Major axis regression, SMA)又は幾何平均回帰(Geometric Mean Regression, GMR)、主成分回帰、Passing and Bablok法、Theil's Incomplete methodなどを紹介し…

ロバスト(ノンパラメトリック)な回帰

今回はPassing and Bablokの方法と、Theil's imcomplete methodを紹介します。どちらも外れ値に影響を受けない、ロバストな手法です。Passing and BablokはY=Xであるようなデータが前提なので前提条件に注意が必要です。 Passing and Bablokの方法 Passing …