Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

回帰分析

標準偏回帰係数

重回帰の標準偏回帰係数についての説明と実装結果です。 標準偏回帰係数 重回帰分析を行った結果得られる、偏回帰係数つまり各説明変数の係数ですが、これはもちろん単位系や各説明変数の大小に依存します。例えば、測定単位を g から kg に変えると偏回帰係…

DFFITS

回帰分析の診断方法の一つに、てこ比というものがあります。これをさらに拡張するとCookの距離やDFFITSといった指標に繋がります。 Cookの距離(Cook’s distance) Cook の距離はアメリカの統計学者 R. Dennis Cookの名にちなみます。彼は1977年にこの概念を導…

クックの距離(Cook’s distance)

回帰分析の診断方法の一つに、てこ比というものがあります。これをさらに拡張するとCook の距離やDFFITSといった指標に繋がります。今回はCookの距離について。 Cook の距離(Cook’s distance) Cook の距離はアメリカの統計学者 R. Dennis Cookの名にちなみま…

てこ比

今回はてこ比について。各観測値が推定値に与える影響、および全体の平均からどの程度ずれているかを示す指標で、0 から 1 までの値をとります。 モデル式(最小二乗法) まずはモデル式の多項式近似パラメータ推定について、最小二乗法で求めます。モデルは…

ステップワイズ法におけるAIC/BIC/Mallows's CPの比較

重回帰分析の変数選択をステップワイズ法で行った場合、変数選択の基準で結果が変わります。いくつか比較してみます。 変数選択基準の比較 重回帰分析のステップワイズ法などで用いられる変数選択の基準で、AIC/BIC/Mallows's CPを比較します。 下記のような…

ステップワイズ法

中心複合計画(Central Composite Design, CCD)やBox-Behnken計画(Box-Behnken Design, BBD) などで作成した計画は回帰分析により解析を行います。計画に用いた変数のうち応答に影響を与える変数を逐次求めるステップワイズ法を説明します。 回帰分析にお…

Box-Behnken計画

応答曲面のためのBox-Behnken(ボックスーベーンケン)計画を紹介します。中心複合計画のような2次以上のモデルのための計画ですが、効率的なサンプリングを行う側面があります。 Box-Behnken計画 Box-Behnken計画(Box Behnken, BBD)は1960年にGeorge E. P. …

内挿と外挿

内挿(interpolation)と外挿(extrapolation)について書きます。エンジニアをやっていると製品性能を推定する場面に出くわすことが多いです。この場合行っている事は、状況証拠を入力変数とし、自身の経験から構築したモデル式にこれを入力することによっ…

単回帰分析結果のカラーリング

シンプルな単回帰分析結果ですが、なんでもそうですが普段やりなれていない方には取りつきにくいものです。今回は見た目とカラーリングで遊んでみます。 まずは単回帰分析 単回帰分析の第1のアウトプットはXとYの直線関係を推定することです。例えば、下図の…

ロバスト(M推定量)な回帰

平均値に対する中央値のように、統計解析手法の中には外れ値に影響を受けにくいロバストな手法があります。回帰分析においてはPassing and Bablokの方法と、Theil-Sen's imcomplete methodをこちらで紹介しました。これらの手法は正規分布なども仮定しない完…

回帰分析(XとYを入れ替えた場合)の直感的なグラフ

回帰分析においてXとYを入れ替えると傾きが変わってしまう場合があることをこちらに書きました。内容は重複しますが、他の方に説明していてこんなグラフを使うと直感的に(なんとなく)伝わるように感じたので書き残しておきます。 単回帰分析でXとYの入れ替…

RANSAC

いくつか回帰分析の亜種について紹介しきましたが、データを扱っているとノイズが多く含まれるデータに遭遇することがあります。ノイズをうまく避ける手法として、今回はランダムサンプリングに基づくRANSAC(RANdom SAmple Consensus)について書きます。傾き…

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値…

正規確率プロット/回帰分析/相関分析 可視化ツール

これまで正規確率プロット、各種相関分析、回帰分析を述べました。これらは統計分析フリーソフト「R」などを用いれば容易に計算、分析できます。それすら面倒な方と自身のために簡単なツールを作ってみたので公開します。こちらになります。正規確率プロット…

色々な単回帰の比較

これまで最小2乗回帰(Ordinary Least Squares regression, OLS)、標準主軸回帰(Standard Major axis regression, SMA)又は幾何平均回帰(Geometric Mean Regression, GMR)、主成分回帰、Passing and Bablok法、Theil's Incomplete methodなどを紹介し…

ロバスト(ノンパラメトリック)な回帰

今回はPassing and Bablokの方法と、Theil's imcomplete methodを紹介します。どちらも外れ値に影響を受けない、ロバストな手法です。Passing and BablokはY=Xであるようなデータが前提なので前提条件に注意が必要です。 Passing and Bablokの方法 Passing …

主成分回帰(主成分分析)

通常の回帰分析においてXとYを入れ替えると結果が変わってしまいますが、これを避ける手法がいくつかあります。今回は2変数の場合の主成分回帰(Principal Compornent Regression, PCR)を示します。 主成分回帰の定義 主成分回帰のベースは主成分分析(Prin…

回帰分析(原点を通る場合)

通常の最小二乗回帰において、原点を通る場合の計算方法です。 原点を通る場合 原点を通る場合のモデル式は切片なしで下記の通りです。 通常の最小二乗回帰と同じようにyに関する誤差最小化を考えると、下記のようになります。 傾きaに関して偏微分します。 …

標準主軸回帰(幾何平均回帰)

通常の回帰分析において、XとYを入れ替えた場合結果が変わってしまいます。これはX軸に誤差を仮定していないためです。XとYそれぞれ誤差を含みバラツキを等しく扱う標準主軸回帰と呼ばれる手法があります。 標準主軸回帰の定義 通常の回帰分析(OLS, Ordinary…

回帰分析(XとYを入れ替えた場合)

XとYの関係を回帰分析で探っていると、あれ?と思うことがあります。XとYを入れ替えると結果が変わります。 XとYの入れ替え Fig.1 (a)にXを[0,1]の乱数で、Y=XとしてYに平均0、標準偏差0.2のノイズを加えた結果を示します。Fig.1 (b)はXとYを入れ替えたもの…

回帰分析と決定係数

回帰分析において決定係数R2(coefficient of determination)とはパラメータ(独立変数、説明変数、設計変数)が応答(従属変数、目的変数)をどのくらい説明できるかを表します。通常の回帰分析はR2の値を見ながら、必要な調整を行います。 決定係数につい…

分散公式

少し唐突ですが、分散公式を書き下します(回帰分析での式変形に使います)。分散を計算する上では2通りの方法があります。下記の2式です。一つ目が通常の定義、二つ目が等価な分散公式です。 分散公式 分散公式の式変形をなるべく丁寧に追います。 まず二乗…

回帰分析と最小二乗法

技術開発に関わっていると原因Xから結果Yを精度良く予測しなければならない機会は多いです。また製品開発の立場から次の製品でどのような不具合が発生するか予測することも重要です。最も基本的な予測手法は入力Xに対して応答Yをを線形近似することです。線…