Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

2020-01-01から1年間の記事一覧

回帰分析(XとYを入れ替えた場合)の直感的なグラフ

回帰分析においてXとYを入れ替えると傾きが変わってしまう場合があることをこちらに書きました。内容は重複しますが、他の方に説明していてこんなグラフを使うと直感的に(なんとなく)伝わるように感じたので書き残しておきます。 単回帰分析でXとYの入れ替…

多目的最適化とパレートフロント

工学的な問題の大多数は複数の特性を改善する多目的最適化問題です。最適化対象が複数ある場合、最適解は1つにはなりません。最適化対象が2つの場合は最適なトレードオフ曲線が解となり、3つ以上の場合はトレードオフ曲面が解になります。 パレートフロント…

多重比較検定(2)- Games-Howell

Tukey-Kramerと同じように全ての対比較を同時に検定するための多重比較検定、Games-Howellの方法を紹介します。 Games-Howellの方法 Tukey-Kramerでは各郡の母分散は等しいことが前提でしたが、Games-Howellの場合は母分散には制限はありません。適応範囲が…

RANSAC

いくつか回帰分析の亜種について紹介しきましたが、データを扱っているとノイズが多く含まれるデータに遭遇することがあります。ノイズをうまく避ける手法として、今回はランダムサンプリングに基づくRANSAC(RANdom SAmple Consensus)について書きます。傾き…

多重比較検定

多群のデータに対しては分散分析が良く用いられますが、分散分析の帰無仮説は「群間の全ての平均値が等しい」になります。例え有意になっても、どの群間に有意差があるかはわかりません。また、2群間の比較にはt検定がありますが、これを全ての2群間に適用す…

箱ひげ図(5)ー 比較円

箱ひげ図のオプションの一つですが比較円というものがあります。箱ひげ図は複数グループの応答を確認するものですが、どのグループ間に差があるのか明確には教えてくれません。複数グループのデータがあった場合に、どのグループ間に有意な差があるか教えて…

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値…

箱ひげ図(4)ー オプション

条件間比較をする場合に有用な箱ひげ図(Box plot)ですが、表示方法にいくつかオプションがあります。今回は派生型を紹介します。以下に示す箱ひげ図は、みんな大好きアヤメ(iris)データのがく片の長さ(sepal length)を用いています。表示結果は自身で…

ロバストZスコア

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、おなじみの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

正規性検定

データ解析を始めるにあたって、データ集合が正規分布に従っている(正規分布で近似できる)かどうかを確認することは重要な第一歩です。統計検定において正規分布であるかどうかの検定があります。実は種類がたくさんあり、算出方法も色々です。今回は勉強…

相関関係と因果関係、あるいは疑似相関

XとYに相関関係が見られたとして、直ちにXとYに因果関係(原因と結果の関係)があると見なすのは危険です。問題意識を持っている人はともかく、コミュニティの全員になかなかリスクは伝わらないと感じます。 相関がある場合に考えられるケース AとBに相関が…

順位相関係数

一般的に使われる(ピアソンの積率)相関係数のほかに、スピアマンの順位相関係数とケンドールの順位相関係数があります。 ピアソンの積率相関係数はデータが正規分布していることが前提で、外れ値がある場合なども誤った結果になります。このような仮定を置…

正規確率プロット/回帰分析/相関分析 可視化ツール

これまで正規確率プロット、各種相関分析、回帰分析を述べました。これらは統計分析フリーソフト「R」などを用いれば容易に計算、分析できます。それすら面倒な方と自身のために簡単なツールを作ってみたので公開します。こちらになります。正規確率プロット…

共分散と相関係数

(そういえば書いていなかったので)相関係数について書きます。相関係数は共分散の改良版です。まずは共分散から入り、相関係数を説明します。 共分散から相関係数 (xi,yi)のデータ群があった時、共分散は下記のように定義されます。 ただし、xiとyiの平均…

自己相関関数と周期性解析

製品開発においては不具合、不良をつぶしていかなければなりません。そういったものの中には設計に起因して規則性を持つ場合があります。逆に言えば、規則性が理解できると設計との対応から不具合箇所を特定できる可能性があります。今回は規則性を持つデー…

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。 範囲と偏差 本題に入る前に統計学における範囲(Range…

乱数で中心極限定理

統計学で中心極限定理が説明していることは 期待値μ、分散σ2の任意の確率分布に従う母集団からの標本平均は、 nが十分大きい時には正規分布N(μ,σ2/n)で近似される です。つまり母集団に分散が定義できれば、どんな分布でも平均化していくと正規分布になる、…

一様乱数と逆関数法

今回はエクセルでの乱数計算を説明します。正規分布に従う乱数を扱うことができると、簡単なモンテカルロシミュレーションも実行できます。 一様乱数 エクセルにはRAND()という引数なしの関数があります。値域は0以上1未満で、値は等確率にランダムに現れま…

色々な単回帰の比較

これまで最小2乗回帰(Ordinary Least Squares regression, OLS)、標準主軸回帰(Standard Major axis regression, SMA)又は幾何平均回帰(Geometric Mean Regression, GMR)、主成分回帰、Passing and Bablok法、Theil's Incomplete methodなどを紹介し…

ロバスト(ノンパラメトリック)な回帰

今回はPassing and Bablokの方法と、Theil's imcomplete methodを紹介します。どちらも外れ値に影響を受けない、ロバストな手法です。Passing and BablokはY=Xであるようなデータが前提なので前提条件に注意が必要です。 Passing and Bablokの方法 Passing …

主成分回帰(主成分分析)

通常の回帰分析においてXとYを入れ替えると結果が変わってしまいますが、これを避ける手法がいくつかあります。今回は2変数の場合の主成分回帰(Principal Compornent Regression, PCR)を示します。 主成分回帰の定義 主成分回帰のベースは主成分分析(Prin…

回帰分析(原点を通る場合)

通常の最小二乗回帰において、原点を通る場合の計算方法です。 原点を通る場合 原点を通る場合のモデル式は切片なしで下記の通りです。 通常の最小二乗回帰と同じようにyに関する誤差最小化を考えると、下記のようになります。 傾きaに関して偏微分します。 …

標準主軸回帰(幾何平均回帰)

通常の回帰分析において、XとYを入れ替えた場合結果が変わってしまいます。これはX軸に誤差を仮定していないためです。XとYそれぞれ誤差を含みバラツキを等しく扱う標準主軸回帰と呼ばれる手法があります。 標準主軸回帰の定義 通常の回帰分析(OLS, Ordinary…

回帰分析(XとYを入れ替えた場合)

XとYの関係を回帰分析で探っていると、あれ?と思うことがあります。XとYを入れ替えると結果が変わります。 XとYの入れ替え Fig.1 (a)にXを[0,1]の乱数で、Y=XとしてYに平均0、標準偏差0.2のノイズを加えた結果を示します。Fig.1 (b)はXとYを入れ替えたもの…

回帰分析と決定係数

回帰分析において決定係数R2(coefficient of determination)とはパラメータ(独立変数、説明変数、設計変数)が応答(従属変数、目的変数)をどのくらい説明できるかを表します。通常の回帰分析はR2の値を見ながら、必要な調整を行います。 決定係数につい…

分散公式

少し唐突ですが、分散公式を書き下します(回帰分析での式変形に使います)。分散を計算する上では2通りの方法があります。下記の2式です。一つ目が通常の定義、二つ目が等価な分散公式です。 分散公式 分散公式の式変形をなるべく丁寧に追います。 まず二乗…

回帰分析と最小二乗法

技術開発に関わっていると原因Xから結果Yを精度良く予測しなければならない機会は多いです。また製品開発の立場から次の製品でどのような不具合が発生するか予測することも重要です。最も基本的な予測手法は入力Xに対して応答Yをを線形近似することです。線…

確証バイアス

確証バイアスは認知バイアスの一種です。自説を支持する情報ばかりを集め、反証する情報を無視または集めようとしない傾向のことです。 実験に従事する方々は、Wikpedia確証バイアスの"科学"に書かれている事柄は常に心に留め置くべきです。年齢が上がるにつ…

トライアンギュレーション(データの三角測量)

社会科学の分野において、トライアンギュレーション(triangulation)という言葉があります。日本語訳は、「三角測量」です。測量方法を表す言葉ですが、データソースや検証方法を複数化(複眼化)し、研究の妥当性を高める方法として考案されました。客観性を…

Fisherの3原則

DOE

実験を効率的に行うための理論として実験計画法があります。ここで言う「良い実験」とは、少ない試行数で、より多くの事実が、出来るだけ精度高く、わかるような実験です。そのために効率的な実験を計画し、最適な解析手法をセットで適用することを考えます…