Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

2020-01-01から1年間の記事一覧

中心複合計画で乱数実験(4)- 交互作用について繰り返し数の影響

中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストする続きです。 今回の対象は、応答が一次項と二乗項、さらに自身以外の変数との積和といった曲面性があるデータに、正規乱数を加えています。中心複合計画の中心点は0、軸点…

中心複合計画で乱数実験(3)- 繰り返し数の影響, 曲面性がある場合

中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストする続きです。 今回の対象は、応答が説明変数の二乗和で曲面性があるデータに、正規乱数を加えています。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。ノイズは標…

中心複合計画で乱数実験(2)ー 繰り返し数の影響, 曲面性がない場合

中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストしてみます。 対象は、応答が説明変数の線形和で交互作用や曲面性がないデータで、正規乱数を足しています。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。応答Yは説…

中心複合計画で乱数実験(1)ー 因子数の影響, 曲面性がない場合

中心複合計画で変数の数を増やすとどのように有意差が出やすくなるのかテストしてみます。 中心複合計画はロバストな手法ですが、要因数を増やした場合、有意差が出やすくなります。今回は、応答は説明変数の線形和で交互作用や曲面性がないデータに対し、正…

中心複合計画と応答曲面法

中心複合計画は応答曲面法のための実験です。今回は実験結果から応答曲面法のパラメータ計算を追ってみます。 応答曲面法 応答曲面(Response Surface)とは、予測変数(Predictor variables)から応答(Response)yを関係近似したものです。[math] \displa…

中心複合計画(Central Composite Design, CCD)

実験計画法は、どの因子が重要か選別するスクリーニング実験と、選別した因子に対して曲面性も考慮して行う最適化実験の2つに大別することが出来ます。前者は完全実施計画や直交表などが当てはまり、後者の代表的な手法が中心複合計画と呼ばれるものです。 …

Distance correlation

2変数間の関係性の強さを測る指標に相関係数があります。通常の相関係数の他、順位統計に基づいたPeasonやKendallの順位相関係数もあります。残念ながら、これらは単調増加、単調減少の挙動しか捉えることが出来ません。今回は非線形な相関関係を捉えられるd…

自己相関関数と周期性解析(2)

こちらでは自己相関関数について簡単な紹介を書きました。実装してみたのと、スピアマンやケンドールの順位相関係数でも自己相関関数(コレオグラム)ライクな表示をしてみています。 順位相関係数で自己相関 自己相関関数とはこちらに示すように、時系列デ…

実験計画法(9)-直交表(3水準系)

DOE

これまでラテン方格やグレコ・ラテン方格について書きましたが、さらに一般化すると直交表実験に行き着きます。今回は水準数3の直交表について述べます。 3水準直交表 実験の因子(パラメータ)のどの2つをとっても、その水準のすべての組み合わせが同数回現…

実験計画法(8)-直交表(2水準系)

DOE

これまでラテン方格やグレコ・ラテン方格について書きましたが、さらに一般化すると直交表実験に行き着きます。 直交表の概要 直交表(ちょっこうひょう)とは、実験の因子(パラメータ)のどの2つをとっても、その水準のすべての組み合わせが同数回現れるよ…

Quadrant chart

2次元の散布図を4色に色分けするQuadrant chart(クアドラントチャート、4象限グラフ)を紹介します。個人的にはあまり使う機会はないですが、散布図を用いて砕けた説明をする場合にはわかりやすさという点で一定の効果があるのではないかと思います。 クア…

実験計画法(7)-Aligned Rank Transform

直交表などの実験計画法を解析する場合、分散分析(ANOVA)が基礎となります。しかしANOVAは正規分布を仮定しており、対象データが正規分布かどうかより著しく逸脱した外れ値の影響を受けやすいです。バランス型の実験計画を前提として、変数変換によりノン…

実験計画法(6)-グレコ・ラテン方格

実験計画法のうち、ラテン方格からさらに発展したグレコ・ラテン方格法について述べます。 グレコ・ラテン方格法 ラテン方格とはn行xn列の表にn個の異なる記号が各行各列に1度だけ現れる表です。このラテン方格の各記号に実験水準を割り当てる実験計画法がラ…

実験計画法(5)-ラテン方格

DOE

実験計画法のうち、一元配置/二元配置からもう少し発展したラテン方格について述べます。 ラテン方格法 ラテン方格とはn行xn列の表にn個の異なる記号が各行各列に1度だけ現れる表です。ラテン方陣とも呼びます。このラテン方格の各記号に実験水準を割り当て…

実験計画法(4)-乱塊法

DOE

実験計画法の一つのアプローチである乱塊法について説明します。 Fisherの3原則 実験計画法の始祖R.A.FisherにFisherの3原則というものがあります。 反復(replication) 無作為化(randomization) 局所管理(local control) 最後の局所管理が今回の乱塊法…

実験計画法(3)-一元配置と二元配置実験

DOE

いくつかの基本的な実験計画(一元配置実験、二元配置実験)について説明します。 一元配置実験 実験計画の基礎となるのは一元配置実験です。つまり一つのパラメータについて、繰り返した実験を行うことです。例えば要因Aについて3水準実験を行った結果が下…

実験計画法(2)-一元配置実験と分散分析

DOE

実験計画の前に、基礎的な一元配置実験と分散分析について説明します。 一元配置実験 一因子について実験水準を設け繰り返し実験を行うものを一元配置実験と呼びます。平たく言えばパラメータが一つの単純な実験です。例えば下記のような実験結果が得られた…

実験計画法(1)-因子と要因

DOE

エンジニアの作法として大まかに実験ベースと理論ベースに基づく立場があります。前者で理論を無視するとデータ解析で理論的にありえない回帰直線を引いたり、後者で実験のバラツキを無視すると本来ないはずの効果を議論したりしてしまいます。どう考えても…

単回帰分析結果のカラーリング

シンプルな単回帰分析結果ですが、なんでもそうですが普段やりなれていない方には取りつきにくいものです。今回は見た目とカラーリングで遊んでみます。 まずは単回帰分析 単回帰分析の第1のアウトプットはXとYの直線関係を推定することです。例えば、下図の…

グラフ系列のカラーリング

グラフ作成時に各系列の色付けは悩みの種です。特に棒グラフや箱ひげ図など各系列の表示面積が大きいと、プレゼンの印象も左右するので悩ましいです。今回は箱ひげ図をモチーフに、色々なカラーリングを試してみました。色覚タイプによる判別のしやすさもあ…

Markdown記法(1) - 記号

Markdownで数式を書く場合における、tex記法での記号備忘録です。 関係演算子 記号 Markdown [math] \gt [/math] \gt, > [math] \gg [/math] \gt, [math] \ge [/math] \ge, \geq [math] \geqq [/math] \geqq [math] \lt [/math] \lt, [math] \ll [/math] \ll…

外れ値(3)ー 外れ値との付き合い方

外れ値は解析を行う上で、障害以外の何物でもありません。しかし外れ値の中でも意味のあるものとないものがあります。外れ値から有益な情報を取り出せるかはエンジニアの経験に大きく依存するのではないかと思います。そのあたり思う所を書きます。 外れ値と…

外れ値(2)ー Thompson/Masuyamaの棄却検定

外れ値検定としてはSmirnoff-Grubbsの検定を知っていれば十分な気がしますが、ThompsonとMasuyamaの棄却検定も勉強を兼ねて紹介、実装してみます。 Thompsonの棄却検定 [math] \bar{x} [/math]を標本平均、[math] \displaystyle {V}^2 [/math]を標本分散(不…

外れ値(1)ー Smirnoff-Grubbs検定

外れ値検定について書きます。得られたデータの飛び値が外れ値なのかどうかは、よく検討課題になります。統計検定では主観を交えず数値として結果を得ることが出来ます。盲目的に検定結果を懐に携えておくと、実験計画を立てた時の思い入れを跳ねのける力を…

多群の等分散性検定(3)ー 検定手法の比較

多群の等分散性検定には様々な手法が存在します。対称データの違いで検定結果がどのように変わるのか体感するために、Bartlett/Hartley/Levene/Brown-Forsythe/O'Brien/Frigner-Killeen検定について比較を行ってみました。 検証方法 データは3群で2群は標準…

多群の等分散性検定(2)ー Frigner-Killeen

多群のバラツキ同等性(等分散性)の検定にも、Bartlett/Levene/Brown-Forsythe検定などの他に順位統計量をもとにした母集団に特定の分布を仮定しないノンパラメトリックな検定が存在します。今回はそんなFrigner-Killeen検定[1]について紹介します。 Frigne…

多群の等分散性検定(1)ー Bartlett/Levene/Brown-Forsythe/O'Brien/Hartley

実験結果について比較を行う場合、平均値(中央値)の比較を行うことが多いですが、バラツキ(分散)の比較を行うこともあります。特に製造分野に関わっていると、バラツキ含めたワースト状況でどちらの特性が良いかは非常に重要です。一定以上の特性を持つ…

シンプソンのパラドクス

今回はシンプソンのパラドクスを紹介します。これもよく取り上げられる割と単純な話題なのですが、データ解析を行う上で基礎として知っておいた方が良いです。 シンプソンのパラドクス 例えば下記のような、解析対象group.1及びgourp.2について、実験条件A及…

標準偏差(分散)をn-1で割る理由

標準偏差は下記のように平均偏差の二乗和をn-1で割り平方根とったものです。平方根の中はいわゆる不偏分散です。不偏分散算出時に何故n-1で割るかについては様々な統計ブログに記事が載っています。自身の勉強も兼ねて、なるべくわかりやすく説明してみたい…

ロバスト(M推定量)な回帰

平均値に対する中央値のように、統計解析手法の中には外れ値に影響を受けにくいロバストな手法があります。回帰分析においてはPassing and Bablokの方法と、Theil-Sen's imcomplete methodをこちらで紹介しました。これらの手法は正規分布なども仮定しない完…