Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

中心複合計画で乱数実験(1)ー 因子数の影響, 曲面性がない場合

中心複合計画で変数の数を増やすとどのように有意差が出やすくなるのかテストしてみます。

中心複合計画はロバストな手法ですが、要因数を増やした場合、有意差が出やすくなります。今回は、応答は説明変数の線形和で交互作用や曲面性がないデータに対し、正規乱数を足してロバスト性を確認してみます。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。応答Yは説明変数の線形結合で正規分布乱数を加えています。

要因数を増やした場合の一次項の様子

まずは一次項の様子です。要因数=kを増やすと実験数は下記のように増加するので、一次項の有意差は出やすくなります。

f:id:OceanOne:20201123014549p:plain:h120

中心複合計画で中心点の繰り返し数を3、要因数を2~4とした試行を1000回行い、一つ目の要因の一次項のP値を正規確率プロットで示した結果が下記です。最初に述べた通り、応答Yは説明変数の線形結合で、これに標準偏差0.5の正規分布に従う乱数を加えています。要因数について赤=2、青=3、緑=4と、要因数が増えるにつれて一次項のP値は小さく(有意差が出やすく)なります。

f:id:OceanOne:20201123012314p:plain:w350

同じ実験を正規乱数の標準偏差1.0と2.0で行った結果が下記です。

f:id:OceanOne:20201123012344p:plain:w350 f:id:OceanOne:20201123012428p:plain:w350

標準偏差=2.0の場合は、依存関係があるのに有意差が出ない場合も増えてきます。2要因だと50%(半数以上)は有意にならず、標準偏差=1が我慢どころです。今回、応答は説明変数の線形結合なので値域は-1~+1でレンジで2です。目安として、応答Yの変動が偶然誤差のバラツキ(標準偏差)の2倍以上の値域をとるように説明変数の範囲を設定すると良さそうです。

要因数を増やした場合の二次項の様子

次に二次項の様子です。同じくP値で見てみますが、テストデータは一次項の場合と同じなので元々二次成分はないデータです。なので真値はP値が大きいこと。

今回も要因数について赤=2、青=3、緑=4です。要因数が増えるにつれてP値が小さくなり、実際はない二次成分を有意と誤判定しやすくなることがわかります。

f:id:OceanOne:20201125003225p:plain:w350

さらに下記は、二次項或いは交互作用のうち一つでも優位になる確率です。

f:id:OceanOne:20201125004157p:plain:w350

まとめ

中心複合計画において、有意差の出やすさが要因数と共に変化する様子をみてみました。いきなり中心複合計画に対してネガティブですが、こういう傾向があることは把握した上で利用すべきかなと思います。