Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

乱数で中心極限定理

統計学中心極限定理が説明していることは

期待値μ、分散σ2の任意の確率分布に従う母集団からの標本平均は、

nが十分大きい時には正規分布N(μ,σ2/n)で近似される

です。つまり母集団に分散が定義できれば、どんな分布でも平均化していくと正規分布になる、ということです。今回は乱数を用いて色々な確率分布の正規分布への収束を確認してみます。

一様乱数を平均化

一様乱数についてn回の平均値を観測値として、これを10万回試行し、ヒストグラムを作成したものを下記に示します。nは1~9回までを試しています。

f:id:OceanOne:20200410023148j:plain

平均化回数を増やすごとに分布の形状は正規分布に近づいている様子がわかると思います。これを利用すると多数回平均化した一様乱数から正規分布に従う乱数を生成することもできます。[0,1)の一様分布乱数の分散は1/12なので、12回平均をとると分散=1、標準偏差=1の正規分布乱数になります。

色々な乱数を平均化

もう少し偏った分布にしています。[0,1)で累積確率が1に向かって線形に増加するような確率分布を考えてみます。同様に1~9回まで平均をとったときの分布を下記に示します。

f:id:OceanOne:20200410023344j:plain

このような分布でも9回も平均をとるとかなり正規分布していることがわかります。

もう少し非線形な分布はどうでしょう。図中右側に偏らせてみました。

f:id:OceanOne:20200410024116j:plain

やはり9回も平均をとると、かなり正規分布に近いです。さすが安定分布。

f:id:OceanOne:20200410024439j:plain

このような分布でも正規分布に収束する様子がよくわかります。

平均化しても正規分布にならない場合

この節はおまけです。大抵の分布は平均化すると正規分布に漸近しますが、いくつかの分布は正規分布に収束しません(このように平均化すると収束していく分布を安定分布と呼びます)。

例えば下記のCauchy分布です。この分布は裾が無限に広いため分散が定義できず、平均化しても正規分布になりません。

f:id:OceanOne:20200411233712j:plain

f:id:OceanOne:20200411230522j:plain

Cauchy分布自体が安定分布のため、平均化後もこの分布はCauchy分布になります。また平均化しても裾が非常に長い(実際に無限大)ため、ちっとも中心位置に分布が狭まってこないこともわかるかと思います。

まとめ

中心極限定理の通り、大抵のバラツキ成分は重なり合うと正規分布になります。製造工程のバラツキについても同様です。特に工程数が数百あるような場合、いくつかの工程が多少偏った分布でも最終的な製品の特性バラツキは正規分布になります。

例外として分散が定義できないような場合は正規分布に漸近しないことも例示しました。私見になってしまいますが、実製品の製造工程バラツキに関しては正規分布に収束すると考えてよいと思います。(そもそも分散が定義できないようなバラツキを持つ製造工程がある場合、実製品の製造が成り立たないはずですし。)

製造バラツキを考える上では、中心極限定理のことを頭の片隅置いておくことは重要と思います。