Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ロバスト

ロバストZスコア(2)

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

68–95–99.7則

68–95–99.7則というものがあるみたいです。 1,2,3sigma 統計学において68–95–99.7則とは、平均値を中心として両側1sigma、2sigma、3sigmaの幅に入るデータの割合です。より正確には、68.27%、95.45%、 99.73%で、正規分布の累積密度関数から計算されます。 …

実験計画法(7)-Aligned Rank Transform

直交表などの実験計画法を解析する場合、分散分析(ANOVA)が基礎となります。しかしANOVAは正規分布を仮定しており、対象データが正規分布かどうかより著しく逸脱した外れ値の影響を受けやすいです。バランス型の実験計画を前提として、変数変換によりノン…

ロバスト(M推定量)な回帰

平均値に対する中央値のように、統計解析手法の中には外れ値に影響を受けにくいロバストな手法があります。回帰分析においてはPassing and Bablokの方法と、Theil-Sen's imcomplete methodをこちらで紹介しました。これらの手法は正規分布なども仮定しない完…

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値…

ロバストZスコア

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、おなじみの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。 範囲と偏差 本題に入る前に統計学における範囲(Range…