Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

統計要約量

ロバストZスコア(2)

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

バラツキのロバスト統計量(7)- 指数分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動…

バラツキのロバスト統計量(6)- 一様分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分…

バラツキのロバスト統計量(5)- 正規分布で比較

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[m…

バラツキのロバスト統計量(4)- [math] \displaystyle Q_n [/math]

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。ここではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、Rousseeuwと…

バラツキのロバスト統計量(3)- [math] \displaystyle S_n [/math]

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n […

バラツキのロバスト統計量(2)- MAD

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Ran…

バラツキのロバスト統計量(1)- IQR

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分…

ミッドレンジ

ミッドレンジについて特性を確かめてみます。 ミッドレンジ 統計学においてミッドレンジ(mid-range)は分布中心を推定する指標の一つにです。具体的には最大値と最小値の中心値(平均値)です。 この定義を聞いて想像される通り、ミッドレンジは外れ値に弱い…

Quade検定

Quade(クェード)検定について記述します。 Quade(クェード)検定 Quade検定はFriedman検定と同様に、2元配置や乱塊法のようなブロック因子を考慮した対応のある1元配置の実験計画のノンパラメトリックな検定手法です。Quade検定はウィルコクソンの符号順…

Iman-Davenport検定

Friedman検定修正版のIman-Davenport(イマン・ダベンポート)検定です。 Iman-Davenport(イマン・ダベンポート)検定 Friedman検定はノンパラメトリック検定で、対応のある2群以上の多群の差を検定する手法です。Friedman検定の特徴として保守的である(=…

Friedman検定

Kruskal-Wallis検定に続いてFriedman検定です。実務でも使う機会は多いはずですが、Kruskal-Wallis検定が普通でないとFriedman検定は使わない気がします。でも適用機会は多いので。 Friedman検定 Friedman検定は、乱塊法のために開発された手法です。ノンパ…

Kruskal-Wallis検定

一元配置分散分析に対応するノンパラメトリック検定としてKruskal-Wallis検定があります。実務でも良く使う手法だと思います。が、これまで記事中で触れた事はあるのですが記事にしていないことに気づきました。ということで、Kruskal-Wallis検定です。 Krus…

実験計画法(6)-グレコ・ラテン方格

実験計画法のうち、ラテン方格からさらに発展したグレコ・ラテン方格法について述べます。 グレコ・ラテン方格法 ラテン方格とはn行xn列の表にn個の異なる記号が各行各列に1度だけ現れる表です。このラテン方格の各記号に実験水準を割り当てる実験計画法がラ…

外れ値(3)ー 外れ値との付き合い方

外れ値は解析を行う上で、障害以外の何物でもありません。しかし外れ値の中でも意味のあるものとないものがあります。外れ値から有益な情報を取り出せるかはエンジニアの経験に大きく依存するのではないかと思います。そのあたり思う所を書きます。 外れ値と…

外れ値(2)ー Thompson/Masuyamaの棄却検定

外れ値検定としてはSmirnoff-Grubbsの検定を知っていれば十分な気がしますが、ThompsonとMasuyamaの棄却検定も勉強を兼ねて紹介、実装してみます。 Thompsonの棄却検定 [math] \bar{x} [/math]を標本平均、[math] \displaystyle {V}^2 [/math]を標本分散(不…

外れ値(1)ー Smirnoff-Grubbs検定

外れ値検定について書きます。得られたデータの飛び値が外れ値なのかどうかは、よく検討課題になります。統計検定では主観を交えず数値として結果を得ることが出来ます。盲目的に検定結果を懐に携えておくと、実験計画を立てた時の思い入れを跳ねのける力を…

標準偏差(分散)をn-1で割る理由

標準偏差は下記のように平均偏差の二乗和をn-1で割り平方根とったものです。平方根の中はいわゆる不偏分散です。不偏分散算出時に何故n-1で割るかについては様々な統計ブログに記事が載っています。自身の勉強も兼ねて、なるべくわかりやすく説明してみたい…

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値…

順位相関係数

一般的に使われる(ピアソンの積率)相関係数のほかに、スピアマンの順位相関係数とケンドールの順位相関係数があります。 ピアソンの積率相関係数はデータが正規分布していることが前提で、外れ値がある場合なども誤った結果になります。このような仮定を置…

共分散と相関係数

(そういえば書いていなかったので)相関係数について書きます。相関係数は共分散の改良版です。まずは共分散から入り、相関係数を説明します。 共分散から相関係数 (xi,yi)のデータ群があった時、共分散は下記のように定義されます。 ただし、xiとyiの平均…

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。 範囲と偏差 本題に入る前に統計学における範囲(Range…

データの平均値、中央値

今回はデータの中心の値、正規分布なら平均値、より外れ値にロバストな中央値、その他派生型について説明します。 データ中心の代表値 あるバラツキのある特性値について代表値を知りたいときに用いられる、最も代表的な値は平均値と思います。ところが実際…