Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ノンパラメトリック

ロバストZスコア(2)

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

バラツキのロバスト統計量(7)- 指数分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動…

バラツキのロバスト統計量(6)- 一様分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分…

バラツキのロバスト統計量(5)- 正規分布で比較

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[m…

バラツキのロバスト統計量(4)- [math] \displaystyle Q_n [/math]

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。ここではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、Rousseeuwと…

バラツキのロバスト統計量(3)- [math] \displaystyle S_n [/math]

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n […

バラツキのロバスト統計量(2)- MAD

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Ran…

バラツキのロバスト統計量(1)- IQR

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分…

2標本におけるバラツキの差の検定(3)

2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。正規分布に従う乱数で、外れ値を含めてみます。正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で外れ値混入率を変化させて比較 サンプル数10の2…

2標本におけるバラツキの差の検定(2)

2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。一先ず外れ値なしで試行、正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で比較 サンプル数10の2群データについて、正規乱数に従う1000回試行で…

2標本におけるバラツキの差の検定(1)

2標本におけるバラツキ差のノンパラメトリック検定を実装してみます。今回はMood検定、Klots検定、Savege検定、Siegel-Tukey検定、Ansari-Bradley検定、Sukhatme検定です。 Mood検定 Mood検定は1954年に提案されています。中央値が等しいことが分かっている2…

Quade検定

Quade(クェード)検定について記述します。 Quade(クェード)検定 Quade検定はFriedman検定と同様に、2元配置や乱塊法のようなブロック因子を考慮した対応のある1元配置の実験計画のノンパラメトリックな検定手法です。Quade検定はウィルコクソンの符号順…

Iman-Davenport検定

Friedman検定修正版のIman-Davenport(イマン・ダベンポート)検定です。 Iman-Davenport(イマン・ダベンポート)検定 Friedman検定はノンパラメトリック検定で、対応のある2群以上の多群の差を検定する手法です。Friedman検定の特徴として保守的である(=…

Friedman検定

Kruskal-Wallis検定に続いてFriedman検定です。実務でも使う機会は多いはずですが、Kruskal-Wallis検定が普通でないとFriedman検定は使わない気がします。でも適用機会は多いので。 Friedman検定 Friedman検定は、乱塊法のために開発された手法です。ノンパ…

Kruskal-Wallis検定

一元配置分散分析に対応するノンパラメトリック検定としてKruskal-Wallis検定があります。実務でも良く使う手法だと思います。が、これまで記事中で触れた事はあるのですが記事にしていないことに気づきました。ということで、Kruskal-Wallis検定です。 Krus…

実験計画法(7)-Aligned Rank Transform

直交表などの実験計画法を解析する場合、分散分析(ANOVA)が基礎となります。しかしANOVAは正規分布を仮定しており、対象データが正規分布かどうかより著しく逸脱した外れ値の影響を受けやすいです。バランス型の実験計画を前提として、変数変換によりノン…

多群の等分散性検定(2)ー Frigner-Killeen

多群のバラツキ同等性(等分散性)の検定にも、Bartlett/Levene/Brown-Forsythe検定などの他に順位統計量をもとにした母集団に特定の分布を仮定しないノンパラメトリックな検定が存在します。今回はそんなFrigner-Killeen検定[1]について紹介します。 Frigne…

RANSAC

いくつか回帰分析の亜種について紹介しきましたが、データを扱っているとノイズが多く含まれるデータに遭遇することがあります。ノイズをうまく避ける手法として、今回はランダムサンプリングに基づくRANSAC(RANdom SAmple Consensus)について書きます。傾き…

ノンパラメトリック手法の対応表

様々な統計分析手法には、主に正規分布を仮定したパラメトリックな手法と順序統計量に基づく特定の分布を仮定しないノンパラメトリックな手法が存在します。二つの対応関係は平均値と中央値のようなものです。正規分布を仮定でき外れ値などもなければ平均値…

ロバストZスコア

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、おなじみの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

バラツキのロバスト統計量

”データの平均値、中央値”では分布中心位置についての統計要約量を述べました。本稿ではバラツキに関する標準偏差以外のロバスト(ノンパラメトリック)な統計量を説明します。具体的にはIQRとMADです。 範囲と偏差 本題に入る前に統計学における範囲(Range…

ロバスト(ノンパラメトリック)な回帰

今回はPassing and Bablokの方法と、Theil's imcomplete methodを紹介します。どちらも外れ値に影響を受けない、ロバストな手法です。Passing and BablokはY=Xであるようなデータが前提なので前提条件に注意が必要です。 Passing and Bablokの方法 Passing …