Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

ロバストZスコア(2)

データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や…

バラツキのロバスト統計量(7)- 指数分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動…

バラツキのロバスト統計量(6)- 一様分布で比較

バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分…

バラツキのロバスト統計量(5)- 正規分布で比較

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[m…

バラツキのロバスト統計量(4)- [math] \displaystyle Q_n [/math]

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。ここではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、Rousseeuwと…

バラツキのロバスト統計量(3)- [math] \displaystyle S_n [/math]

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n […

バラツキのロバスト統計量(2)- MAD

”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Ran…

バラツキのロバスト統計量(1)- IQR

データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分…

箱ひげ図 ー ボックス間の接続

箱ひげ図では条件間を平均値などで接続する場合があります。 箱ひげ図とボックス間の接続 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。 箱ひげ図の派生型の中で、平均値などで条件間を接続する場合があります。例え…

箱ひげ図 ー ドットプロット

箱ひげ図のオプションについて、取得データをドットプロットで表示する場合があります。 箱ひげ図 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。統計的に信頼できるデータのバラツキを箱、判断に迷うものをヒゲとして…

正規確率プロット縦軸表示方法

箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットについて、縦軸表示の派生型を説明します。 正規確率プロット 正規確率プロットとはQ-Qプロット(quantile-quantile plot)の一種です。Q-Qプロットとは期待している確…

いかにして問題をとくか(2)

G.ポリアの「いかにして問題をとくか」から問題解決のアプローチ方法を図示します。 G.ポリアの2.「計画を立てること」 未解決課題があるとして、G.ポリアの「計画を立てること」が大変参考になります。要約してみると下記のようになります。本書は問題解決…

いかにして問題をとくか(1)

言わずと知れたG.ポリアの名著「いかにして問題をとくか」です。柿内賢信訳の書籍表紙見返りには要約がついています。まずはそこから 「いかにして問題をとくか」の要約 有名な訳は以下です、ちょっと多いのであとで圧縮してみます。 1.問題を理解すること …

2標本におけるバラツキの差の検定(3)

2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。正規分布に従う乱数で、外れ値を含めてみます。正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で外れ値混入率を変化させて比較 サンプル数10の2…

2標本におけるバラツキの差の検定(2)

2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。一先ず外れ値なしで試行、正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で比較 サンプル数10の2群データについて、正規乱数に従う1000回試行で…

2標本におけるバラツキの差の検定(1)

2標本におけるバラツキ差のノンパラメトリック検定を実装してみます。今回はMood検定、Klots検定、Savege検定、Siegel-Tukey検定、Ansari-Bradley検定、Sukhatme検定です。 Mood検定 Mood検定は1954年に提案されています。中央値が等しいことが分かっている2…

68–95–99.7則

68–95–99.7則というものがあるみたいです。 1,2,3sigma 統計学において68–95–99.7則とは、平均値を中心として両側1sigma、2sigma、3sigmaの幅に入るデータの割合です。より正確には、68.27%、95.45%、 99.73%で、正規分布の累積密度関数から計算されます。 …

工程能力

工程能力指数(process capability index)のCpとCpkです。 管理限界線と規格値 工程管理では一番わかりやすいのはスペック=規格値と思います。それぞれ上限(USL)と下限(LSL)があります。次に管理線として中心線、および上方管理限界線(UCL)と下方…

ウォーターフォールチャートツール

自作したウォーターフォールチャートの使い方です。こちらの使い方になります。備忘録のようなものです。 ウォーターフォールチャートの使い方 起動後にFile>Open File(Waterfall)をクリックします。 可視化したいデータを指定するとウォーターフォールチャ…

ウォーターフォールチャート形状の派生型

ウォーターフォールチャートを表現する形状にはいくつか派生型があります。いくつか実装してみました、ツールも置いてあります。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のよ…

ウォーターフォールチャートのカラーリング

ウォーターフォールチャートのカラーリングで遊んでみました。実装ツールも置いてあります。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけら…

ウォーターフォールチャート

ウォーターフォールチャートについての説明と実装結果です。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけられています。 ウォーターフォール…

ミッドレンジ

ミッドレンジについて特性を確かめてみます。 ミッドレンジ 統計学においてミッドレンジ(mid-range)は分布中心を推定する指標の一つにです。具体的には最大値と最小値の中心値(平均値)です。 この定義を聞いて想像される通り、ミッドレンジは外れ値に弱い…

標準偏回帰係数

重回帰の標準偏回帰係数についての説明と実装結果です。 標準偏回帰係数 重回帰分析を行った結果得られる、偏回帰係数つまり各説明変数の係数ですが、これはもちろん単位系や各説明変数の大小に依存します。例えば、測定単位を g から kg に変えると偏回帰係…

決定的スクリーニング計画をFDSプロットで比較

決定的スクリーニング計画を紹介していますが、実験計画の比較ツールであるFDSプロットで類似計画と比較してみます。 決定的スクリーニング計画と類似計画の比較 決定的スクリーニング計画(Definitive screening design, DSD)は2次の効果も推定できる最適…

決定的スクリーニング計画

実験計画法の中の、決定的スクリーニング計画について書きます。 決定的スクリーニング計画 まずスクリーニング計画とは、実験の初期段階で重要な因子を特定するための実験を少ない試行数で特定する計画です。決定的スクリーニング計画はモデル式として多項…

Quade検定

Quade(クェード)検定について記述します。 Quade(クェード)検定 Quade検定はFriedman検定と同様に、2元配置や乱塊法のようなブロック因子を考慮した対応のある1元配置の実験計画のノンパラメトリックな検定手法です。Quade検定はウィルコクソンの符号順…

Iman-Davenport検定

Friedman検定修正版のIman-Davenport(イマン・ダベンポート)検定です。 Iman-Davenport(イマン・ダベンポート)検定 Friedman検定はノンパラメトリック検定で、対応のある2群以上の多群の差を検定する手法です。Friedman検定の特徴として保守的である(=…

Friedman検定

Kruskal-Wallis検定に続いてFriedman検定です。実務でも使う機会は多いはずですが、Kruskal-Wallis検定が普通でないとFriedman検定は使わない気がします。でも適用機会は多いので。 Friedman検定 Friedman検定は、乱塊法のために開発された手法です。ノンパ…

Kruskal-Wallis検定

一元配置分散分析に対応するノンパラメトリック検定としてKruskal-Wallis検定があります。実務でも良く使う手法だと思います。が、これまで記事中で触れた事はあるのですが記事にしていないことに気づきました。ということで、Kruskal-Wallis検定です。 Krus…