Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

箱ひげ図(2)

箱ひげ図(1)ではBox plotの基礎を述べました。実際にはさらに改良が加えられたツールを用いることが多く、ソフトによってもいろいろな派生形があります。今回は基本形に追加される代表的な可視化方法を説明します。

 

外れ値(Outlier)

リアルデータを扱っていると必ず外れ値、異常値に出くわします。理由にもよりますが、本来の母集団と関係ないデータはなるべく省くべきです。Box plotでも外れ値を除外した可視化方法がとられます。

 

慣例的によく用いられるのは四分位範囲(IQR)を用いる方法です。下図に示すようにQ3(Q1)からIQRの1.5倍以上大きい(小さい) データを全て外れ値と見なします。外れ値以外のデータで最大値や最小値、四分位数を計算しBox plotを描きます。外れ値自体は✖やドットで表し、外れ値の存在を示します。

f:id:OceanOne:20200110022205j:plain

Fig.1 Box plotにおける外れ値の可視化方法

Q1/Q3から1.5 x IQR離れたデータを外れ値とする場合、全データの99.3%が含むまれることになります。以上はBox plotを開発したテューキー (John Wilder Tukey, アメリカの数学・統計学者 1915-2000)による定義ですが、ヒゲは「最大値から最小値まで」(Spear)や「データの95%中央範囲」(Altman)とする場合もあります。
 

平均値(Average)

通常Box plotで分布の中心値を表す代表値は中央値です。ただし平均値などを示す場合は、バツ印などでBox plot中に示します。中央値と平均値にズレがある場合はデータ分布の非対称性を確認することが出来ます。 

f:id:OceanOne:20200110022657j:plain

Fig.2 Box plotにおける平均値の可視化方法

 

信頼区間(Confidence Interval)

Box plotの中央に中央値を置くことは何度も説明しましたが、中央値は点推定です。同じ中央値でも、10個と1000個のデータの中央値では確からしさが異なりますよね?この確からしさを幅で示すものが信頼区間です(信頼区間のお話はまた後日…)。Fig.3に示すようにNotchと呼ばれる凹み部の幅で示したり、ソフトにより様々な表示方法と取ります。

f:id:OceanOne:20200112235917j:plain

Fig.3 Box plotにおける中央値の信頼区間の可視化方法

統計要約量としては平均値の信頼区間の方が一般的です。平均値と信頼区間を菱形で表したり、平均値の信頼区間は別途幅を表示するといった方法がとられます。

f:id:OceanOne:20200113000456j:plain

Fig.4 Box plotにおける平均値の信頼区間の可視化方法

 

まとめとオープンソース

今回説明した各項目はBox plotの表示項目としては一般的なものです。色々な派生形がありますが、実は一つ知っていれば他は類推できそうです。ご自分の解析環境を理解しておくことが重要だと思います。Box plot表示環境がない場合、Box plot作成のオープンソースアプリケーションとしてはBoxPlotRなどがあります。