Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

箱ひげ図(1)

箱ひげ図(Box plot)について説明します。我々製品エンジニアは様々な条件で試作し、優劣を比較します。Box plotは多くの条件間比較を行う場合に便利です。直感的な可視化方法ですが、本当に理解しようとすると統計知識が不可欠です。

Box plotは和名の通り、「箱」(Box)と「ひげ」(Whisker)でデータバラツキを可視化する手法です。「箱」と「ひげ」を理解するためには次に述べる統計量を知る必要があります。

 

五数要約

データバラツキを5つの数値に代表させる五数要約というものがあります。

すなわち

最小値、第1四分位数、第2四分位数(中央値)、第3四分位数、最大値

これを可視化したものがBox plotになります。

 

◆中央値(median)
データにおける「真ん中」の値です。具体的には、データをソートした際に、中央に位置する値です。平均値よりも異常値があったい場合に頑健(ロバスト)です。またメディアン、メヂアンと呼びますが、メヂアンはなんとなくダサくて嫌いです。

 

◆最小値(minimum), 最大値(maximum), 範囲(range)
Box plotではデータにおける最小値(最大値)もグラフ上に表記します。「ひげ」の上端・下端がそれぞれ最大値・最小値です。最大値、最小値の差分を範囲(range)と呼びます。実はこれらの数値はデータ数に依存し、あまりロバストではありません。

 

◆四分位数(quartile)
四分位数とは、データをソートし四等分した際の境界の値を指します。全体で25%の場所に位置する値を「第1四分位数」(Q1)、75%の場所に位置する値を「第3四分位数」(Q3)と呼びます。上述した中央値は「第2四分位数」(Q2)にあたります。

 

◆四分位数(quartile)
◆四分位範囲(IQR, Interquartile range)
第1四分位数と第3四分位数の間の範囲を「四分位範囲」と呼びます。略称でIQRとも呼びます。Box plotでは、箱の上辺・底辺間の長さがまさに四分位範囲そのものです。ちなみに0.7413 x IQR=NIQR(Normalized Interquartile Range)は外れ値に対してロバスト標準偏差の推定値になります。

 

f:id:OceanOne:20200109023352j:plain

Fig.1 Box Plot

なぜBox plotを使うのか?

多数の可視化手法の中でBox plotを使うメリットは、バラツキがあるデータの中で複数の条件を一括で比較できる点にあります。

 

f:id:OceanOne:20200109024621j:plain

Fig.2 Box plotを用いた条件比較

Fig.2に3つの条件での特性値についてBox plotを用いた比較を示します。

条件Aに対し条件Bはバラツキも小さく有意に特性値は低下していそうです。一方条件Cは特性値が最大ですがバラツキも大きく有意な差とは言えなそうです。

このようにBox plotを用いると複数の統計情報を視覚的に捉えることができます。