Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

箱ひげ図(3)- サンプルサイズ

(今回は箱ひげ図(Box plot)をリアルデータに適用する場合のサンプルサイズについての注意点を説明します。

 

サンプルサイズ(Sample size)

Box plotの弱点の一つはサンプルサイズがわかりにくい点です。下図はとあるデータでBox plotを統計ソフトRで描画させた結果です。サンプルサイズがいくつくらいのデータが想像できますか?

f:id:OceanOne:20200113004346j:plain

Fig.1 Box plot例

実はFig.1を描画するのに用いたデータは3点です。統計ソフトにも寄りますがデータが3点の場合、第一四分位数は最小値と中央値の平均、第3四分位数は最大値と中央値の平均がとられることが多いです。実際には3点しかないのに、Fig.1のように表示されると5点あるいはそれ以上のデータがあるかのように見えてしまいます。

 

サンプルサイズが大きくても、比較対象群間にサンプルサイズ差がある場合も問題です。下図は何れも平均=0、標準偏差=1の乱数で10、100、1000、10000点のデータを生成し同じく統計ソフトRのBox plotで描画させた結果です。

f:id:OceanOne:20200113005852j:plain

Fig.2 Box plotでサンプルサイズが異なるデータを表示させた結果

10点データでは信頼区間がIQRと同等でIQR(箱の幅)に意味はなさそうです。また「ひげ」の長さはサンプルサイズの増加に伴い伸びており、外れ値も1000点を超えた辺りから増加していきます。

上記の例はよく行われるQ1/Q3から1.5 x IQR離れたデータを外れ値とした例です。Q1/Q3は標準偏差を1シグマとした場合0.67シグマになり、IQRは1.34シグマになります。Q1/Q3から1.5 x IQR離れると0.67 + 1.34 x 1.5 = 2.70シグマです。±2.70シグマは0.35%~99.65%になるので、両側の0.35%は必ず外れ値になります。1000点を超えると、正規分布に従った外れ値のないデータであっても、必ず外れ値として扱われることになります。

逆に言えば、外れ値の多さや信頼区間の幅からデータ数の推測ができるようにもなります。技術者同士で議論する場合にも、これらを踏まえておくと相手のデータが持つ信頼性や、統計的なバラツキによる不確かさへのスタンスなども透かしてみることが出来ます。

 

Box plotにもサンプルサイズを反映させる方法はいくつかあります。例えば箱の幅をサンプルサイズと連動させることです。見た目にもわかりやすいですが、データ数に10倍、100倍の開きがあると幅が潰れてしまったり可視化が苦しくなります。

 

個人的には下図に示すようにグラフ外に表など設けて、サンプルサイズを示した方が案外スマートなのではないかと思っています。

f:id:OceanOne:20200114013110j:plain

Fig.4 Box plot欄外にサンプルサイズを示した例