Engineering Skills

製品開発エンジニアがデータ解析のノウハウを垂れ流します

箱ひげ図(4)ー オプション

条件間比較をする場合に有用な箱ひげ図(Box plot)ですが、表示方法にいくつかオプションがあります。今回は派生型を紹介します。以下に示す箱ひげ図は、みんな大好きアヤメ(iris)データのがく片の長さ(sepal length)を用いています。表示結果は自身でコーディングしたプログラムの結果です。

(通常の)箱ひげ図

箱ひげ図の基本形は下図に示すように、データの中央値、第1、第3四分位値、外れ値を省いた最小値、最大値を表示するものです。

f:id:OceanOne:20200519025127j:plain:w500

virginicaのように外れ値がある場合は箱ひげ図の外側に×印などで表示する場合が多いです。

平均値と平均値の信頼区間

箱ひげ図は基本的に中央値や四分位値など順序統計量を可視化します。平均値やその信頼区間など正規分布を仮定したパラメトリックな統計量を追加で示す場合があります。よく見かける例として、下図のようにひし形の中央を平均値、ひし形の高さで信頼区間を表現するものがあります。

f:id:OceanOne:20200519030232j:plain:w500

中央値の信頼区間

箱ひげ図で表示する中央値についても信頼区間が定義できます。これに関しては箱ひげ図に切れ込みを入れて表示するツールもあります。

f:id:OceanOne:20200519030400j:plain:w500

Shortest half

JMPに実装されている機能としてShortet Halfというものもあります。これは、読んで字のごとしデータの"半分が含まれる最小範囲"です。データの中心傾向をラフに把握する意図と思います。ですので、データが二極化しているするとあまり意味がありません。平均値、中央値も同じですが。。。

表示方法としては箱ひげ図の側面などに(この例では)赤線などで範囲をしめす直線を描きます。

f:id:OceanOne:20200519031013j:plain:w500

個別値のプロット

箱ひげ図が有用としても、データ量を解析者が把握できるように情報量を削減していることは事実です。解釈に困った場合には、全データを見直すという処理も必要です。箱ひげ図でも個別値をプロットする場合ですが、下記では縦軸に個別値、横軸は箱ひげ図の横幅の半分程度の範囲にランダムにプロットしています。

f:id:OceanOne:20200519034919j:plain:w500

ヒストグラム

箱ひげ図と同様にデータの様子を概観する可視化方法としてヒストグラムがあります。一部ツールでは、箱ひげ図とヒストグラムを同時に表示する場合があります。ある程度データ数があると分布の概形も把握出来て参考になります。ここまで来ると、箱ひげ図とヒストグラムのどちらがメインなのか良くわからなくなってきます。箱ひげ図も万能ではないということの表れかなと思います。

全部のせ

ここまでの派生オプションを全部のせすると、このような感じになります。一変量のデータなのに、とてもゴージャスです!

f:id:OceanOne:20200519032841j:plain:w500

終わりに

趣味も兼ねて箱ひげ図の派生オプションを紹介、実装してみました。実装結果のツールはこちらに置いています。遊んでみてください。