箱ひげ図
概要
データのばらつき具合をグラフにまとめて見やすくした、下のような図を、箱ひげ図という。どこがヒゲなのかよくわからないが、箱の左右から伸びている線が「ヒゲ」だと思われる。硬そうな毛である。
ポップな名前にしては、データの範囲、四分位範囲、最小値、第1四分位数、中央値(第2四分位数)、平均値、第3四分位数、最大値など、データの概要を知るために必要な色々な情報が、この図につまっている。
「+」の位置が平均値、箱の真ん中の縦線の位置が中央値であることに注意しよう。よくこんがらがるが、中央値が第2四分位数であることを踏まえると、縦線が四分位数を表しているということで、スッキリ納得できるはず。
また、四分位数の定義から、箱の中にデータのだいたい50%くらいが含まれることを意識しておこう。
逆に考えると、箱の長さに比べて、ひげが異様に長い場合は、外れ値(異常に大きかったり小さかったりするデータ)が含まれていることを意味している。
ヒストグラムと比べると、全体のデータの様子はわからないが、具体的な代表値の様子がわかる点が強みとなる。
例
例えば、
なので、このデータの箱ひげ図は、以下の通り。
なんでこんなに用語が出てくるのか、理解に苦しむ方は、例えばぶおとこばってんの「データの分析まるごと解説」の動画を見てみよう。スッキリと理解できるはず。
タグ
# データの範囲
# 中央値
# 四分位数
# 四分位範囲
# 外れ値
# 平均値
# 箱ひげ図