アプリ「okke」で効率よく学ぶ!

箱ひげ図


概要

データのばらつき具合をグラフにまとめて見やすくした、下のような図を、箱ひげ図という。どこがヒゲなのかよくわからないが、箱の左右から伸びている線が「ヒゲ」だと思われる。硬そうな毛である。

ポップな名前にしては、データの範囲四分位範囲、最小値、第1四分位数中央値(第2四分位数)平均値第3四分位数、最大値など、データの概要を知るために必要な色々な情報が、この図につまっている。

Untitled 1 P1 21.png

「+」の位置が平均値、箱の真ん中の縦線の位置が中央値であることに注意しよう。よくこんがらがるが、中央値が第2四分位数であることを踏まえると、縦線が四分位数を表しているということで、スッキリ納得できるはず。

また、四分位数の定義から、箱の中にデータのだいたい50%くらいが含まれることを意識しておこう。

逆に考えると、箱の長さに比べて、ひげが異様に長い場合は、外れ値(異常に大きかったり小さかったりするデータ)が含まれていることを意味している。

ヒストグラムと比べると、全体のデータの様子はわからないが、具体的な代表値の様子がわかる点が強みとなる。

例えば、 人の生徒の体重を調べた結果が以下の通りだったとする。

なので、このデータの箱ひげ図は、以下の通り。

なんでこんなに用語が出てくるのか、理解に苦しむ方は、例えばぶおとこばってんの「データの分析まるごと解説」の動画を見てみよう。スッキリと理解できるはず。

タグ

# データの範囲
# 中央値
# 四分位数
# 四分位範囲
# 外れ値
# 平均値
# 箱ひげ図