統計学の基礎の基礎である「平均値」「中央値」「最頻値」―—。ニュースなどで耳にする機会も増えましたが、いまいち違いがよくわからなくなることもしばしば。
また、統計検定・DS検定・G検定など統計・データサイエンスの資格試験では頻出問題でもあります。
本記事では現役G検定講師が監修の上、平均値・中央値・最頻値の違いを説明します。きちんと理解できるように、具体例や練習問題を交えてわかりやすく解説します。
最後には統計をしっかりと勉強したいという方向けにおすすめの参考書や講座も紹介させていただいてますので、ぜひ最後までご覧ください!
監修者
經田 原弘
東京大学大学院新領域創成科学研究科複雑理工学専攻修了。大学時代は3次元の医療データの平滑化処理を研究テーマとし、大学院時代はJAXAと協業し、月探査機かぐやの衛星データから、月面上の水の存否について調査していた。新卒では株式会社リクルートにてレコメンドシステムの開発等に従事し、現在は製造業系スタートアップにてデータサイエンティストとして勤務。応用情報技術者試験・E資格合格者。
例題で解説!平均値・中央値・最頻値の違い
「中央値」「最頻値」「平均値」、それぞれ用語の解説に入る前にまずは具体例でイメージを深めてみましょう。
駄菓子屋で下記のものを購入した場合の平均値・中央値・最頻値を求めてみましょう
・10円ガムを2つ
・30円のスナック菓子を3つ
・70円のキャンディを1つ
・100円のアイスクリームを1つ
平均値
平均値とは、全てのデータを足し合わせた後に、データの数で割った値のことです。
データの合計を、データの個数で割って得られる値
今回の例の場合では、
・データの合計(商品価格の和)=210円(10円+10円+30円+30円+30円+70円+100円)
・データの個数=7個
答え:平均値=40円(280円÷7個)
平均値は40円であることがわかります。
中央値
中央値とは、中央値とはデータを小さい順に並べたデータのちょうど中央にあるデータのことです。
ここで気を付けていただきたいのは「データの個数が奇数個か偶数個かで中央値の値が変わる」ということです。
例題①:データの個数が奇数個の場合
まずは奇数個の場合から見ていきましょう。今回の例の場合、小さい順に並べると10 、10円 、 30円、 30 円(中央値)、 30円 、70円、100円という並び順になります。
答え:30円=中央値(データの真ん中の値)
中央値は30円になります。
No | 買ったもの | 金額 |
---|---|---|
1 | ガム | 10円 |
2 | ガム | 10円 |
3 | スナック菓子 | 30円(中央値) |
4 | スナック菓子 | 30円(中央値) |
5 | スナック菓子 | 30円(中央値) |
6 | キャンディ | 70円 |
7 | アイスクリーム | 100円 |
例題②:データの個数が偶数個の場合
仮にデータの数が偶数個ある場合には、真ん中の値が存在しないため、真ん中前後の値の平均値を中央値とします。
中央値=真ん中前後の値の平均値
例えば下記の表からスナック菓子2つとキャンディ1つを抜いたとしましょう。その場合は、No2のガムとNo3のスナック菓子の平均値が中央値になります。
・真ん中の前後の値の平均値:20円=(10円+30円)÷2
答え:中央値=20円
中央値は20円であることがわかります。
No | 買ったもの | 金額 |
---|---|---|
1 | ガム | 10円 |
2 | ガム | 10円 (中央値) |
3 | スナック菓子 | 30円(中央値) |
4 | アイスクリーム | 100円 |
最頻値
最頻値とは、最も出現頻度が多い値(データ)のことを指します。今回の例の場合、10円の商品を2つ、30円の商品を3つ、100円の商品を1つ購入しており、30円の商品の購入数が3つと最も多いことから、最頻値は30円となります。
No | 買ったもの | 金額 |
---|---|---|
1 | ガム | 10円 |
2 | ガム | 10円 |
3 | スナック菓子 | 30円(最頻値) |
4 | スナック菓子 | 30円(最頻値) |
5 | スナック菓子 | 30円(最頻値) |
6 | キャンディ | 70円 |
7 | アイスクリーム | 100円 |
まとめ
それぞれの違いをもう一度復習してみましょう。
- 平均値:全てのデータを足し合わせた後に、データの数で割った値
- 中央値:データを小さい順に並べたデータのちょうど中央にあるデータ
- 最頻値:最も出現頻度が多いデータ
データによっては平均値・中央値・最頻値がすべて一緒に値になることもあります。もしそのような引っ掛け問題が出てきたとしても下の定義を忘れず、冷静に回答しましょう。
練習問題
たかしさんは、居酒屋で、300円のハイボールを4つ、400円の日本酒を1つ、600円のおつまみを2つ注文しました。ここで、注文商品の価格の平均値、中央値、最頻値について一緒に考えてみましょう。
No | 商品名 | 商品価格 |
---|---|---|
1 | ハイボール | 300円 |
2 | ハイボール | 300円 |
3 | ハイボール | 300円 |
4 | ハイボール | 300円 |
5 | 日本酒 | 400円 |
6 | おつまみ | 600円 |
7 | おつまみ | 600円 |
答え
前述した平均値・中央値・最頻値の定義を当てはめると下記の答えになります。わからない・答えを間違えた場合は記事の上部をみて復習してみましょう!
- 平均値 = 400円
- 中央値 = 300円
- 最頻値 = 300円
初心者向けのおすすめ本・講座
ここまで平均値・中央値・最頻値の違いについて説明してきました。この単元は統計検定3級・DS検定では頻出問題として扱われますし、統計学における基礎の基礎になります。
完全独習 統計学入門
ボリュームも少なく、1日でも読み切れるレベルの分量です。
統計学の初学者で統計学の前提知識が全くない方や、「まずは数式よりは文字で把握したい」という方にとっては非常におすすめです。
DS検定対策講座
DS検定対策講座は、一般社団法人 データサイエンティスト協会が主催する『データサイエンティスト検定™ リテラシーレベル』(略称:DS検定™★)を短時間で突破するための講座です。データサイエンス力、データエンジニア力、ビジネス力まで幅広く学べる講座です。
