中央値とは?求め方・平均値との違い・使いどころを初心者向けに解説

AIの初心者
『中央値』って、データの真ん中の値という理解で合っていますか?

AI専門家
その通りです。データを大きさの順に並べたとき、ちょうど中央にくる値を中央値と呼びます。たとえば 1, 3, 5, 7, 9 なら中央値は 5 です。

AIの初心者
データの個数が偶数のときは、真ん中が2つになりますよね。その場合はどう求めるのですか?

AI専門家
偶数個の場合は、中央にある2つの値の平均を中央値にします。1, 2, 3, 4 なら、2 と 3 の平均で 2.5 になります。
中央値とは。
データを小さい順に並べたとき、中央に位置する値のことです。平均値と同じくデータの代表値ですが、極端に大きい値や小さい値に左右されにくいため、収入、価格、処理時間、品質管理など、偏りのあるデータの中心を知りたいときに役立ちます。

中央値とは何か
中央値とは、データを大きさの順に並べたときに中央へくる値です。英語では median と呼ばれ、平均値や最頻値と同じく、データの特徴を短く表す代表値の一つです。
たとえば、1, 3, 5, 7, 9 という5つの値を小さい順に並べると、中央にある値は 5 です。この場合、中央値は 5 になります。中央値より小さい値が2つ、中央値より大きい値が2つあるため、データの中央を直感的に表していることが分かります。
中央値の大きな特徴は、外れ値の影響を受けにくいことです。外れ値とは、他の値から大きく離れた極端な値のことです。データの中に一つだけ非常に大きい値があっても、中央値は順番の中央を見るため、平均値ほど大きく動きません。
| 項目 | 説明 |
|---|---|
| 中央値の定義 | データを並べ替えたときの中央の値 |
| 役割 | データの中心的な傾向を示す |
| 強み | 極端な値に左右されにくい |
| よく使う場面 | 収入、価格、待ち時間、製品寿命など偏りがあるデータ |
中央値の求め方

中央値を求める手順はシンプルです。最初にデータを小さい順に並べ替え、次にデータの個数が奇数か偶数かを確認します。ここで重要なのは、計算を始める前に必ず並べ替えることです。元の順番のまま中央を見ると、正しい中央値にならない場合があります。
\(n\text{ 個のデータを小さい順に並べたとき、奇数個なら }(n+1)/2\text{ 番目、偶数個なら }n/2\text{ 番目と }n/2+1\text{ 番目の平均が中央値}\)データの個数が奇数の場合は、中央にある1つの値がそのまま中央値です。1, 3, 5, 7, 9 なら、5個のデータの3番目にある 5 が中央値です。7個のデータなら、4番目の値が中央値になります。
データの個数が偶数の場合は、中央にある2つの値の平均を取ります。2, 4, 6, 8 なら、中央の値は 4 と 6 です。この2つを足して2で割るため、中央値は 5 になります。
| データの個数 | 求め方 | 例 | 中央値 |
|---|---|---|---|
| 奇数 | 中央の1つの値を選ぶ | 1, 3, 5, 7, 9 | 5 |
| 偶数 | 中央の2つの値の平均を取る | 2, 4, 6, 8 | 5 |
平均値と中央値の違い

平均値と中央値はどちらもデータの中心を捉える指標ですが、見ているものが違います。平均値は全データの合計をデータ数で割った値で、全体の量をならした結果です。一方、中央値は並べ替えたときの中央の位置を見る値です。
違いが分かりやすい例として、1, 2, 3, 4, 100 というデータを考えます。平均値は (1 + 2 + 3 + 4 + 100) ÷ 5 = 22 です。しかし、データの多くは 1 から 4 に集まっており、22 は実感として中心に見えにくい値です。
同じデータを小さい順に見ると、中央は 3 です。つまり中央値は 3 になります。100 という外れ値があっても、中央値はデータの並びの中央を見るため、外れ値があるデータでは平均値より実態に近い中心を示すことがあるのです。
| 指標 | 求め方 | 外れ値の影響 | 向いている用途 |
|---|---|---|---|
| 平均値 | 全データの合計 ÷ データ数 | 受けやすい | 全体の合計や均等配分を見たいとき |
| 中央値 | 並べ替えたときの中央の値 | 受けにくい | 偏りや外れ値があるデータの中心を見たいとき |
中央値が役立つ場面

中央値は、データの分布が左右対称ではないときに特に役立ちます。収入や住宅価格のように、一部の非常に大きな値が平均値を押し上げるデータでは、平均値だけを見ると多くの人の実感とずれることがあります。
たとえば、10人の年収を調べたとき、9人が300万円から500万円の範囲にいて、1人だけ3000万円だったとします。この場合、平均年収は高くなりますが、多くの人の実態を表しているとは限りません。中央値を見れば、順番に並べた中央付近の年収が分かるため、より現実に近い中心を把握しやすくなります。
製品寿命や処理時間の分析でも同じです。まれに非常に長持ちする製品や、極端に時間のかかる処理があると、平均値は大きく変わります。中央値を合わせて確認すると、典型的な製品寿命や通常時の処理時間を把握しやすくなります。
| 場面 | 中央値を見る理由 | 具体例 |
|---|---|---|
| 収入 | 一部の高収入者に平均値が引っ張られやすい | 地域や年代別の収入の中心を知る |
| 住宅価格 | 高額物件が平均価格を押し上げやすい | 一般的な購入価格帯を把握する |
| 製品寿命 | 極端に長持ちする製品の影響を抑えられる | 典型的な耐用期間を確認する |
| 処理時間 | まれな遅延に平均が左右されやすい | 通常時の応答時間を評価する |
中央値を見るときの注意点
中央値は外れ値に強い便利な指標ですが、中央値だけでデータ全体が分かるわけではありません。中央値は中央の位置を示す一方で、データがどれくらい散らばっているか、最大値と最小値がどれくらい離れているかまでは十分に表しません。
たとえば、1, 2, 3, 4, 5 と 1, 1, 3, 100, 200 は、どちらも中央値が 3 です。しかし、後者はデータのばらつきが非常に大きく、前者とは性質がまったく異なります。このような違いを見落とさないために、中央値に加えて平均値、最小値、最大値、四分位数、ヒストグラムなども確認することが大切です。
また、データの個数が少ない場合は、中央値も不安定になることがあります。少数のデータだけで判断せず、データの収集方法やサンプル数も合わせて確認しましょう。
AI・データ分析での中央値の使いどころ

AIや機械学習の前処理でも、中央値はよく使われます。特に、数値データに欠損値がある場合、平均値ではなく中央値で補完することがあります。外れ値が含まれるデータでは、平均値で補完すると値が偏る可能性があるためです。
探索的データ分析でも、中央値はデータの分布を理解する手がかりになります。平均値と中央値が大きく離れている場合、データが偏っている、または外れ値が含まれている可能性があります。そのため、モデルを作る前に代表値を比較すると、前処理方針を決めやすくなります。
ただし、中央値で補完すれば常に正しいわけではありません。欠損の理由、特徴量の意味、分布の形によって適切な処理は変わります。中央値はあくまで有力な選択肢の一つとして使い、必要に応じてドメイン知識や可視化結果と合わせて判断しましょう。
まとめ
中央値は、データを小さい順に並べたときの中央の値です。奇数個なら中央の1つ、偶数個なら中央の2つの平均を取ります。計算そのものは簡単ですが、最初にデータを並べ替えることが大切です。
平均値との大きな違いは、外れ値への強さです。平均値は極端な値に引っ張られやすい一方、中央値は並び順の中央を見るため、偏ったデータでも中心的な傾向をつかみやすくなります。
収入、住宅価格、製品寿命、処理時間、AIの前処理などでは、平均値だけでなく中央値も確認すると、データの見え方が大きく変わることがあります。分析では一つの指標だけに頼らず、中央値、平均値、ばらつき、分布の形を合わせて見ることが、より正確な判断につながります。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年2月1日 | 初回公開 |
| 2026年5月1日 | 中央値の定義、求め方、平均値との違い、外れ値への強さ、AI・データ分析での使いどころを初心者向けに再構成 |
