欠損値とは?データ分析での意味・種類・処理方法を解説

欠損値とは?データ分析での意味・種類・処理方法を解説

AIの初心者

「欠損値」って何ですか?データの空欄とは違うものなのでしょうか。

AI専門家

欠損値は、データの中で本来入るはずの値が抜けている状態のことだよ。たとえば、生徒の身長と体重をまとめた表で、Aさんの身長だけが空欄なら、その空欄が欠損値にあたるんだ。

AIの初心者

空欄があるだけなら、そのまま分析してもよさそうに見えます。なぜ問題になるのですか?

AI専門家

欠損値を放置すると、平均値や割合がずれたり、AIが偏ったデータから学習したりすることがある。だから、原因を見て適切に処理することが大切なんだよ。

欠損値とは。

欠損値とは、データ分析や機械学習で使う情報の中に、ある対象の値が記録されていなかったり、一部だけ抜けていたりする状態を指します。単なる空欄に見えても、処理方法によって分析結果は大きく変わります。

欠損値のあるデータ表のイメージ

欠損値とは何か

欠損値とは、集めたデータの中で本来あるべき値が抜けている状態のことです。表計算ソフトの空欄、データベースのNULL、アンケートの未回答、センサーの記録漏れなどが代表的な例です。

たとえば、氏名、年齢、身長、体重をまとめた表で、ある人の身長だけが空欄になっているとします。この場合、その人の行全体が使えないとは限りませんが、身長に関する分析では値が足りません。この足りない部分が欠損値です。

欠損値は、値が極端に大きい・小さい「外れ値」とは異なります。外れ値は値が存在しているものの他と比べて目立つ値であり、欠損値は値そのものがありません。そのため、外れ値の処理と欠損値の処理は分けて考える必要があります。

データ分析では、欠損値を単に邪魔な空欄として扱うのではなく、「なぜ抜けたのか」「どの範囲で抜けているのか」「分析目的にどれほど影響するのか」を確認することが重要です。

欠損値が分析やAIに与える影響

欠損値が分析結果やAI予測に影響する流れ

欠損値があると、平均値、割合、相関、予測モデルなどに影響が出ます。たとえば、地域別の売上データで一部の地域だけ記録が抜けている場合、全体の売れ行きや地域差を正しく判断できません。

影響が小さいかどうかは、欠損値の数だけでは決まりません。欠損が全体に少しずつ散らばっている場合と、特定の年齢層、地域、顧客層に集中している場合では、分析結果への影響が違います。後者では、削除するだけで特定の集団がデータから消え、結論が偏る可能性があります。

機械学習でも同じです。学習データに欠損値が多いと、モデルが現実を十分に反映できないことがあります。また、欠損の処理方法を間違えると、実際には存在しないパターンを学習したり、予測精度の評価が甘くなったりします。

欠損値処理は、分析前の単なる下準備ではなく、分析の信頼性を左右する工程です。処理方法を選ぶ前に、欠損の量、偏り、原因を確認しましょう。

欠損値が発生する主な原因

欠損値はさまざまな理由で発生します。人が入力するデータでは、記入漏れ、入力ミス、回答拒否、設問の見落としなどがよくあります。アンケートで収入や病歴のような答えにくい質問が未回答になりやすいのは、典型的な例です。

機械やシステムが記録するデータでも、センサーの故障、通信エラー、ファイル破損、システム連携の不備によって値が残らないことがあります。たとえば、気温センサーが一時的に停止すれば、その時間帯の気温データだけが抜けます。

また、業務上のルールによって値が存在しない場合もあります。たとえば、退会していない顧客には「退会日」がありません。このような空欄はエラーではなく、意味のある欠損として扱う必要があります。

原因を区別しないまま平均値で埋めたり、欠損行を削除したりすると、重要な情報を失うことがあります。欠損値が「記録ミス」なのか、「回答しづらさの結果」なのか、「そもそも該当しない値」なのかを見分けることが、処理方針の出発点です。

欠損値の種類

欠損値の種類を比較するデータグリッド

欠損値は、発生の仕組みによって大きく三つに分けて考えられます。統計では英語の略称で説明されることもありますが、初心者はまず「偶然抜けたのか」「別の条件に左右されたのか」「抜けた値そのものに理由があるのか」という観点で理解すると整理しやすくなります。

種類 意味 注意点
完全にランダムな欠損 他の変数や欠損している値と関係なく、偶然に値が抜ける 入力中の操作ミス、機器の一時的な不具合、うっかりした記入漏れ 偏りが小さければ削除や単純な補完で扱える場合がある
ランダムな欠損 欠損の発生が、年齢や性別など別の変数に関係している 特定の年代だけ、ある質問に回答しづらい傾向がある 関連する変数を考慮しない補完や削除で偏りが強まることがある
完全にランダムではない欠損 欠損している値そのものが、欠損の理由に関係している 高所得者ほど収入欄に回答しない、満足度が低い人ほど調査を避ける 単純な削除や平均値補完では実態を大きく歪めやすい

この分類は、どの処理方法を選ぶべきかを考えるうえで役立ちます。完全にランダムな欠損で、数も少ない場合は削除で済むことがあります。一方で、欠損が特定の属性や値に偏っている場合は、欠損そのものが重要な情報を持っている可能性があります。

欠損値の種類を見極めるには、欠損率だけでなく、どの行・列・集団に欠損が多いかを見ることが大切です。クロス集計や可視化を使うと、偏りに気づきやすくなります。

欠損値への対処法

欠損値の削除や補完などの対処法

欠損値への対処法は、大きく分けると「削除する」「補完する」「欠損であることを情報として扱う」の三つです。どれが常に正しいというものではなく、データの性質と分析目的によって選びます。

対処法 概要 向いている場面 注意点
削除 欠損を含む行や、欠損が多い列を分析対象から外す 欠損が少なく、偏りも小さい場合 データ数が減り、特定の集団を失う可能性がある
単純な補完 平均値、中央値、最頻値などで空欄を埋める 欠損が比較的少なく、簡単な集計や前処理をしたい場合 分布が変わり、ばらつきが小さく見えることがある
推定による補完 他の変数との関係を使って欠損値を推定する 欠損と関連する説明変数があり、精度を重視したい場合 推定値は実測値ではないため、過信しない
特別な値や欠損フラグ 「不明」カテゴリや欠損を示す列を追加する 欠損している事実自体に意味がある場合 数値モデルでは特別値をそのまま入れると誤解されることがある

削除は手軽ですが、欠損行が多いと分析に使えるデータが大きく減ります。平均値補完はわかりやすい方法ですが、極端な値に引っ張られることがあります。その場合、中央値のほうが安定することもあります。

カテゴリデータでは、最頻値で埋める方法や「不明」というカテゴリを追加する方法があります。ただし、「不明」を足すことでモデルが欠損パターンを学習しやすくなる一方、業務上の意味を持たない欠損まで一つのカテゴリにまとめてしまうリスクもあります。

機械学習では、欠損を扱えるアルゴリズムを使う選択肢もあります。それでも、欠損の発生理由や処理方針を確認しなくてよいわけではありません。モデルに任せる場合でも、処理前後の性能や解釈の変化を確認する必要があります。

欠損値処理の選び方

欠損値処理を選ぶときは、まず欠損の割合を確認します。欠損がごく少なく、完全にランダムに近いと判断できるなら、欠損行の削除で大きな問題が出ないこともあります。しかし、欠損率が高い列や、分析上重要な列では、削除だけでは情報を失いすぎる可能性があります。

次に、欠損の偏りを見ます。年齢、地域、購入回数、会員種別などの変数ごとに欠損率を比べると、特定の集団に欠損が集中しているかどうかが分かります。偏りがある場合は、その変数を考慮した補完や、欠損フラグの追加を検討します。

分析目的も重要です。全体の傾向をざっくり見たいだけなら単純な補完で十分な場合があります。一方、医療、金融、人事評価など判断の影響が大きい分析では、単純な処理で結論が変わらないかを慎重に確認する必要があります。

実務では、一つの処理方法だけで終わらせず、削除した場合、中央値で補完した場合、欠損フラグを入れた場合などを比較することがあります。処理方法を変えても結論が大きく変わらないなら、分析結果への信頼は高まります。逆に大きく変わるなら、欠損値が重要な論点であると考えるべきです。

欠損値処理で注意したいこと

欠損値処理後に分布や手順を確認する様子

欠損値処理の前後では、データの分布、平均値、中央値、件数、カテゴリ比率を確認しましょう。補完によって値が一箇所に集まりすぎたり、削除によって特定の集団が減りすぎたりしていないかを見るためです。

特に平均値補完は、欠損している値をすべて同じ値で埋めるため、データのばらつきを小さく見せることがあります。相関や回帰分析、機械学習モデルでは、この変化が結果に影響する場合があります。

機械学習の評価では、情報漏洩にも注意が必要です。たとえば、学習データとテストデータを分ける前に全体の平均値で補完すると、テストデータの情報を学習側が先に見たことになります。通常は、学習データで補完ルールを決め、そのルールをテストデータに適用します。

また、欠損値を「-999」や「9999」のような特別な数値で置き換える場合は、その値が通常の数値として扱われないように注意します。モデルや集計方法によっては、非常に大きい値や小さい値として解釈され、結果を歪めることがあります。

最後に、どの列にどれだけ欠損があり、どの方法で処理したのかを記録しておきましょう。再分析やレビューのときに、処理の妥当性を説明できるようになります。欠損値処理は、結果だけでなく手順の透明性も大切です。

まとめ

欠損値とは、データの中で本来あるべき値が抜けている状態です。アンケートの未回答、入力ミス、センサー不具合、システム連携の問題、答えにくい質問など、さまざまな理由で発生します。

欠損値は、平均値や割合、機械学習の予測精度に影響します。特に、欠損が特定の集団や値に偏っている場合は、単純な削除や平均値補完で分析結果が歪むことがあります。

主な対処法には、欠損を含む行や列の削除、平均値・中央値・最頻値などによる補完、他の変数を使った推定、欠損フラグや「不明」カテゴリの利用があります。大切なのは、欠損の理由、欠損率、偏り、分析目的を見て方法を選ぶことです。

処理後は、処理前後の分布や件数を確認し、手順を記録しましょう。欠損値を丁寧に扱うことで、データ分析やAIモデルの信頼性を高めることができます。

更新履歴

日付 内容
2025年1月31日 初回公開
2026年5月20日 欠損の種類、処理方法、検証時の注意点を補強