分類とは?機械学習でデータをラベル分けする仕組みを解説

分類:データのラベル分け

AIの初心者

先生、機械学習でいう「分類」って何ですか?回帰との違いもよく分かりません。

AI専門家

分類は、入力されたデータを決まった種類、つまりラベルのどれかに分ける問題です。たとえば画像を見て「犬」か「猫」かを選ぶ、メールを「迷惑メール」か「通常メール」かに分ける、といった処理が分類です。

AIの初心者

では、気温や売上を予測するのとは違うんですね。

AI専門家

その通りです。気温や売上のような連続した数値を予測するのは回帰です。一方、分類は「犬」「猫」「鳥」や「合格」「不合格」のように、あらかじめ決まったカテゴリを予測します。

分類とは

分類とは、データをあらかじめ決められたカテゴリやラベルに分ける機械学習の問題です。入力された画像、文章、音声、数値データなどをもとに、「どの種類に当てはまるか」を予測します。選択肢が2つなら二値分類、3つ以上なら多クラス分類と呼ばれます。分類は、迷惑メール判定、画像認識、文書カテゴリ分け、医療画像の判定など、幅広い場面で使われます。

分類とは

分類とは

分類とは、データを種類ごとに分けることです。日常生活でも、本屋では本を小説、漫画、ビジネス書に分け、スーパーでは食品を野菜、果物、肉、魚に分けています。機械学習でも同じように、データを決まったカテゴリへ振り分けます。

機械学習における分類では、分け先となるカテゴリをラベルと呼びます。たとえば犬と猫の画像を分類する場合、ラベルは「犬」と「猫」です。メールを分類する場合は、「迷惑メール」と「通常メール」がラベルになります。

分類モデルは、ラベル付きの学習データから特徴を学びます。犬の画像にはどのような特徴が多いのか、迷惑メールにはどのような単語や表現が出やすいのかを学習し、新しいデータが来たときに最も近いラベルを予測します。

分類の例 入力データ 予測するラベル
画像分類 写真や画像 犬、猫、車、建物など
迷惑メール判定 メール本文や件名 迷惑メール、通常メール
文書分類 ニュース記事や問い合わせ文 政治、経済、スポーツ、返品、質問など
音声認識 音声データ 発話された単語や文字列

分類の種類

分類の種類

分類には、選択肢の数やラベルの付き方によっていくつかの種類があります。基本として押さえたいのは、二値分類多クラス分類です。

二値分類は、2つの選択肢から一つを選ぶ分類です。迷惑メールか通常メールか、病気の可能性が高いか低いか、画像に写っている動物が犬か猫か、といった問題が該当します。判断結果が「はい・いいえ」に近い形になるため、実務でもよく使われます。

多クラス分類は、3つ以上の選択肢から一つを選ぶ分類です。手書き数字を0から9のどれかに分類する、ニュース記事を政治・経済・スポーツなどに分類する、商品レビューを星1から星5に分類する、といった問題です。

また、一つのデータに複数のラベルが付くマルチラベル分類もあります。たとえばニュース記事に「AI」「ビジネス」「海外」のように複数タグを付ける場合です。多クラス分類は原則として一つのラベルを選ぶのに対し、マルチラベル分類では複数のラベルを同時に選べます。

分類の種類 説明
二値分類 2つの選択肢から一つを選ぶ。 迷惑メール判定、犬猫判定、合格・不合格判定
多クラス分類 3つ以上の選択肢から一つを選ぶ。 数字認識、商品カテゴリ分類、ニュース分類
マルチラベル分類 一つのデータに複数のラベルを付ける。 記事タグ付け、画像内の複数物体の判定

回帰との違い

回帰との違い

分類と回帰は、どちらも機械学習で予測を行う代表的な問題です。違いは、予測したい答えがカテゴリなのか、連続した数値なのかです。

分類では、「犬」「猫」「鳥」のようなカテゴリを予測します。これらはラベルであり、数値の大小を比べるものではありません。たとえば「犬」は「猫」より大きい、という関係ではなく、単に別の種類として扱います。

回帰では、家の価格、気温、売上、体重のような連続した数値を予測します。価格が100万円から101万円へ変わるように、値が細かく連続して変化する場合は回帰の対象です。

たとえば、動物の写真を見て「犬か猫か」を判断するなら分類です。同じ写真から「体重が何kgか」を予測するなら回帰です。答えがラベルなら分類、数値なら回帰と考えると整理しやすくなります。

項目 分類 回帰
予測するもの カテゴリやラベル 連続した数値
答えの例 犬、猫、迷惑メール、通常メール 価格、気温、売上、体重
代表例 画像分類、文書分類、異常判定 需要予測、価格予測、気温予測
評価の観点 正しくラベルを当てられたか 予測値と実際の数値の差が小さいか

分類モデルが学習する流れ

具体例

分類モデルを作るには、まず学習データを用意します。学習データには、入力データと正解ラベルの組み合わせが必要です。犬の画像には「犬」、猫の画像には「猫」というラベルを付けておきます。

次に、モデルは入力データの特徴を学びます。画像分類なら色、形、模様、輪郭などが手がかりになります。文章分類なら、単語の出現、文の意味、語順などが手がかりになります。近年の深層学習では、人間が細かく特徴を指定しなくても、モデルがデータから特徴を学習する場合が多くなっています。

学習後は、新しいデータを入力すると、モデルがそれぞれのラベルらしさを計算します。たとえば犬猫分類なら、「犬である確率が80%、猫である確率が20%」のように判断し、最も可能性が高いラベルを出力します。

段階 内容 犬猫分類の例
データ準備 入力データと正解ラベルを集める。 犬画像には犬、猫画像には猫のラベルを付ける。
学習 データの特徴とラベルの関係を学ぶ。 耳、顔つき、体の形などの違いを学ぶ。
予測 新しいデータに対してラベルを推定する。 新しい画像を犬または猫に分類する。
評価 予測がどれだけ正しいかを確認する。 正解率、適合率、再現率などを見る。

具体例

分類の活用事例

分類の活用事例

分類は、日常的なサービスから専門的な業務まで幅広く使われています。特に、データを自動で振り分けたい場面や、人間の判断を補助したい場面で役立ちます。

医療では、画像や検査値をもとに異常の可能性を分類する研究や実用化が進んでいます。ただし、医療分野では分類結果をそのまま診断とみなすのではなく、医師の判断を補助する情報として扱うことが重要です。

金融では、過去の取引や申し込み情報をもとに、不正取引の可能性や返済リスクを分類します。ECや広告では、顧客の行動履歴から興味のある商品カテゴリを推定し、レコメンドや広告配信に活用します。

分野 分類する対象 活用例
医療 画像、検査値、症状データ 異常の可能性を判定し、診断支援に使う。
金融 取引履歴、申込情報 不正取引検知や信用リスク判定に使う。
マーケティング 購買履歴、閲覧履歴 顧客セグメント分類や広告配信に使う。
自然言語処理 文章、問い合わせ、レビュー 問い合わせ分類、感情分析、カテゴリ付けに使う。

分類で注意すべき点

分類モデルを使うときは、正解率だけを見ればよいとは限りません。たとえば、病気の検査で「異常なし」と判定する人が多いデータでは、すべてを異常なしと予測しても一見高い正解率になることがあります。しかし、本当に重要なのは異常を見逃さないことかもしれません。

そのため、分類では適合率、再現率、F値、混同行列などの評価指標も確認します。迷惑メール判定なら、通常メールを誤って迷惑メールに入れないことも重要です。医療や金融のように誤判定の影響が大きい分野では、どの間違いをどれだけ避けたいのかを明確にする必要があります。

また、学習データの偏りにも注意が必要です。特定のカテゴリのデータが少なすぎると、そのカテゴリを正しく分類できないことがあります。分類モデルの性能を上げるには、十分で偏りの少ないデータ、適切なラベル付け、目的に合った評価指標が重要です。

今後の展望

今後の展望

深層学習の発展により、画像、音声、文章などの分類精度は大きく向上しています。画像認識では物体の種類を判定し、音声認識では発話内容を識別し、自然言語処理では文章のカテゴリや感情を分類できます。

今後は、画像、文章、音声、センサーデータを組み合わせた分類もさらに広がると考えられます。たとえば、自動運転ではカメラ画像やセンサー情報から歩行者、車、信号、標識などを分類します。製造業では、画像や振動データから不良品や異常兆候を分類できます。

一方で、分類結果を安全に使うには、説明可能性や公平性も重要です。モデルがなぜそのラベルを出したのか、特定の人やグループに不利な判定をしていないかを確認する必要があります。分類は便利な基盤技術ですが、目的、データ、評価指標、運用時のリスクを合わせて考えることが大切です。

今後の活用分野 期待される効果
自動運転 歩行者、車、標識、信号などを認識し、安全判断を支援する。
医療画像解析 画像から異常の可能性を見つけ、診断支援に役立てる。
製造業の異常検知 不良品や設備異常を早期に見つける。
問い合わせ対応 問い合わせ内容を自動分類し、担当部署へ振り分ける。

更新履歴

更新履歴(2026年4月修正版)
– 分類の定義を見直し、「データをカテゴリやラベルに分ける機械学習の問題」として説明を明確化
– 「二値分類」「多クラス分類」「マルチラベル分類」の違いを整理し、具体例を追加
– 分類と回帰の違いを修正し、予測対象がラベルか連続値かで判断できるように説明を整理
– 学習データ、正解ラベル、特徴量、予測、評価の流れを追加し、分類モデルが学習する手順を補足
– 表の内容を見直し、入力データ・予測ラベル・活用例の対応が分かるように修正
– 実務上の注意点として、正解率だけでなく適合率、再現率、F値、混同行列を見る必要があることを補足
– 学習データの偏り、説明可能性、公平性など、分類モデルを運用する際のリスクを追加
– 全体の重複表現を整理し、読みやすさを改善