回帰問題とは?意味・仕組み・活用例をわかりやすく解説

AIの初心者
「回帰問題」ってよく聞くのですが、具体的にはどんな問題のことですか?

AI専門家
回帰問題とは、来月の売上金額や明日の気温のように、連続した数値を予測する問題のことだよ。

AIの初心者
連続した数値というと、売上が100万円、120万円、135万円のように変化する値を予測するイメージですか?

AI専門家
その通り。決まった分類名を当てるのではなく、売上、価格、気温、株価のように幅を持って変化する数値を予測するのが回帰問題なんだ。
AIや機械学習を学び始めると、「分類問題」と並んでよく出てくるのが回帰問題です。回帰問題とは、過去のデータや現在わかっている条件をもとに、まだわからない数値を予測する問題を指します。
たとえば、広告費から売上を予測する、家の広さから価格を予測する、気温や湿度から明日の最高気温を予測するといったケースが回帰問題です。この記事では、回帰問題の意味、仕組み、種類、活用例、機械学習との関係、学ぶときの注意点を初心者向けに整理します。

回帰問題とは?連続した数値を予測する問題
回帰問題とは、入力データから連続した数値を予測する問題です。ここでいう連続した数値とは、0か1のように限られた選択肢ではなく、100万円、101万円、101.5万円のように細かく変化しうる値を意味します。
身近な例では、商品の過去の販売数、広告費、季節、天候などを使って来月の売上を予測するケースがあります。広告費が多いほど売上が伸びやすいのか、寒い日には特定の商品が売れやすいのかといった関係をデータから読み取り、未来の数値を推定します。
回帰問題は「未来を必ず当てる方法」ではありません。実際には、データに含まれる傾向や関係性を使って、もっとも妥当だと考えられる数値を推定します。そのため、予測値には誤差があることを前提に、どれくらい外れやすいかも一緒に確認することが大切です。
回帰問題の仕組み:入力と出力の関係を学習する
回帰問題では、予測に使う情報を「入力」、予測したい数値を「出力」として考えます。機械学習では、入力に使う項目を特徴量、予測したい値を目的変数と呼ぶことがあります。
たとえば住宅価格を予測するなら、入力には家の広さ、築年数、駅からの距離、地域などが入り、出力には住宅価格が入ります。過去の住宅データを使って、入力と価格の関係を表すモデルを作り、新しい住宅データに対して価格を予測します。
線形回帰の基本形は、次のように表せます。
\(y = ax + b
\)
この式では、xが入力、yが予測したい数値、aが傾き、bが切片です。実務では入力が1つだけとは限らないため、複数の特徴量を使った重回帰や、より複雑な機械学習モデルを使うこともあります。重要なのは、どの手法でも過去データから入力と出力の関係を学び、未知のデータに対して数値を予測するという流れは共通している点です。

回帰問題と分類問題の違い
回帰問題とよく比較されるのが分類問題です。どちらも教師あり学習で扱われますが、予測したいものが異なります。回帰問題は数値を予測し、分類問題はカテゴリを予測します。
たとえば「明日の最高気温は何度か」を予測するなら回帰問題です。一方で、「明日は晴れ、曇り、雨のどれか」を予測するなら分類問題です。ECサイトで考えると、「来月の購入金額」を予測するなら回帰問題、「購入するかしないか」を予測するなら分類問題になります。
初心者が混乱しやすい点として、ロジスティック回帰は名前に回帰と付くものの、主に分類問題で使われることがあります。顧客が購入する確率を出すように数値を扱いますが、最終的には「購入する」「購入しない」のような分類に使われることが多い手法です。
| 観点 | 回帰問題 | 分類問題 |
|---|---|---|
| 予測するもの | 連続した数値 | カテゴリやラベル |
| 例 | 売上、価格、気温、リスク値 | 晴れ・雨、購入する・しない、正常・異常 |
| 評価の考え方 | 予測値と実測値の誤差を見る | 正しく分類できた割合や誤分類を見る |
回帰問題の主な種類
回帰問題にはいくつかの代表的な手法があります。どれを選ぶかは、データの形、予測したい内容、説明しやすさ、必要な精度によって変わります。
線形回帰は、入力と出力の関係を直線で表すもっとも基本的な手法です。広告費が増えるほど売上も増えるような、比較的わかりやすい関係を調べるときに使いやすい方法です。式や係数の意味を説明しやすいため、回帰分析の入門としてもよく扱われます。
重回帰は、複数の入力を使って1つの数値を予測する方法です。住宅価格の予測で、広さ、築年数、駅からの距離、地域などをまとめて使うようなケースが該当します。現実の問題では1つの要因だけで結果が決まることは少ないため、重回帰の考え方は実務でも重要です。
多項式回帰は、直線では表しにくい曲線的な関係を扱う方法です。植物の成長と気温の関係のように、低すぎても高すぎても結果が悪くなる場合、直線よりも曲線のほうが自然に表せます。
ロジスティック回帰は、購入する確率や病気の可能性のような確率を扱う手法です。ただし、実際には分類問題で使われることが多いため、回帰問題そのものとして理解するよりも、「名前は回帰だが分類でよく使う手法」と整理しておくと混乱しにくくなります。

| 手法 | 特徴 | 使いやすい例 |
|---|---|---|
| 線形回帰 | 関係を直線で表す。理解しやすく説明しやすい。 | 広告費と売上の関係 |
| 重回帰 | 複数の入力から1つの数値を予測する。 | 広さや築年数から住宅価格を予測 |
| 多項式回帰 | 曲線的な関係を表現しやすい。 | 気温と植物の成長量の関係 |
| ロジスティック回帰 | 確率を出力し、分類問題でよく使われる。 | 購入するかしないかの予測 |
回帰問題の活用事例
回帰問題は、数値を予測したい場面で幅広く使われています。特に、将来の需要やリスクを見積もり、意思決定に活かしたい場面と相性がよい手法です。
商業では、新商品の売上予測、在庫量の調整、価格設定、広告費の効果測定などに使われます。過去の販売データ、市場動向、季節性、キャンペーン情報を組み合わせることで、仕入れすぎや品切れのリスクを減らせます。
科学研究では、実験条件と結果の関係を調べたり、未知の物質の性質を推定したりするために使われます。新薬開発では、薬の投与量と効果の関係を分析し、適切な投与量を検討する材料になります。
医療では、患者の検査値や症状から将来のリスクを予測する用途があります。たとえば血圧、血糖値、年齢、生活習慣などのデータから、病気の発症リスクや治療後の変化を見積もることで、早めの対策に役立てられます。
天気予報やエネルギー需要の予測も回帰問題の代表例です。気温、湿度、気圧、過去の電力使用量などを使って、将来の数値を予測します。このように回帰問題は、未来の数値を見積もって、よりよい判断を支援するための方法として活用されています。

回帰問題と機械学習の関係
機械学習における回帰問題は、教師あり学習の代表的なテーマです。教師あり学習とは、入力データと正解データの組み合わせを使ってモデルを学習させる方法です。住宅の情報と実際の価格、広告費と実際の売上のように、過去の正解付きデータを使って予測モデルを作ります。
統計学の回帰分析では、関係を説明することが重視される場面が多くあります。たとえば、広告費が1万円増えると売上がどれくらい変わるのかを係数から解釈します。一方、機械学習では予測精度を重視し、ランダムフォレスト、勾配ブースティング、ニューラルネットワークなどの複雑なモデルを使うこともあります。
近年は、IoTやビッグデータの普及によって扱えるデータ量が増え、回帰問題の応用範囲も広がっています。センサーから得られる時系列データ、画像から抽出した特徴、購買履歴などを組み合わせることで、従来より細かい予測が可能になっています。
ただし、複雑なモデルを使えば必ずよい結果になるわけではありません。データの質が低い、目的変数と関係の薄い特徴量が多い、過去に存在しない状況を予測しているといった場合には、どれだけ高度なモデルでも予測は不安定になります。
回帰問題を使うときの注意点
回帰問題では、予測値だけを見て判断しないことが重要です。実際の値との差、つまり誤差を確認し、どの程度信頼できる予測なのかを評価する必要があります。代表的な評価指標には、平均絶対誤差、平均二乗誤差、決定係数などがあります。
また、相関があることと因果関係があることは同じではありません。広告費と売上に関係が見えても、売上増加の原因が本当に広告費だけとは限りません。季節、価格変更、競合状況、景気など別の要因が影響している可能性があります。
データの範囲を大きく外れた予測にも注意が必要です。たとえば、これまで広告費が10万円から100万円の範囲にあるデータだけで学習したモデルに、広告費1000万円の場合の売上を予測させると、現実から外れた値になることがあります。このように、学習データの範囲外を予測することを外挿と呼びます。
さらに、学習データに合わせすぎる過学習にも注意します。過学習が起きると、過去データにはよく当たるのに、新しいデータでは外れやすくなります。学習用データと検証用データを分けて評価し、実際に使える予測になっているかを確認することが大切です。
回帰問題を学ぶための方法
回帰問題を学ぶには、まず統計学の基礎を押さえると理解しやすくなります。平均、分散、相関、確率分布、誤差といった考え方は、回帰分析の結果を読むときに役立ちます。
次に、線形回帰や重回帰の仕組みを学び、簡単なデータで実際に予測してみることが効果的です。Pythonならscikit-learn、Rならlm関数などを使うと、基本的な回帰モデルを試せます。最初は住宅価格や売上予測のようなわかりやすいデータセットから始めるとよいでしょう。
実践では、モデルを作るだけでなく、予測結果を評価するところまで行うことが大切です。予測値と実測値を比べ、どの条件で外れやすいのかを確認すると、データの見方やモデル改善の感覚が身につきます。
慣れてきたら、複数の特徴量を使う、外れ値を確認する、学習用データと検証用データに分ける、別のモデルと比較する、といった流れに進みます。回帰問題は理論だけでなく、実データで試すほど理解が深まる分野です。

まとめ
回帰問題とは、過去のデータや現在の条件から、売上、価格、気温、リスクなどの連続した数値を予測する問題です。機械学習では教師あり学習の代表的な問題設定であり、商業、科学研究、医療、天気予報、需要予測など多くの分野で使われています。
初心者はまず、分類問題との違い、入力と出力の関係、線形回帰や重回帰の基本、予測誤差の見方を押さえると理解しやすくなります。回帰問題は未来を完全に当てるものではありませんが、データに基づいてよりよい判断をするための強力な道具になります。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年1月31日 | 初回公開 |
| 2026年5月2日 | 回帰問題の定義、仕組み、分類問題との違い、主な種類、活用例、機械学習との関係、学習方法を初心者向けに再構成 |
