コスト関数とは?機械学習の最適化を初心者向けに解説

AIの初心者
「コスト関数」ってよく聞くんですけど、難しそうでよくわかりません。簡単に言うと何ですか?

AI専門家
コスト関数は、AIの予測が正解からどれくらいずれているかを数値で表すものだよ。例えば猫の画像を見て「犬」と予測したら、その間違いの大きさを測る役割を持っているんだ。

AIの初心者
ずれを測るだけで、どうしてAIが賢くなるんですか?

AI専門家
AIはその数値が小さくなるように学習するんだ。コスト関数が下がるほど、予測と正解のずれが小さくなり、モデルのパラメータがよりよい方向へ調整されていくよ。
コスト関数とは。
コスト関数は、機械学習で予測の誤差や損失を数値化し、モデルをどの方向へ改善すればよいかを判断するための関数です。費用関数とも呼ばれます。
コスト関数とは何か

コスト関数とは、機械学習モデルの予測値と正解値のずれを、ひとつの数値として表す関数です。値が小さいほど予測が正解に近く、値が大きいほど予測と正解の差が大きいと考えます。
例えば住宅価格を予測するモデルで、実際の価格が3,000万円なのに2,500万円と予測した場合、500万円分のずれが生じます。犬と猫を分類するモデルで、猫の画像を犬と判断した場合も、正解とのずれが大きい状態です。コスト関数は、こうしたずれを感覚ではなく数値で扱えるようにします。
機械学習では、モデルの中に重みやバイアスなどのパラメータがあります。学習とは、このパラメータを少しずつ変えながら、コスト関数の値が小さくなる状態を探す作業です。つまりコスト関数は、モデルにとっての「何をよい結果とみなすか」を定める基準になります。
コスト関数が機械学習で果たす役割

コスト関数の役割は、単に誤差を表示することだけではありません。モデルがどの程度うまく学習できているかを評価し、次にどの方向へ調整すべきかを示す点が重要です。
弓矢で的を狙う場面を考えると、中心からどれだけ離れたかを測らなければ、次にどちらへ修正すべきか判断できません。機械学習でも同じで、予測が外れたという事実だけでは不十分です。どれくらい外れたのか、外れ方が大きいのか小さいのかを数値化して初めて、学習の改善方向を決められます。
多くの学習アルゴリズムでは、データを入力して予測を出し、正解と比べ、コスト関数を計算し、その値が下がるようにパラメータを更新します。この流れを何度も繰り返すことで、モデルは少しずつ予測を改善します。
ただし、コスト関数が小さくなれば常に実用上よいモデルになるとは限りません。学習データだけに過度に合わせると、未知のデータでは精度が落ちる過学習が起こることがあります。そのため、検証データでの評価や、別の指標との組み合わせも重要です。
損失関数・目的関数との違い
コスト関数と似た言葉に、損失関数や目的関数があります。厳密な使い分けは文脈によって変わりますが、初心者は次のように整理すると理解しやすくなります。
| 用語 | 主な意味 | 使われ方 |
|---|---|---|
| 損失関数 | 1件ごとの予測と正解のずれを測る関数 | 1枚の画像、1件の住宅価格など、個別データの誤差を見る |
| コスト関数 | データ全体に対する損失の平均や合計を測る関数 | モデル全体の学習状態を評価する |
| 目的関数 | 最適化で最小化または最大化したい関数 | コスト関数に正則化項などを加えた形になることがある |
実務や教材では、損失関数とコスト関数がほぼ同じ意味で使われることもあります。そのため、言葉の違いにこだわりすぎるよりも、モデルの悪さを数値化し、その値を小さくするために使う関数という中心的な役割を押さえることが大切です。
代表的なコスト関数の種類

コスト関数は、解きたい問題によって向き不向きがあります。連続した数値を予測する回帰問題と、カテゴリを当てる分類問題では、よく使われる関数が異なります。
回帰問題で代表的なのが平均二乗誤差です。予測値と正解値の差を二乗して平均するため、大きな誤差を強く罰する性質があります。
\(J(\theta)=\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2\)この式では、\(J(\theta)\) がコスト関数、\(h_\theta(x^{(i)})\) がモデルの予測、\(y^{(i)}\) が正解、\(m\) がデータ数を表します。住宅価格、売上、気温など、数値を予測する問題でよく使われます。
一方、平均絶対誤差は予測値と正解値の差の絶対値を平均します。二乗しないため、極端な外れ値の影響を平均二乗誤差より受けにくい点が特徴です。データに異常値が混じりやすい場合は候補になります。
分類問題では、クロスエントロピー誤差がよく使われます。これは、モデルが出した確率分布と正解ラベルのずれを測る関数です。犬か猫かを判定するモデルで、正解が猫なのに猫の確率を低く出した場合、コストが大きくなります。
\(J=-\sum_{k} y_k \log(p_k)\)ここで \(y_k\) は正解ラベル、\(p_k\) はモデルが予測した確率です。画像分類、スパム判定、文章分類などでよく使われます。サポートベクターマシンではヒンジ損失、外れ値に強い回帰ではHuber損失が使われることもあります。
| コスト関数 | 主な問題 | 特徴 | 例 |
|---|---|---|---|
| 平均二乗誤差 | 回帰 | 大きな誤差を強く反映する | 住宅価格、売上予測 |
| 平均絶対誤差 | 回帰 | 外れ値の影響を比較的受けにくい | 異常値を含む需要予測 |
| クロスエントロピー誤差 | 分類 | 予測確率と正解ラベルのずれを測る | 画像分類、スパム判定 |
| ヒンジ損失 | 分類 | 分類境界の余裕を考慮する | サポートベクターマシン |
| Huber損失 | 回帰 | 小さな誤差と大きな誤差で扱いを変える | 外れ値がある回帰問題 |
最適化アルゴリズムとの関係

コスト関数は、最適化アルゴリズムと一緒に使われます。コスト関数が目的地を示す地図だとすれば、最適化アルゴリズムはそこへ向かう手順です。
代表的な最適化手法に勾配降下法があります。勾配降下法では、現在のパラメータの位置でコスト関数の傾きを調べ、値が小さくなる方向へ少しずつ移動します。山の斜面を下って谷底を探すイメージです。
\(\theta := \theta – \eta \nabla J(\theta)\)この式では、\(\theta\) がモデルのパラメータ、\(\eta\) が学習率、\(\nabla J(\theta)\) がコスト関数の勾配です。学習率が大きすぎると谷底を飛び越えてしまい、小さすぎると学習がなかなか進みません。
勾配降下法には、全データを使って更新するバッチ勾配降下法、一部のデータだけで更新する確率的勾配降下法、少量のまとまりで更新するミニバッチ勾配降下法があります。データ量が多い深層学習では、ミニバッチを使う方法がよく採用されます。
コスト関数の形が滑らかであれば最適化しやすい一方、複雑なモデルでは局所的な谷や平坦な領域があり、学習が進みにくい場合があります。そのため、コスト関数だけでなく、学習率、初期値、最適化手法、正則化などもあわせて調整します。
コスト関数を選ぶときの考え方

コスト関数を選ぶときは、最初に問題の種類を確認します。数値を予測する回帰なら平均二乗誤差や平均絶対誤差、カテゴリを予測する分類ならクロスエントロピー誤差やヒンジ損失が候補になります。
次に、データの特徴を見ます。外れ値が多いデータで平均二乗誤差を使うと、大きな誤差が強調されすぎてモデルが外れ値に引っ張られることがあります。この場合は、平均絶対誤差やHuber損失を検討します。
さらに、評価したい目的との整合性も大切です。例えば医療や不正検知のように、見逃しを特に避けたい問題では、単に全体の誤差を小さくするだけでは不十分なことがあります。コスト関数や評価指標に、誤判定の重みを反映させる設計が必要になる場合があります。
| 確認する点 | 判断の目安 | 候補 |
|---|---|---|
| 予測したいもの | 連続値かカテゴリか | 回帰なら平均二乗誤差、分類ならクロスエントロピー |
| 外れ値の有無 | 極端な値が多いか | 平均絶対誤差、Huber損失 |
| 誤りの重み | 特定のミスを重く扱う必要があるか | 重み付き損失、カスタム損失 |
| 最適化のしやすさ | 勾配が安定して計算できるか | 滑らかな関数、正則化付き目的関数 |
初心者がつまずきやすい注意点
まず、コスト関数の値だけを見てモデルの良し悪しを決めないことが重要です。学習データでコストが下がっていても、検証データやテストデータで悪化していれば、過学習している可能性があります。
次に、分類問題では予測確率の扱いに注意が必要です。クロスエントロピー誤差は、モデルが出す確率と正解ラベルの関係を前提にしています。出力層の設計やラベル形式が合っていないと、学習が不安定になったり、期待した評価にならなかったりします。
また、コスト関数を小さくすることと、ビジネス上の目的を満たすことは必ずしも同じではありません。例えばスパム判定では、通常メールを誤ってスパム扱いする損失と、スパムを見逃す損失の重さが異なることがあります。実務では、データの性質と目的に合わせて、評価指標やしきい値も調整します。
まとめ
コスト関数は、機械学習モデルの予測と正解のずれを数値化し、学習を進めるための基準になる関数です。値を小さくすることで、モデルは予測精度を高める方向へパラメータを調整していきます。
回帰では平均二乗誤差や平均絶対誤差、分類ではクロスエントロピー誤差やヒンジ損失などが使われます。どれを選ぶかは、問題の種類、データの特徴、外れ値、最適化のしやすさ、実務上の目的によって変わります。
コスト関数を理解すると、機械学習が「何を目標に学習しているのか」が見えやすくなります。モデルの精度を上げるだけでなく、学習がうまく進まない原因を考えるうえでも、コスト関数は欠かせない基礎知識です。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年2月1日 | 初回公開 |
| 2026年5月21日 | 損失関数との違い、式の読み方、選定時の判断軸を追記 |
