FPNとは?特徴ピラミッドネットワークの仕組みと物体検出での役割

AIの初心者
「特徴ピラミッド」って何ですか?物体検出でよく出てきますが、少し難しく感じます。

AI専門家
画像をいくつかの縮尺で見て、大小さまざまな物体を捉えやすくする考え方です。大きな物体は全体の文脈で、小さな物体は細かな情報で見るイメージです。

AIの初心者
便利そうですが、画像を何段階にも見ると計算量やメモリが増えませんか?

AI専門家
そこを工夫したのがFPNです。上位層の意味情報を下位層へ戻し、横方向の接続で細かな情報と組み合わせることで、負担を抑えながら複数サイズの物体を検出しやすくします。
FPN(Feature Pyramid Network、特徴ピラミッドネットワーク)は、画像内にある大小さまざまな物体を検出しやすくするための深層学習の構造です。物体検出では、近くに大きく写った車も、遠くに小さく写った歩行者も、同じ画像の中から見つける必要があります。FPNはその難しさに対して、複数の解像度の特徴マップをうまく組み合わせる方法を提供します。
従来から、画像を複数の縮尺で扱う「特徴ピラミッド」という考え方は重要でした。しかし、画像を何段階にも処理すると計算量やメモリ消費が増えます。FPNは、CNNがもともと作る階層的な特徴を活用し、追加の負担を抑えながら高精度な物体検出を実現しやすくした点に特徴があります。

FPNとは何か
FPNは、物体検出モデルの中で使われる特徴抽出のためのネットワーク構造です。単独で物体検出を完結させるモデルというより、Faster R-CNNやMask R-CNNなどの検出モデルに組み込まれ、検出ヘッドが使いやすい特徴マップを作る役割を持ちます。
画像認識のCNNでは、浅い層ほど輪郭、色、模様のような細かな情報を持ち、深い層ほど物体の種類や全体的な意味を捉えます。一方で、深い層へ進むほど特徴マップの解像度は低くなり、小さな物体の位置情報は失われやすくなります。FPNは、この「浅い層の細かさ」と「深い層の意味情報」を結び付け、各スケールで検出に使える特徴を作ります。
つまりFPNを一言でいうと、複数の解像度で、意味情報と位置情報のバランスが取れた特徴マップを作る仕組みです。これにより、小さな物体だけでなく、大きな物体や中くらいの物体も同じ枠組みで扱いやすくなります。
特徴ピラミッドが物体検出で重要な理由
物体検出では、対象物の大きさが一定ではありません。たとえば自動運転のカメラ画像では、近くの車は大きく、遠くの歩行者や標識は小さく写ります。医療画像でも、大きな臓器の形と小さな病変の両方を確認したい場面があります。
このような画像を一つの解像度だけで処理すると、大きな物体には十分でも、小さな物体の手がかりが足りなくなることがあります。反対に細かい解像度ばかりを重視すると、全体の文脈や物体の種類を判断する情報が不足します。そこで、複数のスケールで特徴を捉える特徴ピラミッドが有効になります。

| 特徴の種類 | 得意なこと | 不足しやすいこと |
|---|---|---|
| 浅い層の特徴 | 輪郭、模様、小さな位置の違いを捉えやすい | 物体全体の意味を判断しにくい |
| 深い層の特徴 | 物体の種類や広い文脈を捉えやすい | 細かな位置情報が粗くなりやすい |
| FPNの特徴 | 複数スケールの特徴を検出に使いやすく統合する | 設計次第で計算量やメモリ使用量が増える |
FPNが解決した課題
深層学習以前から、画像を縮小しながら複数段階で処理する画像ピラミッドは使われていました。ただし、各縮尺で同じように特徴抽出を行うと、処理回数が増え、計算量とメモリ消費が大きくなります。深いCNNと組み合わせる場合、この負担は実用上の問題になります。
一方で、CNNの最後の層だけを使って検出すると、深い意味情報は得られるものの、特徴マップの解像度が低いため小さな物体が見つかりにくくなります。小さな歩行者、遠くの標識、画像内の微小な異常などは、数ピクセルの位置ずれが検出結果に大きく影響します。
FPNは、CNNが内部で作る階層的な特徴を再利用しながら、上位層の意味情報を下位層へ伝えます。これにより、複数の解像度で検出に使える特徴を作り、精度と計算効率の両立を狙えるようになりました。
FPNの仕組み:3つの経路で特徴を統合する
FPNの基本構造は、主に「下から上への経路」「上から下への経路」「横方向の接続」の3つで説明できます。難しく見えますが、役割を分けると理解しやすくなります。
下から上への経路は、通常のCNNの特徴抽出部分です。画像がネットワークを進むにつれて、特徴マップの解像度は下がり、代わりにより抽象的な情報を持つようになります。たとえば、最初は輪郭や色の変化を見ていたものが、深い層では「車らしさ」「人らしさ」のような意味に近い情報へ変わります。
上から下への経路は、深い層で得られた意味情報を解像度の高い側へ戻す流れです。低解像度の特徴マップを拡大し、より浅い層の特徴と合わせることで、細かい位置情報を持つ特徴マップにも高レベルの意味を加えます。
横方向の接続は、同じ段階にある下から上の特徴と、上から下へ戻ってきた特徴を結び付ける部分です。この接続によって、各スケールの特徴マップが検出に使いやすい形へ整えられます。

| 構成要素 | 役割 | 初心者向けの見方 |
|---|---|---|
| 下から上への経路 | CNNで段階的に特徴を抽出する | 細部から全体の意味へ進む流れ |
| 上から下への経路 | 深い層の意味情報を高解像度側へ戻す | 全体の理解を細かな地図へ書き戻す流れ |
| 横方向の接続 | 同じ解像度付近の特徴を融合する | 細かさと意味を同じ場所で合わせる仕組み |
スキップ結合が精度向上に効く理由
FPNで重要なのが、横方向の接続、つまりスキップ結合です。スキップ結合は、離れた層の情報を直接つなぐ仕組みで、深いネットワークで情報を伝えやすくするためにも使われます。
物体検出では、浅い層の細かな位置情報だけでは「それが何か」を判断しにくく、深い層の意味情報だけでは「どこにあるか」を細かく示しにくいという問題があります。スキップ結合はこの2種類の情報を合わせるため、小さな物体の検出や境界の把握に役立ちます。
また、深いモデルでは学習時に勾配が伝わりにくくなることがあります。スキップ結合によって情報の通り道が増えると、学習が安定しやすくなる場合があります。ただし、FPNの主目的はあくまで複数スケールの特徴を作ることであり、勾配改善だけを目的にした構造ではありません。
物体検出モデルや実務での活用例
FPNは、代表的な物体検出モデルと組み合わせて使われます。たとえばFaster R-CNNにFPNを組み込むと、候補領域を作る段階や分類・位置推定の段階で、複数スケールの特徴を利用できます。Mask R-CNNでは、物体の位置だけでなく領域分割にも関わるため、細かな境界を扱ううえでFPNの考え方が役立ちます。
実務では、自動運転や監視カメラ、ロボット視覚、医療画像診断、衛星画像解析など、大きさの異なる対象を同時に扱う場面で重要です。特に小さな物体を見逃しにくくしたい場合、FPNのようなマルチスケール特徴の設計が検討対象になります。

ただし、FPNを入れれば必ず精度が上がるわけではありません。入力画像の解像度、バックボーンの種類、検出ヘッド、学習データの物体サイズ分布、推論速度の要件も結果に影響します。実装では、精度だけでなく処理時間やGPUメモリも合わせて評価する必要があります。
FPNを学ぶときの注意点
初心者が混同しやすい点として、FPNは「画像を単純に何枚も拡大縮小して並べるだけ」の方法ではありません。CNN内部の複数段階の特徴を使い、上位層から下位層へ情報を戻して特徴マップを作る構造です。
また、FPNは物体検出アルゴリズム全体の名前ではありません。画像から特徴を作る部分を強化する仕組みであり、その後に領域候補生成、分類、バウンディングボックス回帰、マスク推定などの処理が続きます。FPNを理解するときは、検出モデルの中でどの位置に入るのかを意識すると整理しやすくなります。
もう一つの注意点は、マルチスケール化にはコストがあることです。FPNは従来の画像ピラミッドより効率的ですが、特徴マップを複数段階で保持し、融合する処理は必要です。スマートフォンや組み込み機器で使う場合は、軽量なバックボーンや入力サイズの調整も重要になります。
今後の展望
FPNの考え方は、現在の多くの画像認識モデルにも影響を与えています。物体検出だけでなく、領域分割、姿勢推定、画像理解など、複数スケールの情報が必要なタスクでは、FPNに近い特徴融合の発想が使われます。
今後は、より少ない計算量で高精度を出す軽量化、複雑な背景でも小さな物体を見落としにくくする改善、Transformer系のモデルとの組み合わせなどが重要になります。特に実用化では、精度、速度、メモリ使用量、消費電力のバランスを取ることが求められます。

まとめ
FPNとは、特徴ピラミッドネットワークのことで、複数の解像度の特徴マップを統合し、大小さまざまな物体を検出しやすくする構造です。浅い層の細かな情報と深い層の意味情報を組み合わせるため、小さな物体の検出や複雑な画像の理解に役立ちます。
FPNを理解するポイントは、下から上への経路、上から下への経路、横方向の接続の3つです。これらが連携することで、各スケールの特徴マップが検出に使いやすい形になります。物体検出を学ぶ場合は、FPNを単独の用語として覚えるだけでなく、CNNの特徴抽出や検出モデル全体の流れと合わせて捉えると理解が深まります。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年1月31日 | 初回公開 |
| 2026年5月10日 | FPNの経路構造と物体検出での使いどころを補強 |
