データの集まりを近づける:最短距離法

AIの初心者
先生、『最短距離法』って、2つのグループの中で一番近いデータ同士の距離でグループの距離を決めるんですよね?具体的にどういう時に使うんですか?

AI専門家
そうだね。たとえば、いくつかの都市をグループ分けしたいとする。都市間の距離がデータとしてある時に、この『最短距離法』を使うと、一番近い都市同士を基準にしてグループを作る事が出来る。結果として、近い都市が同じグループになりやすいんだ。

AIの初心者
なるほど。でも、一番近い都市だけでグループを決めてしまうと、他の都市との距離が遠くて不便なグループになってしまう事もありますよね?

AI専門家
その通り。最短距離法は、近いデータ同士をまとめていくので、全体的な距離のバランスはあまり考えないんだ。だから、君の言うように、一部のデータだけが孤立したグループになる可能性もある。他のグループ分けの方法と比べて、どんな特徴があるかを理解して使い分けることが大切だよ。
最短距離法とは。
「人工知能」に関する言葉である『最短距離法』(二つの集団の間で、最も近いデータ同士の距離を「集団間の距離」として使う計算方法です。単連結法と呼ばれることもあります。)について
似たもの集めの仕組み

多くの情報の中から、似たものを集めてグループ分けする作業は、私たちの日常でもよく行われています。例えば、おもちゃ箱を整理する時、積み木、人形、車など、種類ごとにまとめて片付けますよね。データの世界でも、これと同じように似たもの同士をグループ分けする手法があり、「集団分け」と呼ばれています。この集団分けは、たくさんの情報の中から隠れた規則や繋がりを見つけ出すための強力な道具です。
例えば、お店でお買い物をした記録を想像してみてください。誰がどんな商品をどれくらい買ったのか、という膨大な記録から、似たような買い物の仕方をする人たちのグループを見つけることができます。お菓子をよく買うグループ、おもちゃをよく買うグループなど、それぞれのグループに合わせたおすすめ商品を提示することで、より効果的な販売戦略を立てることができます。
集団分けには様々な方法がありますが、その中でも「一番近いもの同士を繋げる方法」は、分かりやすく効果的な方法として知られています。これは、データ同士の「距離」を計算し、距離が近いものから順に繋げていくという考え方です。例えば、果物を分類する場合、りんご、みかん、ぶどうを「甘い」という特徴でまとめ、レモンや梅干しを「酸っぱい」という特徴でまとめることができます。このように、大量の情報から意味のあるグループを見つけ出すことで、お店での商品の仕入れや販売促進活動、商品の改良など、様々な課題解決に役立つ情報を得ることができるのです。
さらに、この集団分けは、医療の分野でも活用されています。患者の症状や検査結果などから、似たような症状を持つ患者のグループを見つけることで、病気の診断や治療方針の決定に役立てることができます。また、インターネット上の膨大な情報の中から、特定のキーワードに関連する情報だけをまとめて表示する検索エンジンにも、この集団分けの技術が応用されています。このように、集団分けは様々な分野で活用され、私たちがより良い判断を下したり、問題を解決したりするための助けとなっているのです。
| 集団分け(クラスタリング)とは | 例 | メリット・効果 |
|---|---|---|
| 似たもの同士をグループ分けする手法 | おもちゃの整理、顧客の購買データ分析、果物の分類、医療診断、検索エンジン | 隠れた規則や繋がりを発見、効果的な販売戦略、課題解決、病気の診断、情報収集 |
| 一番近いもの同士を繋げる方法 | データ間の距離を計算し、近いものから順に繋げる | 分かりやすく効果的 |
最短距離法:橋渡し役

いくつもの集団をまとめる方法のひとつに、最短距離法というものがあります。この方法は、集団同士の間にある隔たりを「距離」で表し、距離が最も近いもの同士を繋げていくことで、より大きな集団を作っていく手法です。
例えるなら、広い宇宙空間に散らばる星々の集まりを想像してみてください。それぞれの集まりは、まるで星団のようです。最短距離法は、これらの星団の間を繋ぐ、いわば橋渡し役を果たします。最も近い星同士を橋のように繋ぐことで、小さな星団を少しずつ大きくしていくのです。
この方法は、集団を繋げる様子がまるで鎖のように見えることから、「単連結法」とも呼ばれています。鎖のように一つずつ繋げていくため、考え方が単純で分かりやすく、計算の手間も比較的少ないという利点があります。そのため、様々な分野で活用されています。
例えば、生物の進化系統を明らかにする際に、この最短距離法が用いられることがあります。様々な生物の遺伝情報などを比較し、最も似ているもの同士を繋げていくことで、進化の過程を樹形図のように表すことができるのです。また、マーケティングの分野でも、顧客の購買履歴などを基に、似た購買傾向を持つ顧客同士をグループ化する際に役立ちます。このように、最短距離法は、一見異なるもの同士の繋がりを見つけ出し、全体像を把握する上で、非常に役立つ手法と言えるでしょう。
| 手法 | 説明 | メリット | 適用例 |
|---|---|---|---|
| 最短距離法 (単連結法) | 集団間の距離が最も近いもの同士を繋げて、より大きな集団を作る。 | 単純で分かりやすく、計算の手間が少ない。 | 生物の進化系統の解析、顧客の購買傾向分析 |
距離の測り方

ものの間隔を測る方法は様々ありますが、ユークリッド距離がよく使われます。これは、平面上の二点間の最短距離を求めるのと同じ考え方で計算できます。具体的には、それぞれのデータが持つ複数の特徴について、対応する特徴の値の差を二乗し、それらを全て足し合わせ、最後にその合計の平方根を計算します。この計算で得られた値が小さいほど、二つのデータは似ていると考えられます。
例えば、顧客の年齢と年収を基に顧客同士の近さを測るとします。二人の顧客AさんとBさんがいて、Aさんは年齢が30歳、年収が500万円、Bさんは年齢が35歳、年収が600万円だとします。この二人の顧客のユークリッド距離は、年齢の差の二乗(35-30=5, 5×5=25)と年収の差の二乗(600-500=100, 100×100=10000)を足し合わせ(25+10000=10025)、その平方根(√10025 ≒ 100.12)を計算することで求まります。別の顧客Cさんが年齢31歳、年収550万円だとすると、AさんとCさんのユークリッド距離は約50.99となり、Bさんとの距離よりもAさんとCさんの距離の方が近いと分かります。このようにして、様々なデータ間の距離を数値化できます。
このユークリッド距離を用いた最短距離法という手法では、最も距離が近いデータ同士を順番に繋げていくことで、データの集団を作ります。例えば、顧客の年齢や年収といった情報から顧客間の距離を計算し、近い顧客を同じ集団にまとめることで、顧客をいくつかのグループに分類できます。こうして顧客の属性に基づいたグループ分けができれば、それぞれのグループに合わせた販売戦略を立てるなど、より効果的な販売活動を行うことが可能になります。
鎖のように繋がるデータ

最短距離法は、データの集まりをいくつかの仲間分けする方法です。この方法は、データ同士が鎖のように繋がっている様子を想像することで理解しやすくなります。
この方法では、同じ仲間のデータは、直接繋がっていなくても、必ず他のデータを介して繋がっていると考えます。 ちょうど鎖のように、両端の輪は直接繋がっていないものの、間の輪を伝って繋がっているのと同じです。
例えば、いくつかの都市を考えます。都市Aと都市Bは直接道路で繋がっていないかもしれません。しかし、都市Aと都市C、都市Cと都市D、都市Dと都市Bがそれぞれ道路で繋がっていれば、都市Aと都市Bは間接的に繋がっていると考えられます。都市Aから都市Bへ行くには、都市Cと都市Dを経由する必要があるからです。
最短距離法では、このような都市と道路の関係のように、データ同士の繋がりを調べます。直接繋がっているデータはもちろん、他のデータをいくつか経由して繋がっているデータも、同じ仲間とみなされます。 経由するデータの数が多いほど、繋がりは弱くなりますが、それでも繋がっているという事実は変わりません。
このように、最短距離法は、データ間の距離だけでなく、データ同士の間接的な繋がりも考慮することで、データの集まりを適切に仲間分けします。鎖のように繋がるデータというイメージを持つことで、この方法の仕組みを視覚的に理解しやすくなります。また、データ同士の関係性を分かりやすく捉えることにも繋がります。
得意と不得意

最短距離法は、鎖のようにデータが連なることで集団を形成していく手法です。まるで鎖のように、一つ一つのデータが次々と繋がっていく様子を想像してみてください。この手法は、複雑に入り組んだ形の集団も捉えることができます。例えば、三日月型やドーナツ型のような、他の手法ではうまく分類できない集団も、最短距離法なら適切に分類できる可能性があります。これは、最短距離法の大きな強みと言えるでしょう。
しかし、最短距離法には弱点もあります。それは、不要な情報や異常な値の影響を受けやすいということです。不要な情報とは、データの中に紛れ込んだ意味のない情報や誤りのことです。まるで砂金の中に混じった砂粒のようなものです。また、異常な値とは、他のデータから大きく外れた値のことです。これは、全体の傾向から大きく外れた、突飛な値と考えることができます。
これらの不要な情報や異常な値は、データの鎖の形成に影響を及ぼします。例えば、本来は別の集団に属するデータが、不要な情報によって繋がってしまうかもしれません。逆に、同じ集団に属するデータが、異常な値によって繋がらなくなってしまうかもしれません。これは、鎖の一部が切れてしまうようなものです。このようなことが起こると、集団分けの結果が不正確になってしまう可能性があります。
そのため、最短距離法を適用する際には、前もってデータを適切に処理しておくこと、そして適切な設定値を決めることが重要になります。データの処理とは、不要な情報や異常な値を取り除いたり、修正したりすることです。適切な設定値とは、鎖を作る際の距離の基準などを調整する値のことです。これらの準備をしっかり行うことで、最短距離法の弱点を補い、より正確な集団分けを行うことができます。
| 手法 | 説明 | 長所 | 短所 | 対策 |
|---|---|---|---|---|
| 最短距離法 | データが鎖のように連なり集団を形成する手法 | 複雑な形の集団(三日月型、ドーナツ型など)も捉えることができる | 不要な情報や異常な値の影響を受けやすい | 前処理で不要な情報や異常な値を取り除く、適切な設定値を決める |
より良い活用に向けて

より良い活用を目指す上で、最短距離法を効果的に使うための大切な準備として、データの前処理があります。まず、データの中に含まれる不要な情報、例えば雑音のようなものや、極端に大きな値や小さな値といった普通とは異なる値を取り除くことで、より正確な集団分けの結果を得ることができます。これは、例えるなら、果物を作る際に、腐った果物や傷ついた果物を取り除くことで、より美味しいジャムを作ることができるのと同じです。
また、データの大きさの調整も重要です。例えば、年齢と年収のように、単位が異なるデータを一緒に使う場合、年収のように大きな値を持つデータの影響が強くなってしまいます。これは、りんごの量とみかんの量を比較する際に、りんごの数が多ければ、みかんの数が少なくても、りんごの量の多さが目立ってしまうのと同じです。このような偏りをなくすために、それぞれのデータの値の範囲を適切な大きさに変換する必要があります。
さらに、最短距離法は、他の集団分けの方法と組み合わせて使うこともできます。例えば、よく知られたk-平均法といった方法で、まず大まかな集団分けを行い、その結果を基に最短距離法を適用することで、より細かい精度で集団分けを行うことができます。これは、家を建てる際に、まず大まかな枠組みを作ってから、細かい内装工事を行うことで、より完成度の高い家を建てることができるのと同じです。このように、異なる方法を組み合わせることで、最短距離法の精度をさらに高めることができるのです。
これらの工夫によって、最短距離法は、データの分析において、隠れた関係性やパターンを見つけ出すための強力な道具となります。データを丁寧に準備し、適切な方法を組み合わせることで、最短距離法の力を最大限に引き出すことができます。
| 手順 | 説明 | 例え |
|---|---|---|
| データの前処理(ノイズや外れ値の除去) | 不要な情報を取り除くことで、正確な結果を得る。 | 腐った果物や傷ついた果物を取り除くことで、美味しいジャムを作る。 |
| データの大きさの調整 | 単位が異なるデータを扱う際に、値の範囲を適切な大きさに変換する。 | りんごの量とみかんの量を比較する際に、数の多さで偏りが生じるのを防ぐ。 |
| 他の集団分けの方法との組み合わせ | k-平均法などで大まかな集団分けを行い、その結果を基に最短距離法を適用する。 | 家の大まかな枠組みを作ってから細かい内装工事を行うことで、完成度の高い家を建てる。 |
