Hadoop

記事数:(1)

開発環境

大量データ活用!Hadoop入門

大量の情報をうまく扱うための、誰でも無料で使える仕掛けである「ハドゥープ」について説明します。ハドゥープは、たくさんの計算機を組み合わせて使うことで、一昔前までは一つの計算機ではとても扱いきれなかったような大きな情報の塊を、上手にさばくことができるようにしたものです。 これまでは、計算機の能力が足りずに解析をあきらめていたような、とても大きなデータも扱えるようになったので、様々なところで使われています。 ハドゥープのすごいところは、「分散処理」というやり方を使っているところです。これは、大きなデータを細かく分けて、たくさんの計算機に少しずつ保存し、それぞれの計算機で分担して計算を行う方法です。例えるなら、大きなジグソーパズルをみんなで分担して組み立てるようなものです。一人では大変な作業も、みんなで協力すれば早く終わらせることができますよね。ハドゥープもこれと同じように、たくさんの計算機に仕事を分担させることで、全体として処理速度をとても速くすることができます。 さらに、ハドゥープは壊れにくいという特徴もあります。もし、パズルを組み立てている途中で一人が抜けてしまっても、他の人が代わりにその部分を作れば、パズルは完成させることができます。ハドゥープも同様に、計算機のどれか一つが壊れてしまっても、他の計算機が代わりに処理を引き継ぐことができるので、全体としては処理を続けることができます。 近頃では、あらゆる場所でデータがどんどん増えています。企業や研究所など、様々な場所でハドゥープは活躍しています。今までできなかったような大きなデータを分析できるようになったことで、今まで気づかなかった新しい発見や、商売のチャンスにつながることが期待されています。ハドゥープは、これからの情報社会を支える、大切な技術の一つと言えるでしょう。