会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。
Mahoutとは?
- インドの像使いという意味の言葉
- Apacheプロジェクトのオープンソース機械学習ライブラリ
- 主要テーマは推薦エンジン(協調フィルタリング)、集団形成(clustering
)、分類(classifica tion) - スケーラブル
- Javaで書かれたJavaライブラリ
- Hadoopの上で動かすように作られている
- Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった
MahoutとHadoopで大規模データに取り組む
- 機械学習技術は大規模なデータを基に使われる
- パワフルなコンピュータでさえ1台で処理するのは難しい
- Mahoutのような実装がなければ困難
- スケーラブルな分散環境はHadoopにより実現
Mahoutセットアップ
- Java6以上が必要
- IDEの使用をオススメ(Eclipse, NetBeans, IntelliJ IDEAなど)
- Mavenをインストールする
- Mahoutはまだ開発中で、執筆時のバージョンは0.5
- ダウンロードサイトからダウンロード可能
- もしくはSubversion
から最新のコードを取得可能
https://cwiki.apache .org/confl uence/disp lay/MAHOUT /Version+C ontrol - 取得したソースからIDEでMavenプロジェクトを作成(方法はIDEによって異なる)
- Hadoopを擬似分散モードでインストールする(本書ではVersion 0.20.2を使用)
- ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら