会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。

Mahoutとは?

  • インドの像使いという意味の言葉
  • Apacheプロジェクトのオープンソース機械学習ライブラリ
  • 主要テーマは推薦エンジン(協調フィルタリング)、集団形成(clustering)、分類(classification)
  • スケーラブル
  • Javaで書かれたJavaライブラリ
  • Hadoopの上で動かすように作られている
  • Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった

MahoutとHadoopで大規模データに取り組む

  • 機械学習技術は大規模なデータを基に使われる
  • パワフルなコンピュータでさえ1台で処理するのは難しい
  • Mahoutのような実装がなければ困難
  • スケーラブルな分散環境はHadoopにより実現

Mahoutセットアップ

  • Java6以上が必要
  • IDEの使用をオススメ(Eclipse, NetBeans, IntelliJ IDEAなど)
  • Mavenをインストールする
  • Mahoutはまだ開発中で、執筆時のバージョンは0.5
  • ダウンロードサイトからダウンロード可能
  • もしくはSubversionから最新のコードを取得可能
    https://cwiki.apache.org/confluence/display/MAHOUT/Version+Control
  • 取得したソースからIDEでMavenプロジェクトを作成(方法はIDEによって異なる)
  • Hadoopを擬似分散モードでインストールする(本書ではVersion 0.20.2を使用)
  • ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら
posted by akanuma akanuma on Sat 5 Nov 2011 at 11:31 with 0 comments
Contents rssrss
[Rails]to_travel は DateTime.now に対応してない
[Rails]RailsアプリにPassengerから環境変数を渡す
[Rails]Rails4 で datetimepicker を使う
[Vagrant] VM上のUbuntuから名前解決できない
[Rails]Passengerがgitからinstallしたgemを認識しない
[Rails][MessagePack] APIレスポンスとしてのMessagePack検証
[mongodb][couchbase] MongoDBとCouchbaseを比べてみました
[Rails][MySQL] RailsでMySQLを使う
[MySQL] MacにMySQLをインストール
[Rails] APサーバの比較検証(Puma, Unicorn, Passenger)
Tags
railsPassengermysqlRails,Ruby,bootstrapChefCouchbasedatetimepickerMessagePackMongoDBnginxPuma,RSpecrubyubuntuUnicorn,Vagrant
Comments rssrss
yoku0825 yoku0825: nkfの方が使いやすいですが、glibcに含まれているiconvの方が 確実にどの環境にも入っている... 06/11 07:03
Hiroaki Akanuma Hiroaki Akanuma: ご指摘ありがとうございます。「嗜好度は大きい値がより嗜好度が強いことを意味すればどのような値でもよい... 11/08 12:50
akr akr: 初めての推薦エンジンのところ 「属性データはどんなものでも可能。」 は preference val... 11/08 11:18
Services from s21g
YOMU Web小説リーダー
Web小説を音声で楽しむ読み上げリーダー
補助探
公開されている補助金・助成金情報を集約し、条件に合う制度を探しやすくするサービスです。
jotter.me
個人開発者のためのホスティング一体型ノートサービス
ハンドミラー
iPhone向けの手鏡アプリ
ツイプロ(twpro)
Twitterプロフィールの高速検索エンジン