会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。

Mahoutとは?

  • インドの像使いという意味の言葉
  • Apacheプロジェクトのオープンソース機械学習ライブラリ
  • 主要テーマは推薦エンジン(協調フィルタリング)、集団形成(clustering)、分類(classification)
  • スケーラブル
  • Javaで書かれたJavaライブラリ
  • Hadoopの上で動かすように作られている
  • Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった

MahoutとHadoopで大規模データに取り組む

  • 機械学習技術は大規模なデータを基に使われる
  • パワフルなコンピュータでさえ1台で処理するのは難しい
  • Mahoutのような実装がなければ困難
  • スケーラブルな分散環境はHadoopにより実現

Mahoutセットアップ

  • Java6以上が必要
  • IDEの使用をオススメ(Eclipse, NetBeans, IntelliJ IDEAなど)
  • Mavenをインストールする
  • Mahoutはまだ開発中で、執筆時のバージョンは0.5
  • ダウンロードサイトからダウンロード可能
  • もしくはSubversionから最新のコードを取得可能
    https://cwiki.apache.org/confluence/display/MAHOUT/Version+Control
  • 取得したソースからIDEでMavenプロジェクトを作成(方法はIDEによって異なる)
  • Hadoopを擬似分散モードでインストールする(本書ではVersion 0.20.2を使用)
  • ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら
posted by akanuma akanuma on Sat 5 Nov 2011 at 11:31 with 0 comments
 Google Developer Day 2011 Japanに行ってきたので会場の様子をちょっと紹介。  基調講演やブレイクアウトセッションについては前のエントリで少し書いたのでそちらをどうぞ。 * [Google Developer Day 2011 に行ってきました。](2010) * [GDD 2011 Japan のブレイクアウトセッション](2011)  エントランスロビー。オブジェは正二十面体にGDDの開催地がマッピングされた展開図になってるらしいです。  デベロッパーサンドボックスのコーナー。芝浦工業大学とco-meetingの説明を聞いてきました。  NFCを使ったスタンプラリー的なもので、「NFC QUEST」。会場内のいろんなところにNFCのチェックポイントがあって、入場時に配布されたカードでタッチするようになってました。右下の写真はBar Androidの出張店舗。  こちらはGTUGコーナー。  Chrome Bookも展示されていました。ちょっとしか触ってないですが、普通のノートPCとすごく違うような印象は受けませんでしたね。  さらにGoogle TVも。今度docomoから出るGalaxyも展示されてたらしいのですが、私は見てきませんでした。  こちらはAndroid関連の展示。  パノラマなGoogle Earth。  メディアラボとGooglerによるパフォーマンス。メディアラボはGoogleとのコラボでWebサイトへアクセスすることによる観客参加型のセッション。Node.jsとWeb Audio APIを使った仕組みだそうです。Googlerは須藤元気のWORLD ORDERと同じダンスパフォーマンス。ダンス経験者はほとんどいなかったそうですがそうとは思えないなかなかすごいものでした。  「あなたが書いた自慢のコードは何ですか?GDD会場に刻みつけよう!」ということで参加者が自由にコードを書き込めるボード。右は終了後に会場外で取った夜景です。  GDD Tシャツ。洗うとすごく色落ちしますw 缶バッジは入場時に一人当たり同じものが10個ずつ配られて、他の参加者と交換してコンプリートしてくださいということでした。参加者間の交流を促すための取り組みですね。私は知らない人に話しかけるのが苦手なので集まったのはこれだけw  こちらも全員に配布されたzeemoteのBluetooth接続のジョイスティック。Android端末でゲームをやるときに使えます。ゲーム以外にもBluez IMEというIMEアプリを入れるとキーボード入力代わりにつかえるので、プレゼンでスライド送ったりとかにも使えていい感じです。3Dメガネはクロージングで動画を見るのに使う予定だったらしいのですが、Igniteが長引いたことで割愛されてしまったそうで。。。出番ありませんでした。  全体的な感想としては、入場時の配布物とか昼のお弁当配布とかはもうちょっとスムーズにならないかなぁという感じです。だいぶ並んで待っている時間が長かったので。。  セッションをしっかり聞こうと思うとバッジの交換とかブースを回ったりとかっていう時間はあんまり取れないのが残念なところですね。  あとはセッション会場でも電源が取れると良かったんですが。。
posted by akanuma akanuma on Sat 5 Nov 2011 at 00:10 with 0 comments