November 2011

October December

8th Tue

Mahout in Action Chapter 3 Summary

Mahout in ActionのChapter3についての自分の理解をメモ。

嗜好データの表現

Preferenceオブジェクト

Preferenceオブジェクトは最も基本的な概念で、一つのユーザID、アイテムID、嗜好値で嗜好性を表す
一つのオブジェクトが一人のユーザの一つのアイテムに対する嗜好性を表している
一つのGenericPreferenceは20バイトの有用なデータを保持しており、8バイトのユーザID（Javaのlong型）、8バイトのアイテムID（long）、4バイトの嗜好値（float）から成っている
オブジェクトが存在するためには上記以外に28バイトものオーバーヘッドがかかる

PreferenceArrayと実装

PreferenceArrayはPreferenceのコレクションを配列のように扱うためのインタフェース
例としてGenericUserPreferenceArrayは一つのユーザIDにアイテムIDの配列と嗜好値の配列を持つ
必要なメモリはわずか12バイト（8バイトのアイテムID、4バイトの嗜好値の配列）
Preferenceオブジェクトと比べてメモリは節約できるがパフォーマンスの改善効果は少ない
これはPreferenceArrayでは要素が分散されて配置され、ガベージコレクタによって評価されるため

FastByIDMapとFastIDSet

Mahoutはmapやsetのようなデータ構造を使用するが、JavaのコレクションであるTreeSetやHashMapではなく、FastMap、FastByIDMap、やFastDISetを使用する
これらはMapやSetのようなものであるが、MahoutのRecommenderが必要なものだけのために特化されている
パフォーマンスの劇的な改善というよりむしろメモリの使用量を削減する
Javaのコレクションとの違いは下記のような点
・FastByIDMapはHashMapと同じようにハッシュベースで、ハッシュの衝突の解決には分離連鎖法ではなく線形探査法を使う
・MahoutのRecommenderではキーとメンバーは常にlong型のプリミティブ型でオブジェクトではない。
・longのキーを使うことでメモリの使用量を抑えパフォーマンスを改善する。
・FastByIDMapは最大サイズという考え方があるためキャッシュの様に使用することができ、このサイズを越えた場合は、新しい要素を追加する際に使われていない要素が削除される
FastIDSetは一つの要素ごとに平均14バイト使用する。HashSetは84バイト。
FasByIDMapはエントリごとに28バイト使用する

インメモリデータモデル

GenericDataModel

最もシンプルなインメモリのDataModel実装はGenericDataModel
GenericDataModelは嗜好度の入力としてユーザIDとPreferenceArrayのFastByIDMapを受け取る

   1  FastByIDMap<PreferenceArray> preferences = 
   2      new FastByIDMap<PreferenceArray>();
   3  PreferenceArray prefsForUser1 = 
   4      new GenericUserPreferenceArray(10);
   5  
   6  prefsForUser1.setUserID(0, 1L);
   7  prefsForUser1.setItemID(0, 101L);
   8  prefsForUser1.setValue(0, 3.0f);
   9  prefsForUser1.setItemID(1, 102L);
  10  prefsForUser1.setValue(1, 4.5f);
  11  ... (8 more)
  12  
  13  preferences.put(1L, prefsForUser1);
  14  
  15  DataModel model = new GenericDataModel(preferences);

メモリの使用量は格納される嗜好データの数によるが、いくつかのテストの結果から、嗜好データ1つごとに28バイトのJava heap spaceが使われる。これにはすべてのデータとインデックスなどのデータ構造を含む。

ファイルベースのデータ

FileDataModelはファイルからデータを読み込み、GenericDataModelとしてメモリに格納する
CSVの他にTSVも使用可能。ファイル名の拡張子が.zipや.gzになっていればzipやgzipの圧縮ファイルも使用可能

コンポーネントのリフレッシュ

データをリフレッシュするためには refresh(Collection) というメソッドを使用する。
このメソッドは最新のデータを元にコンポーネントの再読み込み、再計算、状態のリフレッシュを行う
FileDataModelはその時点のファイルを読み込むだけで、パフォーマンスの問題で自動的にデータをリロードするようなことはしないため、refresh()メソッドを使用する

ファイルの更新

FileDataModelはファイルの更新をサポートしている。メインのファイルを読み込んだ後でさらにファイルを読み込むことで先に読み込まれたデータを上書きする
削除は空の嗜好値データを渡すことによって行われる

   1  1,108,3.0
   2  1,103,

上記のデータではユーザ1のアイテム108についての嗜好度データが作成または更新されて嗜好度3.0がセットされ、ユーザ1のアイテム103についての嗜好度データが削除される
このためにはメインのデータファイルと同じディレクトリに格納し、最初のピリオドまでのファイル名を同じにしておく必要がある

DBベースのデータ

MahoutではRDBから嗜好度データを読み込むことができる
DBからデータを読み込んでRecommenderを動かすのはかなり遅い
データの抽出、並び替え、シリアライズ、転送、結果セットのデシリアライズのオーバーヘッドは依然として最適化されたインメモリ構造からデータを読み込むよりかなり大きい

JDBCとMySQL

嗜好度データにはJDBCDataModelの実装を通してJDBCでアクセスする
JDBCDataModelのプライマリサブクラスはMySQL5.x用のMySQLJDBCDataModel
Mahoutの開発バージョンにはPostgreSQL用のJDBCDataModel実装がある
デフォルトではすべての嗜好度データはtaste_preferencesというテーブルに、ユーザIDが格納されるuser_idカラム、アイテムIDが格納されるitem_idカラム、嗜好度データが格納されるpreferenceカラムとともに格納されているとみなされる
このテーブルにはJavaのlong型と互換性のあるtimestampカラムを含むことができる

JNDIによる設定

JDBCDataModelはJNDIにjdbc/tasteという名前で登録されているDataSourceでアクセスできるものとみなされる

プログラムでの設定

JNDIを直接使わなくても、MySQLJDBCDataModelのコンストラクタにDataSourceを直接渡すことができる

   1  MysqlDataSource dataSource = new MysqlDataSource();
   2  dataSource.setServerName("my_database_host");
   3  dataSource.setUser("my_user");
   4  dataSource.setPassword("my_password");
   5  dataSource.setDatabaseName("my_database_name");
   6  JDBCDataModel dataModel = new MySQLJDBCDataModel(
   7      dataSource, "my_prefs_table", "my_user_column",
   8      "my_item_column", "my_pref_value_column");

上記がデータベース内のデータをレコメンドに使うためのすべて
MySQLJDBCDataModelのドキュメントが明確にしているように、効率的にレコメンドを提供するには下記のようなデータベースやドライバに対するコンフィギュレーションが求められる
・ユーザIDとアイテムIDカラムはnullを許容せず、インデックスされていること
・プライマリキーはユーザIDとアイテムIDの複合値であること
・カラムのデータ型はJavaのlongとfloatに対応していること
・バッファやクエリキャッシュのチューニングのためにはMySQLJDBCDataModelのJavadocを参照
・MySQLのConnector/Jドライバを使う場合は、cache-PreparedStatementsパラメータをtrueに設定する

嗜好度データ無しの対処

ユーザとアイテムの関連はあるがつながりの強さを表す値がない嗜好度データを扱うことがある
Mahout-speakではこのようなデータはBoolean preferencesと呼ばれ、”存在する” または ”存在しない” のいずれかの値を持つ
これは”yes”、”no”を表すのではなく、全ての有効なユーザとアイテムの関連において、”好き”、”好きではない”、”なし”の3つの状態を設定する

データを無視する場合

好む、好まないというのが相対的に似たような状態の場合、少なくとも関連が全くないものと比較するケースでは、嗜好度データを無視することは有益である

嗜好度なしのインメモリ表現

嗜好度を持たないことは嗜好データの表現を劇的に単純化し、パフォーマンスの改善と、メモリ使用量の大幅な削減を可能にする
嗜好度を持たないことで一つの嗜好度データごとに4バイト抑えられるはずであるが、実際にテストをした結果では4バイトから24バイト削減された
GenericBooleanPrefDataModelはGenericDataModelとは別のDataModel実装であるが、嗜好度を内部に保持せず、FastIDSetsのように関連のみを保持する
DataModelのgetItemIDsForUser()などのいくつかのメソッドは速くなる
getPreferencesFromUser()などのいくつかのメソッドは遅くなる。
getPreferenceValue()メソッドは全てのケースにおいて1.0を返す。
GenericBooleanDataModelの便利なメソッドであるtoDataMap()を使ってPreferenceArraysを要素としてもつFastByIDMapを、FastIDSetsを要素としてもつFastByIDMapに変換して、GenericBooleanDataModelの入力として渡すことが可能

互換性のある実装の選択

EuclideanDistanceSimilarityなどは嗜好度なしで動かしても役に立つ結果は得られないため、嗜好度無しのデータでは動作しない
二つのデータが同じ値である場合、これらのピアソン相関は定義されない
LogLikelihoodSimilarityは実際の嗜好度データに基づかない実装
FileDataModelは入力データが嗜好度を含まない場合、自動的にGenericBooleanPrefDataModelを使用する
MySQLBooleanPrefDataModelは嗜好度カラムを持たないデータベーステーブルを使用する場合に適している

posted by

akanuma on Tue 8 Nov 2011 at 08:29

Sqlite3でSQLite3::BusyExceptionが出たら

database.ymlに

   1  development:
   2    timeout: 2000

のようにタイムアウトをミリ秒で指定すればok デフォルトでは 0 になっていて掲題の例外が発生するようです。

posted by

genki on Tue 8 Nov 2011 at 04:17

6th Sun

Mahout in Action Chapter 2 Summary

　Mahout in ActionのChapter2についての自分の理解をメモ。

初めての推薦エンジン

ここではユーザベースの推薦アルゴリズムを使用
MahoutのインプットデータのIDは常に数字（整数）。嗜好度は大きい値がより嗜好度が強いことを意味すればどのような値でもよい。
CSV形式でインポートデータを用意。
Recommenderの作成
・DataModel：データの保持、データへのアクセス
・UserSimilarity：ユーザ間の類似度
・UserNeighborhood：ユーザの類似グループ
・Recommender：上記コンポーネントを元に推薦アイテムを抽出
結果の分析
・現実はデータ量が膨大でノイズも含んでいる
・膨大なデータから正しい結果を素早く抽出することは重要

Recommenderの評価

実際のデータの一部を元にシミュレート可能
評価された結果と実際のデータの間での平均値の違いを計算可能
上記評価の値は小さいほど良い
上記値が0.0の場合、評価された値と本番データの差はないということ
RecommenderEvaluatorはデータを評価用に分割し、DataModelとRecommenderを生成し、評価された値を実際のデータと比較する
例でevaluate()メソッドにRecommenderが渡されていないのは、メソッド内部で新たに作られたDataModelについてRecommenderを生成する必要があるため
メソッドの呼び出し元からDataModelからRecommenderを生成するためのRecommenderBuilderを渡す必要がある。
ここではこの章で前出の実装と同じものが生成される
RandomUtils.useTestSeed()では毎回同じランダム値を取得する。本番コードで使ってはいけない。
プログラム2.3の例では実行結果は1.0が返ってくるが、この値の意味は実装に寄って異なり、ここではAverageAbsoluteDefferenceRecommenderEvaluatorが使われている。
実行結果が異なるかもしれないが、それはデータセットの分割がランダムであり、実行の度にトレーニングセットの内容が異なることによるもの。
root-means-square（二乗平均平方根）によるスコアリングに変更する場合は、AverageAbsoluteDifferenceRecommenderEvaluatorをRMSRecommenderEvaluatorに置き換える
evaluate()メソッドにnullの代わりにDataModelBuilderを渡すことができ、それによってトレーニングデータからどのようにDataModelが作られるかを制御することが出来る。通常はデフォルトが良い。
例でevaluate()メソッドに渡されている1.0という値は入力データのどれぐらいの割合が使われるかということで、ここでは100%とという意味。

正確さと再現度の評価

正確さは上位の推薦結果の中の良い推薦の割合。
再現度は良い推薦の中の上位の推薦結果に含まれる割合。
Mahoutはこれらの計算を極めて簡潔な方法で行うことが出来る。
RandomUtils.useTestSeed()を使わない場合、ここではデータセットが小さいので、結果はデータセットのランダムな抽出に大きな影響を受ける。
推薦結果の良し悪しを分ける明確な境界が与えられていない場合、フレームワークがユーザごとに嗜好の平均に標準偏差を加算したものを使用する。

GroupLensのデータセットを評価する

GroupLensとは実際のユーザの映画に対する評価のリサーチプロジェクトで、いくつかの種類の大きさのデータセットを提供している
ここでは 100Kデータセットを使用 http://www.grouplens.org/node/73
ダウンロードしたファイルを解凍した中に含まれている ua.base はタブ区切りのユーザID、アイテムID、評価、その他の追加の情報のファイル
FileDataModelで扱うことができる。前出のintro.csvの代わりに使用
Slope One Recommenderを使用してみる
RecommenderBuilderでSlopeOneRecommenderを使用するようにすることで利用可能
サンプルを実行すると非常に高速だが、Slope Oneアルゴリズムが常に高速というわけではない
計算の前処理に非常に時間がかかる場合がある
この違いは実際のデータでテスト・評価することの大切さと、Mahoutを使うと比較的簡単に行えることを示している

posted by

akanuma on Sun 6 Nov 2011 at 22:18 with 2 comments

5th Sat

Mahout in Action Chapter 1 Summary

　会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。

Mahoutとは？

インドの像使いという意味の言葉
Apacheプロジェクトのオープンソース機械学習ライブラリ
主要テーマは推薦エンジン（協調フィルタリング）、集団形成（clustering）、分類（classification）
スケーラブル
Javaで書かれたJavaライブラリ
Hadoopの上で動かすように作られている
Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった

MahoutとHadoopで大規模データに取り組む

機械学習技術は大規模なデータを基に使われる
パワフルなコンピュータでさえ1台で処理するのは難しい
Mahoutのような実装がなければ困難
スケーラブルな分散環境はHadoopにより実現

Mahoutセットアップ

Java6以上が必要
IDEの使用をオススメ（Eclipse, NetBeans, IntelliJ IDEAなど）
Mavenをインストールする
Mahoutはまだ開発中で、執筆時のバージョンは0.5
ダウンロードサイトからダウンロード可能
もしくはSubversionから最新のコードを取得可能
https://cwiki.apache.org/confluence/display/MAHOUT/Version+Control
取得したソースからIDEでMavenプロジェクトを作成（方法はIDEによって異なる）
Hadoopを擬似分散モードでインストールする（本書ではVersion 0.20.2を使用）
ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら

posted by

akanuma on Sat 5 Nov 2011 at 09:57

GDD 2011 Japanの会場の様子

　Google Developer Day 2011 Japanに行ってきたので会場の様子をちょっと紹介。

　基調講演やブレイクアウトセッションについては前のエントリで少し書いたのでそちらをどうぞ。

　エントランスロビー。オブジェは正二十面体にGDDの開催地がマッピングされた展開図になってるらしいです。

　デベロッパーサンドボックスのコーナー。芝浦工業大学とco-meetingの説明を聞いてきました。

　NFCを使ったスタンプラリー的なもので、「NFC QUEST」。会場内のいろんなところにNFCのチェックポイントがあって、入場時に配布されたカードでタッチするようになってました。右下の写真はBar Androidの出張店舗。

　こちらはGTUGコーナー。

　Chrome Bookも展示されていました。ちょっとしか触ってないですが、普通のノートPCとすごく違うような印象は受けませんでしたね。

　さらにGoogle TVも。今度docomoから出るGalaxyも展示されてたらしいのですが、私は見てきませんでした。

　こちらはAndroid関連の展示。

　パノラマなGoogle Earth。

　メディアラボとGooglerによるパフォーマンス。メディアラボはGoogleとのコラボでWebサイトへアクセスすることによる観客参加型のセッション。Node.jsとWeb Audio APIを使った仕組みだそうです。Googlerは須藤元気のWORLD ORDERと同じダンスパフォーマンス。ダンス経験者はほとんどいなかったそうですがそうとは思えないなかなかすごいものでした。

　「あなたが書いた自慢のコードは何ですか？GDD会場に刻みつけよう！」ということで参加者が自由にコードを書き込めるボード。右は終了後に会場外で取った夜景です。

　GDD Tシャツ。洗うとすごく色落ちしますw 缶バッジは入場時に一人当たり同じものが10個ずつ配られて、他の参加者と交換してコンプリートしてくださいということでした。参加者間の交流を促すための取り組みですね。私は知らない人に話しかけるのが苦手なので集まったのはこれだけw

　こちらも全員に配布されたzeemoteのBluetooth接続のジョイスティック。Android端末でゲームをやるときに使えます。ゲーム以外にもBluez IMEというIMEアプリを入れるとキーボード入力代わりにつかえるので、プレゼンでスライド送ったりとかにも使えていい感じです。3Dメガネはクロージングで動画を見るのに使う予定だったらしいのですが、Igniteが長引いたことで割愛されてしまったそうで。。。出番ありませんでした。

　全体的な感想としては、入場時の配布物とか昼のお弁当配布とかはもうちょっとスムーズにならないかなぁという感じです。だいぶ並んで待っている時間が長かったので。。
　セッションをしっかり聞こうと思うとバッジの交換とかブースを回ったりとかっていう時間はあんまり取れないのが残念なところですね。
　あとはセッション会場でも電源が取れると良かったんですが。。

posted by

akanuma on Sat 5 Nov 2011 at 00:10

4th Fri

[iPhone] new BSDライセンスについてライセンス引用のメモ

new BSDライセンスがついているものをアプリに組み込みたいなと思いましたので改めて調べてみました。
結論から言うと、

EULAにLicense文書をそのまま入れる

アプリ内にLicense文書を表示するwebViewを作る：設定やAboutなどで

の2つをするがベストな感じです。

[参考1] @takuma104さんのブログ

NatsuLion for iPhone クローン (略) から学んだこととかまとめ - @takuma104 log http://d.hatena.ne.jp/takuma104/20090329/1238329981

具体的には、

AppStore で配布する際の iPhone アプリで、New BSD License のコード等を使用する場合の適切な方法は、僕の考える限り、以下ぐらいの手法ではないかと思います。

EULA に License 文書をそのまま入れる

アプリのどこか、たとえば「設定」や「このアプリについて」とかに、License 文書を全文表示できるような仕組みを作る (webViewっぽいViewで組み入れているものも見かけますね)

AppStore からリンクされているサポートページが事実上ドキュメントなので、そこに License 全文記載されているページへリンクする

[参考2] 他のiPhone開発者の方々に聞いてみました

Twitterで聞いてみたところ、@azu_reさんが

@azu_re : @satoko 自分はアプリの設定あたりに"このアプリについて"みたいな感じのWebView作って、ライセンス文流し込みました
http://twitter.com/azu_re/status/132288479706095616

というtwtを下さいました。他にも実際にこういう手法を取っていらっしゃる開発者の方は何人かいらっしゃるようでした。

[参考3] Instagramアプリでの表示例

ちなみに、Instagramアプリでは、Profileタブをタップ、右上Aboutをタップ、Libraries項をタップすると下記のように表示されます：
(なぜかとても見づらい状態で表示されていますがw)

[おまけ] EULAって何？

BSDライセンス絡みメモ：EULA ってなんですか？ « 寺子屋サルでき旧館 | iPhoneアプリ開発をもっともっと楽しく！困ったらみんなで解決！
http://sarudeki.maiway.jp/forum/topic/37

Where is the iPhone app EULA displayed for the user?
http://stackoverflow.com/questions/1960338/where-is-the-iphone-app-eula-displayed-for-the-user

posted by

satoko on Fri 4 Nov 2011 at 17:46

3rd Thu

GDD 2011 Japan のブレイクアウトセッション

　Google Developer Day 2011 Japan に行ってきました。

　午前中の基調講演については前のエントリで感想等書いたので、今度は午後のブレイクアウトセッションについて少し。

「App Engine最新機能」

　今回のGDDでは自分としてはクラウド関係の情報に触れたいと思っていたので、主にクラウドトラックのセッションに参加してきました。中でもやっぱりGAEのセッション、「App Engine最新機能」を楽しみにしていました。

　セッションで使われたスライドはこちら。　http://goo.gl/2pNfD

　サイト上のセッション紹介ではMapReduce APIについても紹介がありそうに書かれていたので期待していたのですが、残念ながらセッションでの紹介はありませんでした。
　セッション冒頭で会場にアンケートを取ったところ、GAEを使っている人は6割程度、Java版とPython版が半々、Go版は3名ほどという感じ。自分のイメージではJava版を使っている人が多いと思っていたのですが、Python版を使っている方も多いんですね。

　自分はGAEについてはかなり前にチュートリアルをやった程度で今まで足りなかった機能とか最新機能としてこれが追加されてすごく良くなったとかはまりピンと来ていないのですが、いろいろなAPIがあったり、セキュリティやパフォーマンスの改善が行われていたり、トランザクションがサポートされるようになったり（XG Transaction）と最近追加されている内容だけでも盛りだくさんの様です。
　GAEのチームでは公約はしていないものの毎月リリースをする方針の様で、どんどん改善されていっている様ですね。ただ開発する側は大変だそうですw
　自分としては最近HadoopやAWSを触る機会が多かったので、比較できるように色々調べてみたいと思っています。

　そのほかに参加したセッションとしては、

「クラウド上でイケてるゲームを構築しよう」

　つかわれた資料はこちら

　ゲーム開発をほとんどしたことがない自分としては新鮮でした。PlanNというフレームワークを紹介していて、セッション内でバグレポートを実際に投稿したりw、その場でどんどんゲームの画面を作っていってしまうところがおもしろかったですが、なんと20分ぐらいでセッション終了。。

「今までにないサイトを作る：HTML5 による最新ウェブアプリ」

　Power of Cloud + Rich Front End でWebアプリを構築していくという内容で、「とにかくユーザの参入障壁を低くすることが重要」で、ユーザがサービスを使い始めるまでに必要な手間を極力減らすべきというようなことを言っていました。この点はすごく共感できますね。
　業務でWebアプリ開発をやっていると、サービス提供側としてはいろいろな情報を取りたくなってしまいますが、やっぱりそれではユーザがなかなか使い始めてくれないので、まずは使ってもらうことを意識することが必要ですね。

行っときゃ良かったと思ったセッション

　他のセッションとかぶっていたので出なかったんですが、Chromeのデベロッパーツールのセッションには行っておけば良かったと思ってます。他の方のTweetを見ていてもかなり良かったようで、実はこの一番日々の開発にすぐに活かせる内容だったのではないかと思ってます。

DevQuizの解説

　Igniteの最後にDevQuizの解説がありました。今回のボーダーラインは100.56点。自分は100.8点だったのでやっぱりギリギリ。。危なかった～。

　1400人以上が100点以上を獲得して、出題チームの意図に反して最後のスライドパズルの問題が決戦の場になってしまったようです。スライドパズル5000問のうち4000問目以上はそこまでより一気に難易度が上がっていた様で、解けた人は解けなかった人の1000倍速いアルゴリズムを組んでいたとのことです。自分は力づくのやり方しかできなかったので足元にも及びませんね。。

posted by

akanuma on Thu 3 Nov 2011 at 13:49

2nd Wed

Google Developer Day 2011 に行ってきました。

　Google Developer Day 2011 Japan に行ってきました。日本では今年で5回目らしいですが、私は初参加です。

　ここではとりあえず午前中2時間の基調講演について。

　今回のGDDテーマは主に4つ。

Android
Chrome/HTML5
GAE
Google+

　基調講演だけでなく、セッションも上記4種＋TechTalkという構成になっていました。

　今回一番ホットなトピックはやはりつい先日 IceCreamSandwich がリリースされたAndroidですね。基調講演の中でも一番最初でしたし、午後のセッションの会場もAndroidのセッションは主に一番広いメインホールが割り当てられていました。
　デモでは新しい連絡先アプリにあたるものと、Android Beam, Face Unlockの紹介がありました。新しい連絡先アプリのUIは、WindowsPhoneのメトロUIに近いような印象を受けました。メトロUIは良さそうだと思っていましたが、今後UIはこちら方向へ進んでいくんでしょうかね。
　Androidはどんどん機能が追加されてますます面白いことが出来そうな気がしてきますが、開発側として気になるのはデバイスの乱立への対応なので、そのあたりのいい解決方法が見つかるとみんな幸せになれるんじゃないかと思います。

　あと力を入れている印象が強かったのはChrome/HTML5でした。標準技術であるHTML5 + クラウド + Chromeでリッチなアプリケーションという流れを加速させて行こうという印象でした。一般的にはまだChrome Web Storeからアプリをインストールして使うというのはメジャーではない気がしていますが、シェアが拡大できればおもしろくなっていきそうです。
　また、アプリの構築に使う技術だけでなく、ChromeのDeveloperToolの紹介もありました。今まではあまり深く使っていなかったんですが、これはかなり便利そうです。デモでは難読化されたJavascriptを整形して表示したり、CSSを直接編集して変更履歴の追跡やファイルの上書きというようなことをやっていました。このあたりの内容はすぐに日常の業務に生かせそうですし、相当高機能っぽいということを実感しました。午後にDeveloperToolのセッションがあったのですが他に出たいセッションとかぶっていてあきらめたら、あとでTweetをみるとかなりよさそうだったので、そちらにいけばよかったと後悔。。。DeveloperToolの詳しい使い方を調べてみようかという気にさせられました。

　個人的に今回色々情報収集したいと思っていたのはクラウド関連で、デモでは最近追加された Google Cloud SQL が紹介されました。HadoopのHiveだとHiveQLがMapReduceのジョブに変換されるので、それを意識したクエリにしないと結局遅かったりしますが、Google Cloud SQLはどうなのか気になるところです。パフォーマンスが良いのであれば普通にSQLで書けた方がやっぱり便利なので、その辺調べてみたいですね。
　GAEはAndroidなどと比べると派手さはないと思いますが、Android, Chromeなど様々なサービスの基盤となる部分で、自分としても今注目している分野なので、Googleのクラウドのことをもっと調べてみたいと思います。

　それとGoogle+。自分としては純粋に「おもしろそう」と思えるサービスで、デモでやっていたHangoutのアプリなんかはすごいなぁと思うのですが、カギはやっぱりユーザ数でしょうね。増えてきてはいるようですがまだまだ少ないですし、やはりFacebookという巨人がいるので、すでにそちらでネットワークが構築されてしまっている場合にはなかなかGoogle+に変更しようという気にはなれないと思うので、普及するとしてももう少し時間がかかるかなぁという印象です。

　そして最後にはエンジニアの価値向上のために「Three More Things」ということで3つの言葉が挙げられました。

   1  なにごともエンジニアありき
   2  百聞は一デモに如かず
   3  日本で「イケる!」と思ったら、世界のみんなも同感するかも

　うーむ、大事ですね。うちの会社は比較的エンジニアを大切にしてくれている方だと思っているのですが、もっと、いい意味でエンジニアが幅をきかせることができるようにしていきたいなぁと思います。そしてあんまり考えすぎるより実際に手を動かして示してみるというのも改めて大事だなぁと思いました。

posted by

akanuma on Wed 2 Nov 2011 at 00:08

30th Sun

Mahout開発環境の作成

Mahout In Actionのコードを実行するために、EclipseでMahoutの開発をする環境を作成してみました。

下記サイトを参考にさせていただきました。
mahout/レコメンドシステムの作り方

前提

Java, Maven, Eclipseがインストール済みであること

手順

m2eclipseプラグインのインストール
Maven Projectの作成
M2_REPOの設定
mahout-coreのdependency設定
Javaクラスの作成

それぞれの手順の内容は下記のとおりです。

・m2eclipseプラグインのインストール

Eclipse上からMavenの操作ができるようにするために、m2eclipseというプラグインをインストールします。
Eclipse の Helpメニュー > Install New Software... で下記URLを指定してインストールします。

http://m2eclipse.sonatype.org/sites/m2e

インストール後にはEclipseの再起動が必要です。

・Maven Projectの作成

Eclipse の Fileメニュー > New > Other...
Maven > Maven Project を選択して Maven Project を作成します。

・M2_REPOの設定

MavenのローカルリポジトリのパスをM2_REPOという変数名で設定します。

Eclipse の Windowメニュー > Preferences
Java > Build Path > Classpath Variables
Newボタンをクリックして Name と Value を設定します。私の場合は下記の用に設定しました。

Name: M2_REPO
Value: /home/h-akanuma/.m2/repository

・mahout-coreのdependency設定

Mahout のライブラリを使用できるようにするために、mahout-core の dependency を設定します。pom.xml のに下記の内容を追加します。

   1     <dependency>
   2        <groupId>org.apache.mahout</groupId>
   3        <artifactId>mahout-core</artifactId>
   4        <version>0.5</version>
   5      </dependency>	
   6      <dependency>
   7        <groupId>org.slf4j</groupId>
   8        <artifactId>slf4j-jcl</artifactId>
   9        <version>1.6.0</version>
  10        <scope>test</scope>
  11      </dependency>

追加後にworkspace内のプロジェクトのディレクトリで下記mvnコマンドを実行して、依存性の解決とソースコードをダウンロードしてEclipseから参照できるようにします。

   1  ~/workspace/ml$ mvn eclipse:eclipse -DdownloadSources=true

・Javaクラスの作成

Mahout In Action のサンプルクラスを作成してみます。

   1  public class RecommenderIntro {
   2    public static void main(String[] args) throws Exception {
   3      DataModel model = new FileDataModel (new File("/tmp/intro.csv"));
   4      UserSimilarity similarity = new PearsonCorrelationSimilarity (model);
   5      UserNeighborhood neighborhood = new NearestNUserNeighborhood (2, similarity, model);
   6      Recommender recommender = new GenericUserBasedRecommender (model, neighborhood, similarity);
   7      List<RecommendedItem> recommendations = recommender.recommend(1, 1);
   8      for (RecommendedItem recommendation : recommendations) {
   9        System.out.println(recommendation);
  10      }
  11    }
  12  }

Ctrl+Shift+O などでクラスパスを解決できればMahoutのライブラリが参照できているので環境としてはとりあえずOKです。
上記Javaクラス内で使用している intro.csv の内容は下記のとおりです。

   1  1,101,5.0
   2  1,102,3.0
   3  1,103,2.5
   4  
   5  2,101,2.0
   6  2,102,2.5
   7  2,103,5.0
   8  2,104,2.0
   9  
  10  3,101,2.5
  11  3,104,4.0
  12  3,105,4.5
  13  3,107,5.0
  14  
  15  4,101,5.0
  16  4,103,3.0
  17  4,104,4.5
  18  4,106,4.0
  19  
  20  5,101,4.0
  21  5,102,3.0
  22  5,103,2.0
  23  5,104,4.0
  24  5,105,3.5
  25  5,106,4.0

Javaクラスと同じパスに保存してEclipse上から実行すると下記のような結果が得られます。

   1  RecommendedItem[item:104, value:4.257081]

※初稿掲載時は実行時に「intro.csvが見つからないと言われてしまう」と書いていましたが、intro.csvをフルパスで /tmp/intro.csv と指定することで解決しました。

posted by

akanuma on Sun 30 Oct 2011 at 10:06

29th Sat

App Engine 倹約のすゝめ(BootCamp 2011 Japan)

GTUGのBootCamp 2011 Japan でGoogleAppEngineのセッションに参加してきました。

ハッシュタグは #bc2011jp #gae1

　最近HadoopやAWS方面に力を入れ始めているところなので、Googleのサービスの中でもGAEには興味があって、色々勉強したいと思ってます。かなり前にチュートリアルやった程度なのですっかり忘れてますし。。

　最近のGAEの話題としてはやっぱり新料金体系のことですね。場合によっては今までの20～30倍になるという話も聞きましたし。

　セッションでは節約の話の前に前半でまずGAEの概要やGAEがリクエストを処理する仕組みを説明していただいたので、節約の話もわかりやすかったです。

料金体系の変更としては簡単に言ってしまうと、

CPU Hours から Instance Hoursへ
APIも使用回数で課金（今まではCPU Hoursに含まれていた）

ということです。詳細はここでは説明しませんが。

　節約するには色々大変なことをしないといけないのかなぁと思っていましたが、どうやら設定を変更するだけでもかなり節約できるようですね。デフォルトの設定だとガンガンスケールアウトしていく設定らしいので、そこはしっかりチェックしておく必要がありますね。

　新料金については随分評判が悪いようですが、今までがほぼ無料だっただけに余計に高くなったように感じる部分もあるんではないかと思います。まだちゃんと使ってませんが、クラウド環境としてはかなりよい環境なのではないかと思うので、新料金の値段だけに気を取られるのではなく、節約するところは賢く節約して、有効活用していくのがいいかなぁと思います。個人で手軽に利用できるクラウド環境としてはすごく良いサービスだと思いますので。

posted by

akanuma on Sat 29 Oct 2011 at 22:36

BACK
NEXT