something new and exciting

query: tag:hadoop

29th Tue

Hadoopソースコードリーディング第7回に行ってきました

　Hadoop World NYC 2011の参加レポートがあるということをTwitterで発見して、Hadoopソースコードリーディング第7回に行ってきました。

アジェンダは下記の3つ

Hadoop World NYC 2011 参加レポート Part.1
Hadoop Troubleshooting 101 セッションレポート
Hadoop World NYC 2011 参加レポート Part.2

それぞれで気になったところをメモ。

Hadoop World NYC 2011 参加レポート Part.1

　Hadoop World NYC 2011の概要紹介と基調講演の内容の紹介といった感じ。会場の様子の紹介を聞く限りは盛況だったようですね。

　参加者についてのトピックとしては、

利用者の平均Hadoopクラスタは120ノード
12.8％は1PB以上のデータ量

だとか。

　基調講演の内容としては事例紹介が多かったようで、その中でおもしろそうだと思ったのはWibiDataとThe Walt Disney Companyの話。

　WibiDataはHBaseを使ったアプリの実装例で、Androidの通知バーにパーソナライズしたレコメンドを表示するサービスで、Wikipediaなどがすでに顧客になっているそう。ちょっとググってみましたがまだあんまり情報がなさそうなところをみると、始まったばかりなんですかね。

　The Walt Disney Companyではテーマパークの交通流解析などにHadoopを使っているのだとか。ディズニーランドとかは徹底的に裏側を隠してイメージさせないようになってるので、こういうところで裏側がちょっとのぞける気分になるのはおもしろい。データ的にも膨大なデータをもってそうなので分析するのもおもしろそうです。

　全体的なトピックとしては、HBaseの利用が増加しているそうです。一時期HBaseを業務で利用することを検討していた自分としては興味深いですね。AWSがHBaseのサービスとかやってくれないでしょうか。でもEC2は結構高くつきそうなので、EC2上で動くとなると気軽に使うわけにはいかないかな。

　あとはHadoop自体だけでなく、そのエコシステムが占める割合はどんどん増えていそうです。確かにHadoop本体だけではできることの幅は狭いので、エコシステムをいかにうまく使うか次第でHadoopはいいものにも悪いものにもなりそうだと思いました。

　そしてMapReduce技術者やHadoop関連の技術者が足りていないということは色々なところでいわれているようです。今Hadoop周りの技術を身につければしばらく仕事に困らないですかね？もう遅い？

Hadoop Troubleshooting 101 セッションレポート

　「Hadoopクラスタを壊す7つの設定ミス」ということで、代表的な7つのエラーについて現象や解決策の紹介がありました。パラメータの数字はどのぐらいにするのがいいかといったような細かいところも聞けたので、実際に運用する場合にはとても役に立ちそうです。

　「コミュニティはバグを直せるが設定を直せるのは自分だけ」という言葉が印象的でした。確かにそうですね。

　あと、これは重要なので机に貼っておくこと↓

sh>>
Total RAM ＝ (Mappers + Reducers)Child Task Heap
＋ DN heap
＋ TT heap
＋ 3GB
＋ RS heap
＋ Other Services' heap
<<--

Hadoop World NYC 2011 参加レポート Part.2

　こちらはいくつかのセッションをピックアップして紹介。

　「RとHadoopの融合」は、統計解析言語であるRをHadoop上で、Hadoopの中身を意識せずに動かせるように、rhdfs、rhbase、rmrを開発したという内容。Javaで書くよりはシンプルで、Hive、Pigほどシンプルではないけど汎用的に書けるそうです。MapReduceの中身の処理を書くことが可能で、多段にMapReduceを動かすことも可能だそうです。「Hadoopの中身を意識せずに」という割にはこの辺は意識する必要があるよなぁと思ったりもしますが。。。すでにR言語を使ってる人には良いかもしれませんね。

　「Hadoopを使った衛星画像解析」は、タスクの中でネイティブコード（C言語）を呼び出す仕組みを構築したという話でした。これによって既存の画像解析ライブラリをJavaで再実装することなく使用可能になったということです。個人的にはネイティブコードを呼び出すとかは敬遠しがちですが、今後Hadoopを様々なフレームワークと連携させたり、既存のライブラリを使うケースが増えてくるとこういった使い方も増えてくるんでしょうか。

　あとはHadoopを仮想環境で動かすというセッションの紹介もありました。個人的にはAWSとかがもっとHadoop関連のサービスを充実させてくると、運用の手間とかを考えるともっとAWSへ流れていくんじゃないかなぁと思ってたりします。

　また、Hadoopのトレンドとして、Hadoopはインフラとなりつつあり、MapReduceで計算して終わり、というのはもう古くて、目的としてではなく手段として、大量データを分析して役立てるためにHadoopを使いましょう、ということでした。最近のHadoop関連の話題を見ているとHadoop単体で扱われることは少なくて、エコシステムを組み合わせてどう問題を解決していくか、という内容になってきてるように思えるのもそうしたことの表れなのかな、と思いました。

posted by

akanuma on Tue 29 Nov 2011 at 08:12 with 0 comments

5th Sat

Mahout in Action Chapter 1 Summary

　会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。

Mahoutとは？

インドの像使いという意味の言葉
Apacheプロジェクトのオープンソース機械学習ライブラリ
主要テーマは推薦エンジン（協調フィルタリング）、集団形成（clustering）、分類（classification）
スケーラブル
Javaで書かれたJavaライブラリ
Hadoopの上で動かすように作られている
Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった

MahoutとHadoopで大規模データに取り組む

機械学習技術は大規模なデータを基に使われる
パワフルなコンピュータでさえ1台で処理するのは難しい
Mahoutのような実装がなければ困難
スケーラブルな分散環境はHadoopにより実現

Mahoutセットアップ

Java6以上が必要
IDEの使用をオススメ（Eclipse, NetBeans, IntelliJ IDEAなど）
Mavenをインストールする
Mahoutはまだ開発中で、執筆時のバージョンは0.5
ダウンロードサイトからダウンロード可能
もしくはSubversionから最新のコードを取得可能
https://cwiki.apache.org/confluence/display/MAHOUT/Version+Control
取得したソースからIDEでMavenプロジェクトを作成（方法はIDEによって異なる）
Hadoopを擬似分散モードでインストールする（本書ではVersion 0.20.2を使用）
ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら

posted by

akanuma on Sat 5 Nov 2011 at 11:31 with 0 comments

27th Thu

Mahoutインストール

CDH3u2ではMahoutもサポートされるようになったのでインストールしてみます。

Mahout Installation - Cloudera Support

CDH3u1からCDH3u2へのアップデートの作業メモはこちら

sh>>
$ sudo apt-get install mahout
[sudo] password for h-akanuma:
パッケージリストを読み込んでいます... 完了
依存関係ツリーを作成しています
状態情報を読み取っています... 完了
以下のパッケージが自動でインストールされましたが、もう必要とされていません:
libfolks-telepathy22 libpanel-applet-4-0 python-opengl libio-string-perl libunity4 diffstat gir1.2-vte-0.0
libindicator3 intltool-debian libedataserverui1.2-11 libclass-accessor-perl patchutils g++-4.5
linux-headers-2.6.38-8 python-gtkglext1 libcamel1.2-19 libapt-pkg-perl libdvbpsi6
libboost-serialization1.42.0 libgcj11 libfolks22 libnet-domain-tld-perl libparse-debianchangelog-perl gettext
libebook1.2-10 libgdata11 libgwibber1 libsub-name-perl libecal1.2-8 libipc-run-perl libstdc++6-4.5-dev
libasm2-java python-rsvg linux-headers-2.6.38-8-generic gir1.2-appindicator-0.1 libedata-cal1.2-10
libedata-book1.2-8 gcj-4.5-jre-lib libio-pty-perl python-wsgi-intercept libunistring0 libunity-misc0
libemail-valid-perl libquicktime1 lintian libgtkglext1 freeglut3 libmatroska3 gir1.2-panelapplet-4.0
gcj-4.5-base
これらを削除するには 'apt-get autoremove' を利用してください。
以下のパッケージが新たにインストールされます:
mahout
アップグレード: 0 個、新規インストール: 1 個、削除: 0 個、保留: 111 個。
42.1 MB のアーカイブを取得する必要があります。
この操作後に追加で 89.7 MB のディスク容量が消費されます。
取得:1 http://archive.cloudera.com/debian/ maverick-cdh3/contrib mahout all 0.5+9.1-1maverick-cdh3 [42.1 MB]
42.1 MB を 3分 2秒で取得しました (230 kB/s)
未選択パッケージ mahout を選択しています。
(データベースを読み込んでいます ... 現在 261373 個のファイルとディレクトリがインストールされています。)
(.../mahout_0.5+9.1-1maverick-cdh3_all.deb から) mahout を展開しています...
mahout (0.5+9.1-1~maverick-cdh3) を設定しています ...
update-alternatives: /etc/mahout/conf (mahout-conf) を提供するために自動モードで /etc/mahout/conf.dist を使います。
<<--

apt-getコマンド一発。簡単ですね。

posted by

akanuma on Thu 27 Oct 2011 at 01:02 with 0 comments

27th Thu

CDH3u1→CDH3u2にアップデート

2011/10/21にCDH3u2がリリースされたのでアップデートしてみました。
CDH3 Installation Guide - Cloudera Support
Upgrading to CDH3 - Cloudera Support

   1  $ hadoop version
   2  Hadoop 0.20.2-cdh3u1
   3  Subversion file:///tmp/nightly_2011-07-18_07-57-52_3/hadoop-0.20-0.20.2+923.97-1~maverick -r bdafb1dbffd0d5f2fbc6ee022e1c8df6500fd638
   4  Compiled by root on Mon Jul 18 09:40:07 PDT 2011
   5  From source with checksum 3127e3d410455d2bacbff7673bf3284c

現在はCDH3u1がインストールされてます。

   1  $ for x in /etc/init.d/hadoop-* ; do sudo $x stop ; done
   2  [sudo] password for h-akanuma: 
   3  Stopping Hadoop datanode daemon: no datanode to stop
   4  hadoop-0.20-datanode.
   5  Stopping Hadoop jobtracker daemon: no jobtracker to stop
   6  hadoop-0.20-jobtracker.
   7  Stopping Hadoop namenode daemon: no namenode to stop
   8  hadoop-0.20-namenode.
   9  Stopping Hadoop secondarynamenode daemon: no secondarynamenode to stop
  10  hadoop-0.20-secondarynamenode.
  11  Stopping Hadoop tasktracker daemon: no tasktracker to stop
  12  hadoop-0.20-tasktracker.
  13  Stopping Hadoop HBase master daemon: no master to stop because kill -0 of pid 2271 failed with status 1
  14  hbase-master.
  15  Stopping Hadoop HBase regionserver daemon: stopping regionserver........
  16  hbase-regionserver.
  17  JMX enabled by default
  18  Using config: /etc/zookeeper/zoo.cfg
  19  Stopping zookeeper ... STOPPED
  20  $ 
  21  $ jps
  22  9534 Jps
  23  $ 
  24  $ ps aux | grep hadoop
  25  1000      9544  0.0  0.0   5164   788 pts/0    S+   21:56   0:00 grep --color=auto hadoop

Hadoop関連プロセスを停止。

   1  $ sudo dpkg -i ダウンロード/cdh3-repository_1.0_all.deb 
   2  未選択パッケージ cdh3-repository を選択しています。
   3  (データベースを読み込んでいます ... 現在 262400 個のファイルとディレクトリがインストールされています。)
   4  (.../cdh3-repository_1.0_all.deb から) cdh3-repository を展開しています...
   5  cdh3-repository (1.0) を設定しています ...
   6  gpg: 鍵輪「/etc/apt/secring.gpg」ができました
   7  gpg: 鍵輪「/etc/apt/trusted.gpg.d/cloudera-cdh3.gpg」ができました
   8  gpg: 鍵02A818DD: 公開鍵“Cloudera Apt Repository”を読み込みました
   9  gpg: 処理数の合計: 1
  10  gpg:               読込み: 1

ダウンロードしたパッケージをインストール

   1  $ sudo apt-get update
   2  ・・・

APTパッケージインデックスを更新

   1  $ apt-cache search hadoop
   2  ubuntu-orchestra-modules-hadoop - Modules mainly used by orchestra-management-server
   3  flume - reliable, scalable, and manageable distributed data collection application
   4  hadoop-0.20 - A software platform for processing vast amounts of data
   5  hadoop-0.20-conf-pseudo - Pseudo-distributed Hadoop configuration
   6  hadoop-0.20-datanode - Data Node for Hadoop
   7  hadoop-0.20-doc - Documentation for Hadoop
   8  hadoop-0.20-fuse - HDFS exposed over a Filesystem in Userspace
   9  hadoop-0.20-jobtracker - Job Tracker for Hadoop
  10  hadoop-0.20-namenode - Name Node for Hadoop
  11  hadoop-0.20-native - Native libraries for Hadoop (e.g., compression)
  12  hadoop-0.20-pipes - Interface to author Hadoop MapReduce jobs in C++
  13  hadoop-0.20-sbin - Server-side binaries necessary for secured Hadoop clusters
  14  hadoop-0.20-secondarynamenode - Secondary Name Node for Hadoop
  15  hadoop-0.20-source - Source code for Hadoop
  16  hadoop-0.20-tasktracker - Task Tracker for Hadoop
  17  hadoop-hbase - HBase is the Hadoop database
  18  hadoop-hbase-doc - Documentation for HBase
  19  hadoop-hbase-master - HMaster is the "master server" for a HBase
  20  hadoop-hbase-regionserver - HRegionServer makes a set of HRegions available to clients
  21  hadoop-hbase-thrift - Provides an HBase Thrift service
  22  hadoop-hive - A data warehouse infrastructure built on top of Hadoop
  23  hadoop-hive-metastore - Shared metadata repository for Hive
  24  hadoop-hive-server - Provides a Hive Thrift service
  25  hadoop-pig - A platform for analyzing large data sets using Hadoop
  26  hadoop-zookeeper - A high-performance coordination service for distributed applications.
  27  hadoop-zookeeper-server - This runs the zookeeper server on startup.
  28  hue-common - A browser-based desktop interface for Hadoop
  29  hue-filebrowser - A UI for the Hadoop Distributed File System (HDFS)
  30  hue-jobbrowser - A UI for viewing Hadoop map-reduce jobs
  31  hue-jobsub - A UI for designing and submitting map-reduce jobs to Hadoop
  32  hue-plugins - Plug-ins for Hadoop to enable integration with Hue
  33  hue-shell - A shell for console based Hadoop applications
  34  libhdfs0 - JNI Bindings to access Hadoop HDFS from C
  35  libhdfs0-dev - Development support for libhdfs0
  36  mahout - A set of Java libraries for scalable machine learning.
  37  oozie - A workflow and coordinator sytem for Hadoop jobs.
  38  sqoop - Tool for easy imports and exports of data sets between databases and HDFS
  39  cdh3-repository - Cloudera's Distribution including Apache Hadoop

Hadoopパッケージの検索

   1  $ sudo apt-get install hadoop-0.20
   2  ・・・
   3  $ hadoop version
   4  Hadoop 0.20.2-cdh3u2
   5  Subversion file:///tmp/nightly_2011-10-13_20-02-02_3/hadoop-0.20-0.20.2+923.142-1~maverick -r 95a824e4005b2a94fe1c11f1ef9db4c672ba43cb
   6  Compiled by root on Thu Oct 13 21:52:18 PDT 2011
   7  From source with checksum 644e5db6c59d45bca96cec7f220dda51

Hadoopコアパッケージをインストール。
CDH3u2がインストールされました。
Hadoop各デーモンも同時にアップデートされています。

   1  $ sudo apt-get install hadoop-hbase-master
   2  ・・・
   3  $ sudo apt-get install hadoop-zookeeper-server
   4  ・・・
   5  $ hbase shell
   6  11/10/26 22:36:54 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively
   7  HBase Shell; enter 'help<RETURN>' for list of supported commands.
   8  Type "exit<RETURN>" to leave the HBase Shell
   9  Version 0.90.4-cdh3u2, r, Thu Oct 13 20:32:26 PDT 2011
  10  
  11  hbase(main):001:0>

HBase, Zookeeper もアップデート。CDH3u2にアップデートされました。

   1  $ sudo /etc/init.d/hadoop-0.20-namenode start
   2  Starting Hadoop namenode daemon: starting namenode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-namenode-h-akanuma-CF-W4.out
   3  hadoop-0.20-namenode.
   4  $ 
   5  $ sudo /etc/init.d/hadoop-0.20-datanode start
   6  Starting Hadoop datanode daemon: starting datanode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-datanode-h-akanuma-CF-W4.out
   7  hadoop-0.20-datanode.
   8  $ 
   9  $ sudo /etc/init.d/hadoop-0.20-secondarynamenode start
  10  Starting Hadoop secondarynamenode daemon: starting secondarynamenode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-secondarynamenode-h-akanuma-CF-W4.out
  11  hadoop-0.20-secondarynamenode.
  12  $ 
  13  $ sudo /etc/init.d/hadoop-0.20-jobtracker start
  14  Starting Hadoop jobtracker daemon: starting jobtracker, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-jobtracker-h-akanuma-CF-W4.out
  15  hadoop-0.20-jobtracker.
  16  $ 
  17  $ sudo /etc/init.d/hadoop-0.20-tasktracker start
  18  Starting Hadoop tasktracker daemon: starting tasktracker, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-tasktracker-h-akanuma-CF-W4.out
  19  hadoop-0.20-tasktracker.
  20  $ 
  21  $ sudo jps
  22  12799 SecondaryNameNode
  23  12672 DataNode
  24  12552 NameNode
  25  12895 JobTracker
  26  13029 Jps
  27  11574 QuorumPeerMain
  28  12996 TaskTracker

Hadoop各デーモンを起動

   1  $ hadoop jar /usr/lib/hadoop-0.20/hadoop-0.20.2-cdh3u2-*examples.jar pi 10 10000
   2  Number of Maps  = 10
   3  Samples per Map = 10000
   4  Wrote input for Map #0
   5  Wrote input for Map #1
   6  Wrote input for Map #2
   7  Wrote input for Map #3
   8  Wrote input for Map #4
   9  Wrote input for Map #5
  10  Wrote input for Map #6
  11  Wrote input for Map #7
  12  Wrote input for Map #8
  13  Wrote input for Map #9
  14  Starting Job
  15  11/10/26 23:09:21 INFO mapred.FileInputFormat: Total input paths to process : 10
  16  11/10/26 23:09:22 INFO mapred.JobClient: Running job: job_201110262307_0001
  17  11/10/26 23:09:23 INFO mapred.JobClient:  map 0% reduce 0%
  18  11/10/26 23:09:42 INFO mapred.JobClient:  map 20% reduce 0%
  19  11/10/26 23:09:57 INFO mapred.JobClient:  map 40% reduce 0%
  20  11/10/26 23:10:12 INFO mapred.JobClient:  map 60% reduce 0%
  21  11/10/26 23:10:14 INFO mapred.JobClient:  map 60% reduce 13%
  22  11/10/26 23:10:20 INFO mapred.JobClient:  map 80% reduce 20%
  23  11/10/26 23:10:26 INFO mapred.JobClient:  map 100% reduce 20%
  24  11/10/26 23:10:29 INFO mapred.JobClient:  map 100% reduce 33%
  25  11/10/26 23:10:32 INFO mapred.JobClient:  map 100% reduce 100%
  26  11/10/26 23:10:34 INFO mapred.JobClient: Job complete: job_201110262307_0001
  27  11/10/26 23:10:35 INFO mapred.JobClient: Counters: 23
  28  11/10/26 23:10:35 INFO mapred.JobClient:   Job Counters 
  29  11/10/26 23:10:35 INFO mapred.JobClient:     Launched reduce tasks=1
  30  11/10/26 23:10:35 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=113667
  31  11/10/26 23:10:35 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
  32  11/10/26 23:10:35 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
  33  11/10/26 23:10:35 INFO mapred.JobClient:     Launched map tasks=10
  34  11/10/26 23:10:35 INFO mapred.JobClient:     Data-local map tasks=10
  35  11/10/26 23:10:35 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=49553
  36  11/10/26 23:10:35 INFO mapred.JobClient:   FileSystemCounters
  37  11/10/26 23:10:35 INFO mapred.JobClient:     FILE_BYTES_READ=226
  38  11/10/26 23:10:35 INFO mapred.JobClient:     HDFS_BYTES_READ=2420
  39  11/10/26 23:10:35 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=609632
  40  11/10/26 23:10:35 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=215
  41  11/10/26 23:10:35 INFO mapred.JobClient:   Map-Reduce Framework
  42  11/10/26 23:10:35 INFO mapred.JobClient:     Reduce input groups=2
  43  11/10/26 23:10:35 INFO mapred.JobClient:     Combine output records=0
  44  11/10/26 23:10:35 INFO mapred.JobClient:     Map input records=10
  45  11/10/26 23:10:35 INFO mapred.JobClient:     Reduce shuffle bytes=280
  46  11/10/26 23:10:35 INFO mapred.JobClient:     Reduce output records=0
  47  11/10/26 23:10:35 INFO mapred.JobClient:     Spilled Records=40
  48  11/10/26 23:10:35 INFO mapred.JobClient:     Map output bytes=180
  49  11/10/26 23:10:35 INFO mapred.JobClient:     Map input bytes=240
  50  11/10/26 23:10:35 INFO mapred.JobClient:     Combine input records=0
  51  11/10/26 23:10:35 INFO mapred.JobClient:     Map output records=20
  52  11/10/26 23:10:35 INFO mapred.JobClient:     SPLIT_RAW_BYTES=1240
  53  11/10/26 23:10:35 INFO mapred.JobClient:     Reduce input records=20
  54  Job Finished in 74.586 seconds
  55  Estimated value of Pi is 3.14120000000000000000

Hadoopジョブをテスト実行。
無事成功しました。

   1  $ sudo /etc/init.d/hadoop-hbase-master start
   2  Starting Hadoop HBase master daemon: starting master, logging to /usr/lib/hbase/logs/hbase-hbase-master-h-akanuma-CF-W4.out
   3  hbase-master.
   4  $ 
   5  $ sudo /etc/init.d/hadoop-hbase-regionserver start
   6  Starting Hadoop HBase regionserver daemon: starting regionserver, logging to /usr/lib/hbase/logs/hbase-hbase-regionserver-h-akanuma-CF-W4.out
   7  hbase-regionserver.
   8  $ 
   9  $ sudo jps
  10  14202 Jps
  11  12799 SecondaryNameNode
  12  12672 DataNode
  13  14134 HRegionServer
  14  13996 HMaster
  15  12552 NameNode
  16  12895 JobTracker
  17  11574 QuorumPeerMain
  18  12996 TaskTracker

HBaseのデーモンも起動。
擬似分散モードなのでZookeeperは起動させません。

   1  $ hbase shell
   2  HBase Shell; enter 'help<RETURN>' for list of supported commands.
   3  Type "exit<RETURN>" to leave the HBase Shell
   4  Version 0.90.4-cdh3u2, r, Thu Oct 13 20:32:26 PDT 2011
   5  
   6  hbase(main):001:0> 
   7  hbase(main):002:0* list
   8  TABLE                                                                                                            
   9  courses                                                                                                          
  10  scores                                                                                                           
  11  2 row(s) in 2.0210 seconds
  12  
  13  hbase(main):003:0>

hbase shell の listコマンドで動作確認。
こちらも成功です。

posted by

akanuma on Thu 27 Oct 2011 at 01:02 with 0 comments

8th Sun

thriftでHadoopのRuby用インターフェイスを生成する方法のメモ

CDH3に同梱されているgen-rbファイル群は若干古いらしく、上手く動かないのでif/hadoopfs.thrift を使って手動で生成します。

pre>>
% thrift --gen rb /path/to/if/hadoopfs.thrift
<<--

これで gen-rb/ ディレクトリの中にRuby用インターフェイスが生成されます。

posted by

genki on Sun 8 May 2011 at 10:45 with 1 comment

7th Sat

hadoop-0.21.0インストールメモ(Mac OS X)

まずはhadoop-0.21.0をダウンロード

http://www.meisei-u.ac.jp/mirror/apache/dist//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz
/usr/local/hadoop あたりに展開。
sh>>
export HADOOP_HOME=/usr/local/hadoop
<<--

hadoop-envの設定

$HADOOP_HOME/conf/hadoop-env.sh を開いて JAVA_HOMEを
/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Homeあたりに設定。

$HADOOP_HOME/binにPATHを通して

pre>>
% start-dfs.sh
% start-mapred.sh
<<--

でHadoopを起動。0.21.0ではstart-all.shはdeprecatedらしい。

停止は

pre>>
% stop-mapred.sh
% stop-dfs.sh
<<--

注意点として、ssh で localhost にログインできるようにしておく。

"システム環境設定" -> "共有" から、"リモートログイン"にチェックでok

初期化・設定

$HADOOP_HOME/conf/hdfs-site.xmlに以下のような感じで記入

xml>>

fs.default.name
hdfs://127.0.0.1

dfs.replication
2

<<--

hdfsを初期化。

pre>>
hdfs namenode -format
<<--

mapredの設定

$HADOOP_HOME/conf/mapred-site.xmlの<configuration>の中に以下を記入。

xml>>

mapred.job.tracker
localhost:54311

<<--

あとは起動して http://localhost:50070 あたりを見ると状態を確認できます。

posted by

genki on Sat 7 May 2011 at 10:17 with 1 comment