10 May 2009 - Hello, world!

May 2009

April June

10th Sun

injectを使って合計を求める方法

rubyで普通にinjectを使って合計を求めようとした場合、こんな感じになります。

   1  (1..10).inject(0){|sum, i| sum + i} #=> 55

しかし、以下のように書く事も出来ます。

   1  (1..10).inject(&:+) #=> 55

posted by

genki on Sun 10 May 2009 at 04:55

統計的に正しいランキングを行う方法

ポジティブ／ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。

How Not To Sort By Average Rating

この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式

$\frac{\hat{p}+\frac{z^2_{\alpha/2}}{2N}\pm{}z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})+\frac{z^2_{\alpha/2}}{4N}}{N} }}{1+\frac{z^2_{\alpha/2}}{N}}$

これはScoreの ${}_{1-\alpha/2}$ 信頼区間を表しています。この信頼区間の下界をランキングのスコアにすれば良い事になります。ここで、 ${}_{\hat{p}}$ は、

です。全体に占めるポジティブ投票数の割合ですね。

${}_{z_{\alpha/2}}$ は標準正規分布上の ${}_{1-\alpha/2}$ 信頼区間の有意確率です。

さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか。単純に、１回の投票を4度のpositive/negative投票行為だと考えると (例えば星１つは[-,-,-,-], 星３つは[+,+,-,-])、以下のような ${}_{\hat{p}'}$ を使えば良さそうです。

$\hat{p}'=\frac{\sum_{i\in{[1,5]}}(i-1)N_{i}}{4N}$

従って、最終的にこんな感じになります。

$\frac{\hat{p}'+\frac{z^2_{\alpha/2}}{2N}\pm{}z_{\alpha/2}\sqrt{ \frac{\hat{p}'(1-\hat{p}')+\frac{z^2_{\alpha/2}}{4N}}{N} }}{1+\frac{z^2_{\alpha/2}}{N}}$

Rubyコードで表すとこんな感じですね。

   1  require 'statistics2'
   2  
   3  def score(ni, alpha)
   4    n = ni.inject(&:+)
   5    return 0 if n == 0
   6    m = ni.size
   7    z = Statistics2.pnormaldist(1-alpha/2)
   8    phat = m.times.zip(ni).inject(0){|s,(i,j)| s + i*j}/((m - 1.0)*n)
   9    (phat + z*z/(2*n) - z*Math.sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)
  10  end

posted by

genki on Sun 10 May 2009 at 04:46