10th Sun
統計的に正しいランキングを行う方法
ポジティブ/ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。
[How Not To Sort By Average Rating](http://www.evanmiller.org/how-not-to-sort-by-average-rating.html)
この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、
投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式
[math]
\frac{\hat{p}+\frac{z^2_{\alpha/2}}{2N}\pm{}z_{\alpha/2}\sqrt{
\frac{\hat{p}(1-\hat{p})+\frac{z^2_{\alpha/2}}{4N}}{N}
}}{1+\frac{z^2_{\alpha/2}}{N}}
[/math]
これはScoreの[math]1-\alpha/2[/math]信頼区間を表しています。
この信頼区間の下界をランキングのスコアにすれば良い事になります。
ここで、[math]\hat{p}[/math]は、
です。全体に占めるポジティブ投票数の割合ですね。
[math]z_{\alpha/2}[/math]は標準正規分布上の
[math]1-\alpha/2[/math]信頼区間の有意確率です。
さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか。
単純に、1回の投票を4度のpositive/negative投票行為だと考えると
(例えば星1つは[-,-,-,-], 星3つは[+,+,-,-])、以下のような
[math]\hat{p}'[/math]を使えば良さそうです。
[math]
\hat{p}'=\frac{\sum_{i\in{[1,5]}}(i-1)N_{i}}{4N}
[/math]
従って、最終的にこんな感じになります。
[math]
\frac{\hat{p}'+\frac{z^2_{\alpha/2}}{2N}\pm{}z_{\alpha/2}\sqrt{
\frac{\hat{p}'(1-\hat{p}')+\frac{z^2_{\alpha/2}}{4N}}{N}
}}{1+\frac{z^2_{\alpha/2}}{N}}
[/math]
Rubyコードで表すとこんな感じですね。
ruby>>
require 'statistics2'
def score(ni, alpha)
n = ni.inject(&:+)
return 0 if n == 0
m = ni.size
z = Statistics2.pnormaldist(1-alpha/2)
phat = m.times.zip(ni).inject(0){|s,(i,j)| s + i*j}/((m - 1.0)*n)
(phat + z*z/(2*n) - z*Math.sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)
end
<<--
です。全体に占めるポジティブ投票数の割合ですね。
[math]z_{\alpha/2}[/math]は標準正規分布上の
[math]1-\alpha/2[/math]信頼区間の有意確率です。
さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか。
単純に、1回の投票を4度のpositive/negative投票行為だと考えると
(例えば星1つは[-,-,-,-], 星3つは[+,+,-,-])、以下のような
[math]\hat{p}'[/math]を使えば良さそうです。
[math]
\hat{p}'=\frac{\sum_{i\in{[1,5]}}(i-1)N_{i}}{4N}
[/math]
従って、最終的にこんな感じになります。
[math]
\frac{\hat{p}'+\frac{z^2_{\alpha/2}}{2N}\pm{}z_{\alpha/2}\sqrt{
\frac{\hat{p}'(1-\hat{p}')+\frac{z^2_{\alpha/2}}{4N}}{N}
}}{1+\frac{z^2_{\alpha/2}}{N}}
[/math]
Rubyコードで表すとこんな感じですね。
ruby>>
require 'statistics2'
def score(ni, alpha)
n = ni.inject(&:+)
return 0 if n == 0
m = ni.size
z = Statistics2.pnormaldist(1-alpha/2)
phat = m.times.zip(ni).inject(0){|s,(i,j)| s + i*j}/((m - 1.0)*n)
(phat + z*z/(2*n) - z*Math.sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)
end
<<--posted by
genki on Sun 10 May 2009 at 09:48 with 0 comments