あなたの「モテ度」をベイズ推定してみよう!

こんにちは。久しぶりの投稿のはらっしーです。最近はプログラミングの闇に飲み込まれていました。明け方になっても終わらないバグとの闘いはもうこりごりです。

さて、今回のテーマは「モテ度」のベイズ推定です。統計学恋愛という対照的な二つを掛け合わせてみると、どうなるのでしょうか? 一度や二度フラれても次があるじゃないか!と慰められるけれども、さすがに10回も失敗してたら、ちょっとこりゃマズいだろ・・・・・・ってなりますよね。果たして次は上手くいくのか?いつになったら成功するんだろう?というあなたの純朴な疑問にお答えしましょう。(本当は題材として、コイントスでも、エントリーシートの枚数と内定の数でも、何でもいいのですが。)

近年、機械学習ビックデータ解析のツールとしてベイズ統計が流行っています。何それ!?という方は、Wikipedia: ベイズ推定“ビッグデータ向き”の「ベイズ統計」ってなんだ?をご覧ください。これを読んでもまだ、何だか難しそう、ピンと来ない、という方々のために、みんな大好きな恋バナにベイズ推定を応用してみます。ちなみに理系に恋愛下手でモテない男が多い理由のように、一般的には論理的思考と恋愛の相性は最悪ですね!(「ロジカル・シンキング」って言えばまだマシかな?)


残念ながらあなたはこれまで「数撃ちゃ当たる」戦法で頑張ってきたけれども、Nずっとフラれてきたとしましょう。絶望的ですね。次こそは!と思うけれど、そろそろ自信を失いつつあります。今までの経験から考えて、次はどれくらい上手く行くかな?という素朴な疑問をベイズ推定が解決します!

まず、これまでのN回でも今後も、成功確率pは一定と仮定します(進歩の無いヤツめ・・・・・・)。N回ずっとフラれてきた」という事実から、毎回の成功確率pを求めるのが今回の問題です。

ベイズの定理

eq01
ここで、Hは仮説(Hypothesis)、Dはデータで、

  • 事後確率P(H|D): データDが与えられたとき仮説Hが正しい条件付き確率
  • P(D|H): 仮説Hの下でデータDが得られる条件付き確率
  • 事前確率P(H): はデータDが無いとき仮説Hが正しい確率(仮説Hを信じる信念の度合い)。

えっ、何言ってるか分からない!?それじゃ、今回の題材に当てはめて、
eq02

  • p: 「モテ度」。毎回の成功する確率。今回知りたいパラメーター。(0 ≤ p ≤ 1)
  • N: N回フラれてきた」という事象(事実)。
  • 事後確率P(p|N): N回フラれてきた」ことから推定される「モテ度」pの確率。
  • P(N|p): 「モテ度」pの下でN回フラれ」条件付き確率
  • 事前確率P(p): はN回フラれ」る前の「モテ度」pである確率(信念の度合い)。

まず、すべてのp(0 ≤ p ≤ 1)に対してP(p)=1と仮定しましょう。P=0, 0.2, 0.5, 1などと、どのpに対しても確率は等しい事を意味します。これは一様分布といい、「モテるかモテないか、わかんな~い!」ということで、無情報事前分布ともいいます。

成功確率pに対して、失敗する(フラれる)確率は(1-p)なので、N回フラれ」る確率は、
eq03
右辺の分母の積分は、
eq04
よって、求める事後確率P(p|N)、つまりN回フラれてきた」ことから推定される「モテ度」pの確率は、
eq05
となります。これをグラフにするとこんな感じです。

graph01Nが大きくなるほど、p=1(いつも成功)に近い値をとる確率が減り、逆にp=0(いつも失敗)に近い値をとる確率が増えてしまいます。N=10とか100の場合はお察しです。


いかがでしたか?身近な題材からベイズ統計学に親しんで頂けましたか?えっ、こんなこと考えてたらますますモテなくなるって!?そりゃそうだろ。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中