最大事後確率推定（MAP推定）の基本

f:id:s0sem0y:20160923214706p:plain

はじめに
- MAP推定とは
- どちらが優れているか
尤度、事後分布、事前分布
MAP推定
- 事後分布の最大化
  - 対数を取る
  - 求めたいパラメータで微分する
追加の話題
- 推定法
- 正則化との関連
記事

はじめに

MAP推定とは

その名の通り、事後確率を最大にする推定方法。

尤度を最大にする方法を最尤推定というが、最尤推定の哲学は、「統計パラメータは正しいものが唯一存在する」というものです。つまり、データ $\bf x_n$ は唯一の正しい統計パラメータ $\bf θ$ で表現される確率分布から生起するということです。

一方、MAP推定の哲学は、統計パラメータ自体も確率変数だと考え、手元にあるデータ $\bf x_n$ からパラメータ $\bf θ$ が確率的に決まると考えます。正確にはこれはベイズ統計学の哲学ですが、ベイズ統計学の基本的なパラメータ推定方法がMAP推定ということになります。

どちらが優れているか

どちらが統計学として優れているかというのは、「優れている」という言葉の定義によります。

ベイズ統計学は大雑把に言えば、ある意味、統計学がサイエンスであることを諦めた方法であるとも言えます。つまりベイズ統計は、統計パラメータというものを用いて、データの根源に潜む唯一の解を探索することを諦め、有限の確率的に生起するデータからパラメータ自体も集めたデータに依存する確率的な変数であると考えてしまうのです。

このことは賛否両論あるところですが、工学的応用を考える上では、ベイズ統計学は手元のデータだけで妥当な決定をするための便利な道具になります。推定しようというパラメータ自身がデータに依存する確率変数であることを認めれば、データが新たに手に入った時、その新たなデータを反映することで簡単にパラメータを更新（ベイズ更新）することができます。

しかし、実はここまでは通常の統計学もそれほど否定するものではありません。

なぜなら、（パラメータを確率変数だと考えることはさておいて）データが新たに手に入り、それが推定に使えそうだというならば、そもそもさっきまでのデータが不十分だったんだと考えて、唯一の正しいパラメータをもう一度検討しようとすることはできるためです。

ベイズ統計学が確率分布を扱う際の最も特異な点は、「主観確率」の存在にあります。

手元にデータがあろうがなかろうが、きっと「データはこういうことになっているだろう」と考えられる場合には、それを確率分布に反映してしまうことができるのです。MAP推定はそのような主観を含めたパラメータの推定を行います。

言わば、データと主観から確率的にパラメータを推定するのがベイズ統計学ということになります。（ただし、今「主観」と言ったもの自体に、何らかの経験則や統計的裏付けがあってもいいので、そういう意味では客観的な別の指標を反映しやすいということにもなります。）

そして、このことが実は、機械学習における正則化に繋がることを今回は数式を追いながら見て行きましょう。

尤度、事後分布、事前分布

ベルヌーイ分布

例題としては非常に簡単なベルヌーイ分布を採用します。

ベルヌーイ分布とは、簡単に言えば不均一なコインを１回投げて表になるか裏になるかの確率を表現するものです。この場合、表が出る確率に相当する $μ$ を知ることができれば、裏が出る確率は $1-μ$ と決まります。

確率変数は $x=\{Head,Tail \}$ という事象に対応しますが、数式として表現するために $x=Head$ を $x=1$ で表現することにし、 $x=tail$ を $x=0$ で表現することにします。

（いつでも実際の事象と、それに対応する数値を結びつけて定義するようにしましょう。でないと数式が得られません。確率変数とは、変数という名前がついていますが、現実の事象を数値に変換する関数であるとも言えます。）

これで、結局、「 $1$ が出るか $0$ が出るかの確率変数 $x$ 」の確率分布を以下で表現できます。

$p(x;μ)=μ^x(1-μ)^{1-x}$

コインを投げるのは１回です。つまり、 $x$ は１回のみ、 $0$ か $1$ の値を取ります。コインを投げてみて、 $x=1$ となる確率は

$p(x=1;μ)=μ^1(1-μ)^{0}=μ・1=μ$

となります。逆に $x=0$ の場合の確率は

$p(x=0;μ)=μ^0(1-μ)^{(1)}=1・(1-μ)=1-μ$

となり、確かに考えていた不均一なコイン投げに相当していることが分かります。

パラメータの推定とは、コインを実際に複数回投げてみて、実際に起こる事象を観測してみることで $μ$ がいったいどれくらいの値なのかを計算することです。

当然、これはコインを投げる問題ではなく、選手Aと選手Bがボクシングの試合をして、どちらが勝つかという問題にも当てはめられます。二者択一の確率を表すのがベルヌーイ分布です。

パラメータの推定方法の違い

最尤推定と尤度

ベルヌーイ分布は以下で表されました。（ちなみに先ほどのように $x=1$ が表を、 $x=0$ が裏を表すように確率変数を定義しておきます。）

$p(x;μ)=μ^x(1-μ)^{1-x}$

この場合におけるパラメータ $μ$ を知るために、実際にコインを $N$ 回投げて以下の結果が得られたとしましょう。

$D=\{1,0,0,1,1,0,1,0,1,1,......,0 \}$

$D$ は確率変数の実現値 $x_1,x_2,...,x_N$ を並べたものです。この $D$ というものが得られる確率を考えます。ここでコインを投げるという事象は、毎回独立であるので、前の結果が後の結果に影響を与えることはありません。１回投げるたびに、 $p(x;μ)=μ^x(1-μ)^{(1-x)}$ によって値が決定します。

例えば最初の3回 $\{1,0,0 \}$ が起こる確率というのは $x=1$ や $x=0$ を確率分布に代入してみて

$p(x=1;μ)p(x=0;μ)p(x=0;μ)=μ・(1-μ)・(1-μ)$

となります。 $N回$ 投げたのならば、その時の $x$ の値を代入してひたすら積を取っていけばいいわけです。全部を書き下すのは面倒なので、文字を使います。今、 $x$ の $n$ 回目の値が $x=x_i$ だったとしましょう。すると結局

$p(D;μ)=\prod_{i=1}^{N} μ^{x_i}(1-μ)^{1-x_i}$ ]

が、 $D$ が実現する確率です。

ここで、もしも $μ=0.01$ のような場合（これは $x=1$ となる確率を表している）、 $D=\{1,0,0,1,1,0,1,0,1,1,......,0 \}$ のようなデータは得られるでしょうか。あまりにも $x=1$ が発生し過ぎだと感じるでしょう。つまり $μ=0.01$ はなんかおかしいということです。

このデータが実際に実現したものである以上、パラメータ $μ$ は $D$ が実現するような値になっていないといけないわけです。

そこで、 $D$ が実際に実現し、その確率が上の式で表されたならば、その確率が一番高くなるように $μ$ を決めよう、というのが最尤推定です。

$p(D;μ)$

のように、「確率分布からデータが実際に生起した際の確率」のことを「尤度」と呼びます。

そしてこの尤度を最大にするのが最尤推定ということになります。

MAP推定と事後分布

MAP推定では尤度を最大化するということをしません。

事後確率を最大化します。

$p(D;μ)$

という尤度に関して、 $μ$ も確率変数だと思えば以下のように書くことができます。

$p(D|μ)$

つまり、尤度というのは確率変数 $μ$ がとある値のときの、データが生起する確率（ $μ$ の条件付き確率)ということです。通常 $μ$ は唯一の値を持ち、確率変数などではないというのが統計学の考え方ですから、このように条件付き確率で表現することはしません。

$μ$ を確率変数と考えからには、逆に

$p(μ|D)$

という確率を考えることができます。これは、確率的に生起したデータ $D$ が得られたときに、 $μ$ が取る値の確率を表現しています。これを事後分布と呼びます。

たしかに、仮にデータの採取が不適切である場合と、適切である場合を考えれば、集まるデータ $D$ は違ってくるわけで、確率的に集まる $D$ によって推定される $μ$ も確率的にブレるという考え方は、実用上あり得そうな仮定です。

そして事後分布確率は、ベイズの定理により以下のように変形することができます。

（ベイズの定理は、条件付き確率の、条件と結果を入れ替える作用を持っています）

$p(μ|D)=\frac{p(D|μ)p(μ)}{p(D)}$

この数式を見てみると、分子の第一因子 $p(D|μ)$ が尤度となっています。第二因子 $p(μ)$ が事前確率（事前分布とも言います）と呼ばれるものです。これがいったい何者なのかは通常誰にも分かりません。主観確率というものはこの部分に介入してきます。

そして分母の $p(D)$ に関しては、単にデータ $p(D)$ が生起する確率でありますが、これはMAP推定では計算する必要はありません。

なぜなら、今推定したいのは $μ$ であって、分母は $μ$ を含まないため単なる定数倍にしかならないからです。従ってMAP推定では

$p(μ|D)∝p(D|μ)p(μ)$

と表してしまい、この確率を最大にするような $μ$ を獲得します。

事後分布を見てみる

事前分布

以下の式

$p(μ|D)∝p(D|μ)p(μ)$

において、右辺の第一因子が尤度、第二因子が事前確率であると言いました。

尤度はデータが手に入っていれば、最尤法を考える時と同じように式にすることができます。ベルヌーイ分布の場合は

$p(D|μ)=\prod_{i=1}^{N} μ^{x_i}(1-μ)^{1-x_i}$

でしたね。

しかし事前確率とは一体何でしょうか。これはどうすればいいのでしょうか。

端的に言えば、MAP推定とは、尤度に何らかの確率を掛けたものを最大化する推定ということになります。その何らかの確率をどうするのかが肝になってきます。

この際に使われるのが共役事前確率です。

尤度自体は、ベルヌーイ分布を仮定するのかガウス分布を仮定するのかによって姿を変えます。コレに対して事前確率は勝手に決めることができてしまうのです。従って、尤度の形に合わせて「計算が面倒にならないような」確率分布を適当に当てはめてしまおうというのが共役事前確率の考え方です。

ベルヌーイ分布に対してはベータ分布というものが用いられます。

ベータ分布は

$Beta(μ|a,b)=\frac{\Gamma (a+b)}{\Gamma (a) \Gamma (b)}μ^{a-1}(1-μ)^{b-1}$

という式で表されます。ここで $\Gamma(x)=\int_0^∞ u^{x-1}e^{-u}du$ という関数（ガンマ関数）ですが、これはそういうもんだと思っておいてください。今回は関係ありませんのでガンマ関数の部分は適当に $A(a,b)$ と表してしまって

$Beta(μ|a,b)=A(a,b)μ^{a-1}(1-μ)^{b-1}$

という分布を事前分布として選びます。

すると、事後分布は

$p(μ|D)∝p(D|μ)p(μ)=\prod_{i=1}^{N} μ^{x_i}(1-μ)^{1-x_i}A(a,b)μ^{(a-1)}(1-μ)^{(b-1)}$

となりますね。尤度の方で $x_i$ というのは $0$ か $1$ の値であり、例えば $1$ が1回 $0$ が2回ならば

$p(x=1;μ)p(x=0;μ)p(x=0;μ)=μ・(1-μ)・(1-μ)=μ^1(1-μ)^2$

となるのを先ほど見ました。この部分は $N$ 回投げるならば

$\prod_{i=1}^{N} μ^{x_i}(1-μ)^{1-x_i}=μ^{\sum_{i=1}^N x_i}(1-μ)^{\sum_{i=1}^{N} (1-μ)}$

と表すことができます。すると事後分布の式はとても綺麗に

$p(μ|D)∝μ^{\sum_{i=1}^N x_i}(1-μ)^{\sum_{i=1}^{N} (1-μ)}A(a,b)μ^{(a-1)}(1-μ)^{(b-1)}$

$=A(a,b)μ^{(\sum_{i=1}^N x_i)+a-1}(1-μ)^{(\sum_{i=1}^{N} (1-μ))+b-1}$

と表すことができます。 $A(a,b)$ も $μ$ を求める上では関係ない定数倍なので事後確率は結局以下のように表すことができます。

$p(μ|D)∝μ^{(\sum_{i=1}^N x_i)+a-1}(1-μ)^{(\sum_{i=1}^{N} (1-μ))+b-1}$

共役事前分布を用いることで、事後確率が元々の尤度からほとんど姿を変えること無く書き表すことができました。そして、この事後分布は、あたかも $x=1$ が $a-1$ 回分だけ多く出ており、かつ $x=0$ が $b-1$ 回分だけ多く出たという形になっています。

つまりベルヌーイ分布に対してベータ分布という共役事前分布なるものを導入した場合には、この $a,b$ を適当に調整することによって、もともとコインがどれだけ偏っていそうかという主観を反映できるというわけです。

このように、勝手に設定できる（しなければならない）パラメータ（今回は $a,b$ )のことをハイパーパラメータと呼びます。

共役事前分布自体は、完全に数学的な都合で導入されていますが、式を整理した結果、何らかの解釈が得られる場合もあるのです。計算がめんどうとかがどうでもいいなら、何らかの分布を自分で適当に事前分布に設定することも可能です。

MAP推定

事後分布がわかったところで、この確率分布が最大となるような $μ$ を計算します。

ここで、事後分布は「データが集まった時のパラメータのとる値の確率」を表していることを思い出しましょう。つまり、事後分布をが最大となる $μ$ というのは、最尤推定ほど面倒な説明が全く必要なく、「パラメータ $μ$ が確率的にいろんな値を取るので、一番よく出る（確率の高い） $μ$ を選びましょう」という単純なアイデアになります。