HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学、量子計算などをテーマに扱っていきます

【ベイズ推定って結局何なの?Part2】

 

 

follow us in feedly

f:id:s0sem0y:20170519230518g:plain

 

 

はじめに

思いの他反響のなかったベイズに関する以下の記事に続き、性懲りもなくベイズの話をします。(ディープラーニングみたいに爆発的な流行は無いけど、ベイズは今後絶対注目度が高まるよ!!)

s0sem0y.hatenablog.com

 

 

ベイズ推定の概要

前回はベイズがどういう考えをしていて、結果的にどういうことをしていることになるのかという話を(不正確な点も含みながら)説明しました。

 

今回は若干踏み込みつつ、しかし深入りし過ぎないように、それで更に理解が深まるように説明していきます。

 

統計学の考え

手元に集まるデータは確率分布から生成されたものであるという考えが、統計の基本です。

 

あるデータxは、確率分布p(x)から生成されていると考えるわけです。例えば、サイコロを1回振ったらどの目が出るでしょう?という問に対して、それは○○の目が出る確率がうんちゃらかんちゃらで、それを知る方法(推定法)を考えましょう!ということです。これは当たり前に感じるでしょうか?

 

しかしニュートン力学によれば初期状態が決まり、運動方程式が分かれば未来は完全に予測できます。サイコロをどの角度でどのように投げ、床の材質やサイコロの材質(反発係数)、サイコロの重心が分かれば、実は計算すれば分かるのかも知れません。でも、そんなことを正確に計算できるような実データはほとんど世の中にはありません。

 

なので統計を使いましょうということになります。

 

データxが発生するメカニズムを完全に把握することを諦めて、○○な傾向があるということを言うに留めるということです。

 

伝統的統計学の考え

xを発生させる傾向を表現したのが確率分布p(x)です。では確率分布がどのようなものであるか、ということを知れば一通り統計の役割を果たせたということになります。

 

しかし、先ほど述べたとおり、統計はデータが発生するメカニズムを完全に把握できるということではありません。何らかの傾向を見つけたとしか言えないのです。それでも、その傾向がより正確に知ることが出来たのであれば、それはそれで実用上有用な情報になり得ます。

 

したがって伝統的な統計学では大量のデータから、データが発生するメカニズムに非常に近い確率分布を推定しようとします。

 

基本的な流れは

 

データxを複数観測する。

 

xが数学的によく知られた、どの確率分布p(x)に似ているかを考える。

 

p(x)に当たりをつけて、大量のデータからp(x)の形状を決定する(推定)。

 

推定されたp(x)が本当にまともなものであるかを吟味する(検定)。

 

という形になります。当然、最初に当たりをつけたp(x)がそもそも合っていないのであればお話になりません。推定したのは良いもの、結局はそれが絶対に合っているとは一生言えないのです。でも、なるべく本物のメカニズムの傾向に近いものを見つけたいという心情があります。

 

伝統的な統計学ではデータが発生する背後にはメカニズムに伴った「真の分布」というものが存在しており、その真の分布を知ることが目標になります。

 

仮定したp(x)という確率分布がパラメータθによって形状が完全に決まるとすれば、その分布をp(x;θ)という表記で表しておき、真のパラメータθに近いパラメータ\hat θを求めてやりたいということになります。

 

そしてその\hat θが本当に正しいのか、あるいは仮定した確率分布自体がそもそも間違っていないかを慎重に検討することになります。

 

ベイズの考え

データxを発生させている確率分布p(x)があるとしましょう。なにか適当な分布を探してp(x;θ)としておいて、真のθに近い\hat θを求めようという流れには、当然たくさんの穴があります。

 

データが確率的に発生しているので、そもそもデータは真のメカニズムを体現する正確なものであると言えるでしょうか。例えば、たくさんのデータセットD_1D_2の2つがあるとき、D_1を使って推定する結果とD_2を使って推定する結果はピッタリと一緒にはならないでしょう(だからこそ統計的な考えでは検定を行う)。

 

私達は手元の全てのデータを使いますが、結局はそれはこの世に存在するありとあらゆるデータや未来に発生しうるデータの中のほんの一部を使った推定に過ぎません。

 

すなわちデータセットDが確率的に得られたほんの一部のデータであるので、これから推定しようとするパラメータθは、現在手元に得られているデータDによって確率的に推定されると考えるのです。

 

すなわち手元のデータDからθがどのような値だと言えるかの確率を求めます。このデータセットDを使った場合はθ=3である確率が0.5であるなどというわけです。

 

伝統的な統計学では、真のθをピタリと求めようとするので、これを点推定と呼びます。一方で、ベイズでは「θが○○である確率は××である」というのに留めるのです。

 

 

まずは、データのメカニズムを知ることを諦め、傾向だけを知ろうとしたのが統計学でした。

更に傾向をハッキリと求めようとした統計学に対して、その傾向をハッキリ言い切ることすらやめたのがベイズ統計学というわけです。

 

悪い言い方をしているように見えますが、結局これが機械学習で言うところの「過学習」しない本質的な理由になります(つまり実用上とても良い考え方)。

 

つまり、推定したいのはp(x;θ)ではなく、p(θ|D)なのです。データからθがいくつだと言えるのかの確率を知りたいのです(データの条件付き確率)。

 

ベイズ統計学

さて、ベイズの哲学は頭に入ったでしょうか。

あとは方法論だけです。

 

ベイズ統計学の基本道具

ベイズ統計学で使う道具は非常に少ないです。その道具を列挙します。

 

 

乗法定理

確率変数xyが同時に得られるとしましょう。

その確率はp(x,y)と表記されます。この確率を同時確率と言いますがこれは以下のように変形することがいつでもできます。

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

 

これを乗法定理と呼びます。すなわち同時確率は、一方の確率変数が得られる確率に、その確率変数が得られた上で他方の確率変数が得られる確率の積になっているということです。

 

これはいつでも成り立ちます。

 

 

52枚のトランプから1枚だけカードを選びx_iを引き当てる確率をp(x_i)としましょう。更に52枚のトランプから同時にカードを2枚引いて、x_i,x_jが得られる確率をp(x_i,x_j)と書くことにします。

 

さて、以下の手続きを行ってみましょう。

 

まず、カードを1枚引きます。それはx_1というカードでした。これが得られる確率はp(x_1)でした。もう1枚カードを引きましょう。それがx_iである確率はp(x_i)であると言えるでしょうか。明らかに言えません。p(x_i)とは52枚のカードからx_iを引き当てる確率です。既に1枚引いたのでトランプは51枚になっていますし、私達はx_1を既に引いてるので、次にこのカードを引くことは絶対に無いと知っています。

 

明らかに2枚目のカードがx_iである確率はp(x_i)とは違う何かです。したがってこれをp(x_i|x_1)と書くと決めます(x_1の条件付き確率)。

 

今、実際に2枚目を引いてみたところ、そのカードはx_2でした。つまり、上記の手続きにおいて、どんなことが起こったかというと

 

p(x_1)p(x_2|x_1)

 

と時系列的に確率的な事象が起こったのです。ところで、今手元にはカードが2枚あります。

同時に一瞬でカードを2枚引くことと、順番に1枚ずつ引くこと、これらは最終的に手元に2枚のx_1,x_2が現れるという事象に影響は与えていません(同時に引いても、1枚ずつ見て引いても、確率は変わらんということ)。

 

なのでp(x_1,x_2)=p(x_2|x_1)p(x_1)

 

と言えるのです。

 

むしろ、p(x_i)という1つの出来事と、p(x_i,x_j)という2つの出来事の関係を結びつけるものをp(x_j|x_i)と決めたということです。

 

 

独立性

乗法定理というのはむしろ現実を表す出発点です。いつでもこの形で書くことが許されます(許されるのではなく、それが絶対である)。つまり以下の乗法定理というのは現実の全てを表しうるために非常に一般的な式になっているということです。

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

 

上記の式がもっと簡単になる特殊なケースも存在します。それが独立性です。

x,yが独立であるとは、

 

p(x|y)=p(x)

p(y|x)=p(y)

 

であるということと決めます。乗法定理は出発点でしたから、これを乗法定理の式にいれてやると、

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)=p(x)p(y)

 

ということになります。すなわち、同時確率p(x,y)は、個々の確率の積p(x)p(y)で表すことができると、読み替えることができます。

 

これは、サイコロを2回振るなどの場合に成り立っています。1回サイコロを振って出た目を知ったところで、次のサイコロの出る目に関する何かを知ったことにはなりません。先ほどのトランプの例で言えば、最初にカードを引いて、それを見てから戻し、もう一度ランダムにカードを引くというのも独立性を有していると言えます。

 

これはベイズで使われるというより、統計全体で使われます。

 

データx_iをN個観測したとして、その確率データが得られる確率はp(x_1,x_2,...,x_N)でありますが、データ1つ1つが独立であると考えれば

 

p(x_1)p(x_2)...p(x_N)

 

と変形できるのです。私達が知りたいのは大抵、データx_iが現れる確率p(x_i)そのものです(これが分かれば、今後どんなデータが出てくるのか予測できるわけ)。

 

今手元にN個のデータが得られましたが、これが起こる確率はそれ相応に高いはずです(じゃなければ都合良くデータが集まることなど無い)。なので、それを念頭においてp(x_1,x_2,...,x_N)が起こる確率を最大にするような確率分布の形状を決めるのが最尤推定法です(言わば手元に得られたデータを正当化しようとする姿勢である)。確率分布の形状をp(x_i)=f(w,x)とか適当にパラメータをおいてwを上手く決定するということになります。

 

今データは独立だと考えているので、適当においた関数f(w,x)を使うと

 

p(x_1,x_2,...,x_N)=f(w,x_1)f(w,x_2)...f(w,x_N)

 

という関数の最大化問題に落ち着きます。大抵は掛け算はしんどいので、logをとって

 

log\{p(x_1,x_2,...,x_N)\} = log\{f(w,x_1)f(w,x_2)...f(w,x_N)\}=log\{f(w,x_1)\}+...+log\{f(w,x_N)\}

 

の最大化に持ち込みます(足し算になった!logは単調増加なので最大化の解は元の関数と同じ)。

 

基本的に多くの場合は独立性をデータに仮定します。そうすることで実データが手に入った確率(尤度という)が比較的シンプルになるのです。一方で時系列データのように、データが現れる順番を考慮しなければおかしなことになる場合もあります(というか条件付き確率は出発点であって、運が良ければ条件付きが外れるというだけ)。

 

加法定理

xyの同時確率p(x,y)に関して

 

\displaystyle \sum_y p(x,y) = p(x)

 

がいつでも成り立ちます。これを加法定理と呼びます。

同時確率を考えた際に、一方の確率変数が取りうるパターンすべてを網羅してしまえば、p(x)だけを考えることと同じという意味になります。

 

(実はこれも決まり事(公理)であって、本来はp(x)=\sum_y p(x,y)というふうに表記されます。このように確率というものを規程したところから、議論がスタートするのです。だから本当はこれが一番最初。)

 

 

 

 

以上がベイズ統計学で使う道具になります。

少ないです。

 

再度表記しておくと

 

p(x_1,x_2)=p(x_1)p(x_2)  (独立な時)

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)  (常に!)

 

\displaystyle p(x) = \sum_y p(x,y) (常に!)

 

これだけです。これさえ頭に入れておけばとりあえず式変形は追うことができます。

一応、確率変数が連続値の場合、和で数え上げる事ができないため(例えば気温を確率変数としたら、全てを網羅するために足し算はできない。これが積分の始まり)、積分で表現しておくことにします。

 

p(x_1,x_2)=p(x_1)p(x_2)

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

 

\displaystyle p(x) = \int_y p(x,y)dy

 

この3つのうち、仮定が入っているのは一番上の独立に関する式だけで、他はいつでも成り立っているので好きなように使って良いのです。一番上の式は大抵、データが得られることに関して、それぞれのデータが独立であるという文脈で使われることが大半です。

 

ベイズの定理

これらをごちゃごちゃ変形してみましょう。

 

まずは乗法定理から

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

 

これの真ん中と右に注目してください。

 

p(x|y)p(y)=p(y|x)p(x)

 

この部分に関して、中学生並の式変形を食らわします。両辺p(y)で割って

 

\displaystyle p(x|y)=\frac{p(y|x)p(x)}{p(y)}

 

出ました。ベイズの定理です。乗法定理について両辺をp(x)で割ることにすれば、

 

\displaystyle p(y|x)=\frac{p(x|y)p(y)}{p(x)}

 

とも表せます。どっちもいつでも使えるのです(だって乗法定理変形しただけだから)。とりあえず、いま変形した下の方の式をもうちょっとだけ変形します。ポイントは加法定理を使うことです。

 

\displaystyle p(x) = \int_y p(x,y)dy

 

これで分母のp(x)を変形してやりましょう。

 

\displaystyle p(y|x)=\frac{p(x|y)p(y)}{ \int_y p(x,y)dy}

 

さあ、乗法定理や加法定理はいつでも使っていいので、もうちょっとだけ遊びましょう。再び乗法定理を見ましょう。

 

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

 

これの真ん中と左の関係式を使ってみましょう。これを先ほど得た式の分母にぶち込んでやれば

 

\displaystyle p(y|x)=\frac{p(x|y)p(y)}{ \int_y p(x|y)p(y)dy}

 

これもベイズの定理として出てくる式です。でも全部同じ意味です。

 

何度も言いますが使ったのは加法定理と乗法定理だけです。したがって、これはいつでも成り立ちます。すなわちベイズの定理はいつでも成り立っているのです。見た目がややこしいだけです。

 

ベイズでの統計パラメータθの考え方

さて、ベイズの定理が出てきたところでベイジアンは更に式変形の遊びを続けます。しかし、ここからの遊びはベイジアンにしかできないことです。

 

ベイズの哲学を思い出しましょう。

 

「伝統的な統計学では、真のθをピタリと求めようとするので、これを点推定と呼びます。一方で、ベイズでは「θが○○である確率は××である」というのに留めるのです。」

 

θがいくつになるのかというのは確率的にしか求めないのです。すなわち、パラメータθを確率変数と見ているわけです。実際には手元のデータDによって、θという値が推定される確率を求めることになるため、データDの条件付き確率

 

p(θ|D)

 

という形になります。これを「事後分布」とか言いますが、哲学を思い出せば非常に自然な流れです。ベイジアンはθが確率変数だというふうにみているので、(確率変数に関してかならずいつでも成り立っている)ベイズの定理に当てはめても良く

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

という式になります。ベイズ推定では、ベイズの定理で右辺のように展開できるため、右辺を求めていこうという流れになります。

 

右辺の方が難しそうじゃないか!と思うかも知れません。しかしよく見てください。分子と、分母の積分の中身は全く一緒です。

 

そして、分子におけるp(D|θ)というのは要するに、パラメータθが決まっている時のDが得られる確率であり、尤度と呼ばれるものです。Dは既に観測しているものなので、何に条件付けられているかはともかくとして、その確率分布を適当な形でおいてしまうことができそうです。

 

例えば、データのヒストグラムが山の形になっていれば正規分布にしてみるとか、ある2種類の値しか取らないならばベルヌーイ分布にするなどができます。

 

そうだとしてもp(θ)はどうするんだ?ということになります。思えば統計学は正確なθを求めたいというのが本音でした。なのにベイズ統計学では、p(θ)なるものを予め仮定しなければならないのです。こいつはとんでもないどんでん返しで、ベイズ統計が批判されてきた理由になります(否定されていたのはベイズの定理ではない)。

 

このp(θ)は事前分布と呼ばれるものです。しかし、事前分布は上手く選べば推定に影響を及ぼさなくなります(無情報事前分布という)。またデータが十分に多くあれば、事前分布が外れていたとしてもその影響は小さくなることも知られています。

 

推定に悪影響がなければ、結局残るのはθを確率分布で考えるかどうかという哲学の話であり、実問題においてはθが完全にピッタリ求まることのほうが少ないと言えるでしょう(もちろん求められそうならそれでも良い。というかベター。理想を言えば運動方程式に相当するものまで求まると良いですね)。

 

ベイズ機械学習

さて、確率の基本式に従い、θが確率変数だと認めさえすれば

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

と書けることを見ました。忘れてはいけないのは、乗法定理と加法定理はいつでも使いたい放題であるということです。これらを駆使すれば、まだまだいくらでも式変形ができます。

 

機械学習で行われる基本的な仮定と学習

さて、データDが沢山の1つ1つのデータx_iで構成されておりD={x_1,...x_n}とあるとしましょう。もしもこれら1つ1つのデータがが全て独立であれば、私達がDを収集する確率というのは、

 

\displaystyle p(D)=p(x_1)p(x_2)...p(x_n)=\prod_i^n p(x_i)

 

と表しておくことができます。統計の基本的な考えは、θで決定される確率分布p(x;θ)からxが出てきてるとしてθを求めることでした。ベイズではθ自体も確率変数なので、確率変数θであるとした時の条件付き確率p(x|θ)という見方をします。

 

すなわち手元のデータは確率変数であるθに条件付けられたp(D|θ)から集まったと見ます。

 

(データからθが決まるのか、θからデータが決まるのか、どっちだよ!と思うかも知れません。でもベイズの定理はいつでも成り立っており、順番を交換しても良いということが数学的に規定されています。今ややこしいのは、パラメータというものがやけに特別だと感じてしまっているからです。どっちかどっちなんてことはないんです。この話は後述します)

 

したがって手元のデータDに関しては

 

p(D|θ)=\prod_i^n p(x_i)

 

と表記することになり、データは手元にあるので適当に分布を仮定する手がかりもあるというわけです。したがってθの事後分布は

 

\displaystyle p(θ|D)=\frac{\prod_i^n p(x_i)p(θ)}{ \int_θ \prod_i^n p(x_i)p(θ)dθ}

 

とより一層(見た目は)ややこしくなっています。が、実際にはデータが独立であるという仮定を使ったので、むしろ本質的には簡単になっているんです(だって一個一個のデータの確率を掛け算するだけですよ!)。

 

とりあえず上記の状態でなんとかθの確率分布p(θ)を求めていくことを「ベイズ学習」と呼ぶことになります。

 

 

 

機械学習の方法論

見た目が悪いので、

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

と書いて続けていきます。さて、一旦右辺の分子を見直しましょう。

ゴチャゴチャ変形してきたのに一旦戻してしまいますが、乗法定理で

 

p(D|θ)p(θ)=p(D,θ)

 

さて、p(D|θ)の方には各データ点が独立という仮定を置くことでなんとか形にすることが出来ました(分布はヒストグラムとかから仮定する。そして独立なら、あとは掛け算しまくるだけ)。

 

問題はp(θ)の方ですが、実用上は計算しやすい分布を適当においてしまいます。

 

計算しやすいというのは、尤度p(D|θ)の分布を仮定したら、その分布と掛け算をした時に数学的に難解な式にならないような分布にするということです。

 

これは共役事前分布と専門的には呼ばれます。小難しいこと言わなくとも尤度に対して計算が楽になる分布という意味で結構です。しかしそれでも普通は上手く計算できるものではありません。なぜなら分母に積分があるからです。

 

MAP(最大事後確率)推定

 

MAP推定ではp(θ|D)を最大化するθを決めます。この場合はもう積分がしんどいから確率分布を求めるのをやめて、適当に\hatθを求めるということです。分母はθの積分なので(というより加法定理によって)


\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}=\frac{p(D|θ)p(θ)}{ p(D)}

 

となっており、そもそもθは分母に含まれていません。したがって、分子の

 

p(D|θ)p(θ)

 

を最大化しようと考えるわけです。これはp(θ)を定数の如く扱えば、単に最尤推定をしていることと代わりがありません。p(θ)を掛けるとどんな良いことがあるのかというと、仮にθに関する何らかの情報を有していれば、それを最大化したい関数に組み込めるということになります。

 

これは結果的に機械学習で使われる正則化と同じ効果を持っています。

 

しかし、θは確率変数だと豪語していたのに、確率分布は求めませんというのは少し悲しいです(というか小難しいことしなくても、普通の推定に正則化を入れましょうというだけで話が済む)。

 

 

変分ベイズ

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

の計算を困難にする大きな要因は分母にあります。

なので、分母が上手く計算できるようにしたいというのが変分ベイズです(もっと広く言えば積分を計算したい)。高校の時、積分の問題を沢山解いたかも知れません。しかし解ける問題でなくては採点できないのでそうなっているだけで、世の中には積分できない関数の方が多いのです。

 

事前分布と尤度の仮定を上手くおけば、実は以下の積分

 

\int_θ p(D|θ)p(θ)dθ

 

は解くことができる場合もあります。しかし統計パラメータは大抵1つではなく、例えば最も身近な一次元ガウス分布であっても

 

N(μ,σ)

 

と2つのパラメータを持っています(これは簡単な例だから上手く求まる)。しかし大抵、積分できません。そこでパラメータを複数持つ確率分布q(θ_1,θ_2)に関して

 

q(θ_1,θ_2)=q_1(θ_1)q_2(θ_2)

 

 などの変形を行います。いわば「確率変数θ_1θ_2には独立である」と仮定することになります。これはいつでも行える変形ではありません。私達が常に使って良いのは乗法定理と加法定理です。

 

q(θ_1,θ_2)=q_1(θ_1|θ_2)q_2(θ_2)

 

は常に成り立っていても、上記の独立性は本当かどうかわからないのです。

それでも、例えば、今日の平均気温は20度でした。今日の気温のばらつきが分かりますか?昼と夜で温度差が6度だったとして、平均気温は分かりますか?(もしかしたら、分かるんかもしれんけど、パラメータに意味をもたせた時に、本当に独立だってこともある)。

 

また、パラメータに意味を持たせない、物的実体を持たない何かだったとしても良いんじゃないでしょうか(そもそも、データxの特性が知りたいのだから、背後にあるパラメータがハッキリ具体的に何かはわからなくても良い)。独立に分解された何かが、上手くq(θ_1,θ_2)を表現しうるのであればそれで良いのです。分解の仕方は表現力に影響をもたらすことだけを把握しておけば良いのです。

 

 

 

サンプリング

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

においての困難は分母の積分でした。

しかし、私達が知りたいのは左辺です。なので左辺を直接求めるという方法を取ります。とりあえずθにだけ着目すれば

 

\displaystyle p(θ|D)≒\frac{q(θ)}{Z}

 

という形をしていることが分かります。分母は非常に難しいということが分かっているのですが、仮に積分が解けた時にはθは消えています。なので何らかの定数だと思うことにしておきます。

 

サンプリング法とは、上手いq(θ)を選んでそこから乱数としてθ_i〜q(θ)を発生させ、その確定値θ_iを沢山使って分布を近似していくことになります。もちろんただ乱数を発生させていくだけでは、最初に選んだq(θ)が再現されるだけです。

 

そこの手順を上手く構築するのがサンプリング法の枠組みになります。

 

 

 

 

ベイジアンが見ているもの

 

全てを確率変数だと捉えてきたベイジアンにも、

 

ただ1つ、確率変数だと考えるのではなく、勝手に固定して決めてしまっているものがあります。それは確率分布の仮定それそのものになります。

 

モデルの仮定は正しかったのか?

 

すなわち、ベイジアンは「ガウス分布を仮定したら、パラメータである平均と分散を得たいということになり、推定される平均と分散はデータセットに依存した確率変数だ」という発想のもと、「求めるのはデータに条件付けられたパラメータの確率分布」という道を進みました。

 

しかし、この話の中で唯一固定的に決まってしまっているのは「ガウス分布」の部分です。ガウス分布を仮定したら求めるのは平均と分散だけであり、そしてそれ以外の形状はいかなる方法をとっても獲得することが出来ません。

 

すなわち固定的に決まってしまっている分布の仮定(通常は「モデル」と言う)をmとして、

 

p(D,θ | m)

 

という確率分布が考えられるのです。実際、モデルによってθは明らかに変わります。データとパラメータの同時分布は、モデルに条件付けられているということです。

つまり今まで学習しようとして事後分布とは

 

\displaystyle p(θ|D,m)=\frac{p(D|θ,m)p(θ,m)}{ \int_θ p(D|θ,m)p(θ,m)dθ}

 

と書くことができるのです。

 

ここまで来ると、ベイズの定理では分母には重大な意味があるということが分かります。

 

さて、モデルが確率変数だと考えてみた場合、今手元にあるデータがDであるときに、このデータからどのようなモデルmを仮定すればいいでしょうか。mを確率変数だと思えばDの条件付き分布

 

\displaystyle p(m|D)=\frac{p(D|m)p(m)}{ p(D)}

 

を考えることができます(これは単に乗法定理を変形しただけです)。この確率が高くないようなmはそもそも、今手元にあるDによって仮定されるべきではありません。

 

そして、この右辺分子のp(D|m)に着目してください。

 

\displaystyle p(D|m)=\int_θ p(D|θ,m)p(θ,m)dθ

 

となります(θに関する加法定理です。右から左に読んだほうが分かりやすい)。

この右辺は、私達が学習しようとしていたベイズの定理により書かれた事後分布

 

\displaystyle p(θ|D,m)=\frac{p(D|θ,m)p(θ,m)}{ \int_θ p(D|θ,m)p(θ,m)dθ}

 

の分母になっているのです。

実は近似したり定数だと見てみたりしていた分母は、むしろデータとモデルそのものを結びつけうる重大な役割を担っていたのです。

 

さて、ここで、何かしらのモデルmを仮定し、パラメータの事後分布を求めるということに成功したとしましょう。その時には分母も求まっているはずです。

 

そうなれば、p(D|m)が求まったことになります。したがって、この値が大きければ仮定したモデルのもとで、実際にDが得られる確率が高いということで、それ相応に良いモデルを選んだということになります。

更に踏み込んで

 

\displaystyle p(m|D)=\frac{p(D|m)p(m)}{ p(D)}

 

で分母を無視することにしましょう(分母はどのモデルを選択するかに関わらず、データそのものが得られる確率であるから、モデルの仮定の議論とは無関係)。

 

ここでp(m)というのはこの世にあるありとあらゆるモデルのうち1つmというモデルを選択する確率であり、選択肢は無数にあります。なのでどのモデルに対しても選ぶ確率は均等であると考えれば、

 

p(m|D) ∝ p(D|m)

 

となってきます。こう考えると、右辺は学習ができたという段階で求まっているわけですから、その値から、手持ちのデータがそのモデルであるという確率が見積もられるのです(あくまで比例しているだけ)。

 

実用上は、複数のモデルm_1,m_2,...,m_i,...で機械学習を試してみた時に

 

\displaystyle p(θ|D,m_i)=\frac{p(D|θ,m_i)p(θ,m_i)}{ \int_θ p(D|θ,m_i)p(θ,m_i)dθ}

 

が各iについて求まりますから、

 

そのときの右辺の分母の値を見比べることで、どのモデルが良かったかを表す指標になるのです。

 

これは機械学習では通常「モデルエビデンス」と呼ばれる量になります。

 

 

ハイパーパラメータ

さて、続いて学習の方に戻りましょう(学習の時では、とあるモデルで固定して行うのでmは確率変数ではなく定数となり消えている)。

以下のベイズの定理の事前分布p(θ)を考えましょう。

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

このp(θ)は予め適当な仮定をすることになっていました(大抵は共役事前分布)。しかしそれが確率分布である以上、その形状を決定するパラメータが事前分布にも出てくることになります。そのパラメータをαとしておきましょう。

 

そうすると、徹底したベイジアンならば、そのパラメータαすら確率変数に感じます。すなわちp(θ)ではなく、実は私達がおいている事前分布はp(θ|α)という条件付き分布なのではないかと思えてくるのです。そうなると、今まで考えていた事後分布は

 

\displaystyle p(θ|D,α)=\frac{p(D|θ,α)p(θ|α)}{ \int_θ p(D|θ,α)p(θ|α)dθ}

 

と書き換えられます。αを人間が確率的に(というか当てずっぽうに)選んだα_0のもとで考えると決めてしまえば、

 

\displaystyle p(θ|D,α_0)=\frac{p(D|θ,α_0)p(θ|α_0)}{ \int_θ p(D|θ,α_0)p(θ|α_0)dθ}

 

という形になり、これは上記の数式の基では定数になるので、分布の中に出てくる1とか5とか普通の数字と変わらなくなり、結局

 

\displaystyle p(θ|D)=\frac{p(D|θ)p(θ)}{ \int_θ p(D|θ)p(θ)dθ}

 

を考えることになります。この式の元で値を分布を求めるというのは、要するに事前分布を仮定し、更に事前分布の形状までもこれだ!と決め込んでいることになります。このような値αのことをハイパーパラメータと呼びます。

 

徹底したベイズの手法ではこのハイパーパラメータも学習の中で求めようとします。事前分布のハイパーパラメータも確率変数と考え、事前分布(超事前分布)を与えます(階層ベイズ)。

 

全て確率変数から始める

さあ、すべてを確率変数と考えているベイズには慣れてきたでしょうか。

 

(徹底した)ベイジアンにとっては全てがこんな感じで確率変数に見えているわけです。

 

ならば、これから考えることが何であれ、確率分布というものをp()と書いておくことにしましょう(この時点でモデルmを決めることになる)。これまでは、形状はθによって決まり、そして手元にあるのはデータDだけだというふうに考えてきましたが

 

どっちが特別ということはあまりありません。

 

私達は全てが確率変数であると考えており、確率分布を知ることで偶然にも役に立たせられることもあるかもしれないというだけのことです。つまりこれから扱う変数は全て確率変数と思って、

 

p(x,y,z)

 

から始まり、実データがxならxの挙動を知りたいので、これを適当に乗法定理で

 

p(x,y,z) = p(x,y|z)p(z) = p(x|y,z)p(y|z)p(z)

 

としてみて、加法定理で

 

\displaystyle p(x)=\int_y \int_z p(x,y,z)dzdy = \int_y \int_zp(x|y,z)p(y|z)p(z)dzdy

 

としてみて、xが分かったバンザイ!ということなのです(もちろんこれを実際に解くのは至難の業。そしてこれを見れば分かる通り、同時分布というのはかなり多くの情報が集約されていると言える。いつでも乗法定理や加法定理で、好きな条件付き分布を出せるのだ。逆に言えば、これを求める時、それらの多くの分布を求めなければならない)。

 

 

最尤推定では

 

p(x|θ)

 

を、ベイズでは

 

p(D,θ) あるいは p(θ|D)

 

という確率分布を考えてきたということになります。

 

データからp(θ|D)が得られたらどんな嬉しいことがあるのか。

その実用的な嬉しさについては予め前回の記事で説明しておきました。ぜひご覧ください。

 

s0sem0y.hatenablog.com

 

 

 

 

 

 

 

最後に

基本的には全部確率変数と見ることです。そして求めるのは確率分布です。使うのは乗法定理と加法定理のみでした。(たまに独立を仮定)

 

とりあえずいろいろ式を弄ってみるのが良いでしょう。感覚がつかめると、意外と本(PRMLとか)も読めます。実際に使っているのはさほど難しい変形ではありません(もともとガンマ分布とかスチューデント分布とかがややこしい式をしているというだけ。PRMLの場合、解析的に解こうとする場合の解説もあるので、そういうところは厳しく感じるが)。

 

モデリングができるようになると後は実際に学習を行わなければなりませんが、これはPyMCやEdwardなどライブラリが充実してきているので心配はいらないでしょう(と、自分に言い聞かせている)。