"機械学習","信号解析","ディープラーニング"の勉強

読者です 読者をやめる 読者になる 読者になる

HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学などをテーマに扱っていきます

指数型分布族について

確率分布にも種類は色々ありますが、その中でも指数型分布族と呼ばれる種類のものは良い性質を持っており、学習に用いやすいです。今回は指数分布族がどういう種類のものであるか、そしてどういう性質を持っているのかを解説していきたいと思います。

 

 

 指数型分布族の定義

指数型分布族は確率変数xについて、その分布のパラメータηとして

 

p(x|η)=h(x)g(η)exp{(η^Tu(x))}

 

と表されます。この式で表現できるものは、全て指数型分布族ということです。

 

指数型分布族の例

指数型分布族だと直感的に分かる例:ガウス分布

最もよく知られているものとしてガウス分布があります。

簡単のため確率変数xが一次元の場合のガウス分布を以下に示します。

 

p(x|μ,σ^2) = \frac{1}{{(2πσ^2)}^{1/2}} exp \left( - \frac{(x-μ)^2}{2σ^2} \right)

 

これを上記の指数型分布族の式と見比べれば、expが既に見えていますからそうらしいなというのは何となく分かるかと思います。

具体的にh(x),g(η),η,u(x)がどれに相当するかは、少し式を整えて、対応関係が取れるようにしなければなりませんが、ともかくガウス分布は指数型分布族なんだと納得して頂ければと思います。

一見指数型分布族に見えない例:ベルヌイ分布

ベルヌイ分布は、コイン投げの確率分布です。ただし歪んだコインを投げるために、表が出る確率はμであると考えます。表が出た時x=1とし、裏が出た時x=0とします。するとベルヌイ分布は以下で表されます。

 

p(x|μ)=μ^x(1-μ)^{1-x}

 

これは一見指数型分布族に見えませんね。それでもベルヌイ分布は実は指数型分布族なのです。それを確認するため、少しテクニカルな変形が必要になります。

logを取ってからexpを取れば元に戻ります。これをつかってやると

 

p(x|μ)=μ^x(1-μ)^{1-x}

 

⇔log(p(x|μ))=xlog(μ)+(1-x)log(1-μ)   

 

⇔p(x|μ)=exp \left( xlog(μ) + (1-x)log(1-μ) \right)=(1-μ)exp \left( log(\frac{μ}{1-μ})x \right)

 

と表せます。こうなると

 

p(x|η)=h(x)g(η)exp{(η^Tu(x))}

 

と見比べれば指数型分布族であると言えそうです。

具体的に見ていくと、

 

η=log \left( \frac{μ}{1-μ} \right)

 

u(x)=x

 

h(x)=1

 

g(η)=1-μ(η)

 

であるとすぐに分かります。g(η)ηの関数であることが分かりますが、μは具体的に解くことができるので(一番上のη,μの関係式から)求めておくと、

 

μ=\frac {1}{1+exp(-η)}

 

となります。結果的に

 

g(η)=1-μ=1-\frac {1}{1+exp(-η)}=\frac{1}{1+exp(η)}

 

として求まります。

ベルヌイ分布は上記の式で表される指数型分布族であると言えるわけです。

指数型分布族の性質

指数型分布族という分布の集合を考えるメリットは、指数型分布族が一般的に良い性質を持っているからです。それらの性質を簡単に説明しておきます。

 

モーメントが簡単に求まる

1次モーメントは平均値のことで、2次モーメントは分散共分散のことです。

 

p(x|η)=h(x)g(η)exp{(η^Tu(x))}

 

において、u(x)のn次モーメントはg(η)のn階微分によって表現できます。

モーメントは期待値演算をして求めなければなりません。すなわち積分が含まれるために、結構メンドウな計算を強いられます。しかし指数型分布族ではそれが微分という比較的簡単な計算で求めることができるのです。

 

パラメータの最尤推定による解が、実データの加算平均と一致する

最尤推定を行う場合、通常は尤度を最大化する手続きが必要で、尤度のパラメータによる微分が0になる点を探さねばなりません。しかし、指数分布族は全て、最尤推定の結果が実データの平均と一致することが示されます。言い換えれば、あれこれ思考を巡らさなくとも、観測対象が指数分布族に従っている限りは加算平均を計算しとけば尤もらしい推定ができていることになるのです。

例えば、1変数ガウス分布の平均μと分散σ^2の最尤推定量は

 

μ=\frac{1}{N} \sum_{n=1}^{N} x_n

 

σ^2 = \frac{1}{N} \sum_{n=1}^{N}(x_n-μ)^2

 

となっており、これは結局、サンプルデータの個々の値の平均とサンプルデータの個々の分散の平均を取っているだけです。後々に推定をしなければならないであろう場合には、それぞれのサンプル数と、個々の平均や分散を和だけ覚えておけば良いことになります。

 

指数型分布族の代表例

 

s0sem0y.hatenablog.com