ニューラルネットのための最適化数学

はじめに
最適化数学
- 最適化問題の簡単な例
  - 例題の解法
  - 微分による解法の注意点
- 凸最適化問題
  - 凸関数
  - 凸関数の定義
ニューラルネットの学習
記事

はじめに

機械学習での学習とは、パラメータを逐次最適化することです。

最適化数学自体は、それだけで1つの広大な研究範囲を持っていますが、今回は機械学習で用いられる逐次最適化が分かるように、最適化数学の基本を記したいと思います。

機械学習には非常に多くの手法がありますが、逐次最適化という面においてはほとんど共通の形を持っています。各手法毎に最初から理解のし直しが必要というわけではなく、最適化数学の基本を抑えておけば、新しい手法を学ぶときにもやっていることを理解することが可能になります。

最適化数学

最適化数学とは、目的関数を最大化したり最小化したりする手法を扱う分野です。

機械学習においては、目的関数として二乗誤差関数や交差エントロピーなどが用いられますが、その形によらず、最適化の着目する部分というのは共通しています。

したがって、目的関数の形に捕われず、最適化数学の狙いというものをここで理解しておきましょう。

ちなみに、同じ最適化手法を使っていたとしても、目的関数を色々変えることで機械学習としては異なる手法の名で呼ばれることとなります。

最適化問題の簡単な例

最適化問題とは、あるパラメータ制約のもとで、ある関数の最大値や最小値、そしてそのパラメータを求める問題です。例題を見ましょう。

$max　f(x_1,x_2)=-x_1x_2$

$s.t.　x_1-x_2-2=0$

上の式が目的関数 $f(x_1,x_2)$ です。下の式が制約と呼ばれるものです。

目的関数を見れば、この式を最大化するためには $x_1$ か $x_2$ のいずれかが負の値で、もう一方が正の値であればよく、そしてなるべく絶対値は大きければ良いと分かるでしょう。

しかし、自由に $x_1$ や $x_2$ を選べるわけではありません。制約の式を満たしておく必要があります。

例題の解法

このような問題ならば非常に簡単に解けます。制約の式から、以下の関係が成り立たねばなりません。

$x_2 = x_1-2$

今から目的関数の数値をいろいろ変えてみようという場合には、この制約の下で動かすことしか考えないため、この式を目的関数に代入してしまいましょう。

$f(x_1,x_2) = -x_1x_2=-x_1(x_1-2)=-x_1^2+2x_1$

私達が最大化しなければいけないのは、この $f(x_1)$ です。 $x_2$ は消えてしまいましたが、この目的関数を最大化するような $x_1$ を求めた後に、制約の式から $x_2$ を求めることができます。

この問題は簡単に解けて、高校数学が分かれば平方完成をしようと考えますし、微分で極値を求めるということもできます。

平方完成ならば

$f(x_1)=-(x_1-1)^2+1$

と変形して、 $x_1=1$ のときに最大値 $1$ と求まります。一応 $x_2$ も求めると、制約式から

$x_2=x_1-2=1-2=-1$

と求まります。よって最大値は $1$ 、そのときのパラメータは $(x_1,x_2)=(1,-1)$ です。

微分で解こうという場合には $f(x_1)$ を $x_1$ で微分することを考えます。極値は微分が $0$ となる点ですから、

$f'(x_1)=-2x_1+2=0$

$⇔x_1=1$

とすぐさま求まります。この値を $f(x_1)$ に代入して同じように最大値と $x_2$ を求めることができます。

微分による解法の注意点

今、微分によって最大値を求めることができたのは偶然です。

微分は極値を求めることができるだけで、それが最大値であるのか最小値であるのか、はたまたそのどちらでもないのかは分かりません。微分が $0$ の点は、そこから微小だけ動いても大きさが変わらない場所であるということしか言えません。

$x=0$ の点で微分が $0$ となるが、最小値でも最大値でもない

通常、微分して $0$ の点が複数出てくるはずです。そのときはその全ての点での関数値を調べて、最小値や最大値を探す必要が出てきます。また、制約条件の端っこの点において、値が最小や最大となるケースもあるので、意外と見つけるのは難しいのです。

微分が $0$ となる点が複数（2つ）ある例。

$-3 \leq x \leq 3$ の範囲において、最小値は $x=-3$ の点であり微分は $0$ でない

しかし、最適化数学ではこの微分を多用します。

先程の例では平方完成による方法で、確実に最大値を求めることができましたが、通常の関数ではそのような上手い方法が存在しないことのほうが多いです。なので微分に頼る他ありません。

凸最適化問題

凸関数

では、なぜ先ほどの例では微分で上手く解が求められたのでしょうか。

それは、先ほどの問題が「凸最適化問題」と呼ばれるものの一種であったためです。

凸最適化問題というのは、目的関数が凸関数であるような問題です。

この問題においては微分して $0$ になる点がたった1つしか求まりません。その点は最大値か最小値のどちらかであることが保証されます。関数の形を考えれば、それが最大であるか最小であるかは見当がつきますし、つかなかったとしても、極値での関数の値と、他の適当な点での値を比較すれば、最大であるのか最小であるのかはすぐに分かります。

凸関数の例として簡単な例は $y = x^2$ のようなものです。

$y = x_1^2+x_2^2$ や $y=-x_1x_2$ なども凸関数です。

簡単に言えばプロットしたときに山が1つ（あるいは谷が1つ）という形をしているタイプのものを言います。これは当然、微分して $0$ になるところが1つに決まっていますし、そこが最大値あるいは最小値になっているのも納得でしょう。

しかし変数が増えて、プロットする次元が増えていけばもはや目で確認するのは不可能です。

それに対して数学的に定義をすることで、式変形のみで凸関数というものを論じることができます。

ちなみに上記の $x^2$ は下に凸の関数、あるいは単に凸関数と言います。

反対向きに山があるタイプの関数は上に凸の関数、あるいは単に凹関数と言います。

凹凸の文字から連想するのと、関数の形が逆じゃないかと思うかもしれませんが、そのように定義されているので勘弁してください。分かりづらければ、上に凸とか下に凸と言うと良いでしょう。

ちなみになぜそのように名付けられるのかは、2階微分の値に由来します。

凸関数の定義

多変数の関数 $f(x_1,x_2,x_3,...,x_n)$ を表したい場合、 ${\bf x}=(x_1,...,x_n)^T$ と変数を格納するベクトルを書いておいて、 $f({\bf x})$ と表記することにします（これはいろんな教科書でもそうする場合が多いです）。

関数 $f({\bf x})$ が（下に）凸関数であるとき、任意の異なる点 $\bf x_1,x_2$ と、スカラー値 $0\leq α \leq 1$ を用いて、以下が成り立ちます。

$f(α{\bf x_1}+(1-α){\bf x_2}) \leq αf({\bf x_1})+(1-α)f({\bf x_2})$

式の意味が分かるでしょうか。

青い点が、 $x_1=-1,x_2=2$ での関数 $f(-1),f(2)$

赤い点が右辺に対応、青い点の線分上の点 $αf({x_1})+(1-α)f({x_2})$

緑の点が左辺に対応、青い点 $-1,2$ の間での関数の値

一変数でもしっかり下に凸な関数の性質を表せており、多変数に拡張して、多次元でプロットしても同じことが言えます。従って、関数の凸性を上の式で定めてしまえば後々便利になります。

通常最適化問題の理論というのは、この凸関数に対して如何に効率の良い解法を見出すかと、非凸な関数が目的関数になってしまったときに、それをなんとか変形して凸最適化問題に帰着できないかに費やされます。

非凸に対して一般的に最大値や最小値を綺麗に求める方法はないため、大域的アルゴリズムの研究も盛んです。（例えば遺伝的アルゴリズムや粒子群最適化などが有名）

ともかく、目的関数を見たときに、それが凸であるのかどうかというのが重要であることはわかったと思います。

もしも最小化問題を解きたい場合には、目的関数が凸関数であれば、解くのが速いかはさておいて、ある点から適当に初めて、少しずつ今の場所よりも関数の値が下がっていく方へ移動していくという単純な方法が使えます。いつか点を動かしても関数の値が変化しなくなるはずですから、その点が確実に目的の最小解になっています。

この基本的なアイデアが、勾配降下法とか最急降下法などと呼ばれている手法です。

これはニューラルネットワークにしても何にしても、真っ先に思い浮かぶ解法で、機械学習にとって最も重要かつ、頻出の手法です。

ニューラルネットの学習

ニューラルネットの目的関数

ニューラルネットワークとは、簡単に言えば以下のような関数の形をしています。

${\bf y}=f({\bf w,x})$

そして、この関数の出力 $\bf y$ をなるべく訓練ラベル $\bf t$ に近づけたいというのがニューラルネットの学習になってきます。

このときの目的関数は、二乗誤差関数だったり交差エントロピーだったり様々ですが、ともなく何らかの目的関数が設定されたとしましょう。ニューラルネットでは目的関数を「損失関数」などと呼び、最適制御論では「評価関数」などと言いますが、まああまり気にしなくていいでしょう。

目的関数という言葉で統一していきます。

例えば二乗誤差関数の場合、出力が、単にラベルに近づくように

$({\bf y-t})^2$

のような目的関数を設定します。目的関数の中身はニューラルネットの構造 $y = f({\bf w,x})$ を代入すれば

$\ (f({\bf w,x})-{\bf t})^2$

などとなります。この時、文字に惑わされないでください。今、目的関数を最小化するために調整しようとしているのは $\bf w$ の方です。 $\bf x$ は単にニューラルネットへの入力であって、調整するものではありません。どんな入力が来ても、上手く出力を出してくれるような $\bf w$ を獲得したいのです。

従って、ニューラルネットワークの目的関数は通常

$l(\bf w)$

という形で表記されます。 $l$ は「loss」の頭文字です。

ですから、ニューラルネットワークの学習とは $l({\bf w})$ を最小化することに他なりません。

そして、 $\bf w$ に対して何か条件を付けたい場合、例えば $\bf w$ がやたらめったら大きな値になってほしくない場合は $λ|{\bf w}|^2$ などの項を目的関数に追加します。

これは $L2$ 正則化とか、リッジ正則化などと呼ばれます。他にも $L1$ 正則化などいろいろあります。いまは最小化問題なので、とにかく起こってほしくないことを項に追加していけば良いというだけの話です。

ニューラルネットの勾配降下法

パラメータを求める戦略

ともかく目的関数を決めたとしましょう。

$l(\bf w)$

そうした場合、 $\bf w$ をどのように求めましょうか。

まず戦略としては、適当な $\bf w^{(0)}$ から開始して $l({\bf w^{(0)}})$ の値を評価し、少しだけ変更した $\bf w^{(1)}$ で同じように $l({\bf w^{(1)}})$ を評価し、さっきよりも下がっていれば変更後を採用すればいいということが考えられます。

$\bf w^{(1)}=w^{(0)}+ε$

イプシロンが適当な変更に相当する項です。

しかし、変更のパターンは無数にあり、どれくらい、どの成分を変更すればいいのかを決めるのは容易ではありません。従って、 $\bf ε$ を適切に決められるようにしたいということが考えられます。

勾配降下法

その1つの方法が勾配降下法です。関数の微分は傾きを与えます。多次元においては関数のベクトルによる微分は、勾配ベクトルを与え、勾配ベクトルは関数の値を増やす方向を表しています。

そうであれば、勾配ベクトルと逆向きに進めば関数の値を減らす方向になるはずです。従って、 $\bf w$ の変更の仕方 $\bf ε$ を以下のように決めましょう

${\bf ε}=-\frac{\partial l({\bf w})}{\partial {\bf w}}$

すなわち、

${\bf w^{(1)}}={\bf w^{(0)}}-\frac{\partial l({\bf w^{(0)}})}{\partial {\bf w^{(0)}}}$

と値を変更すればいいということです。

$\frac{\partial l({\bf w^{(0)}})}{\partial {\bf w^{(0)}}}$ は $\frac{\partial l({\bf w})}{\partial {\bf w}}$ に $\bf w=w^{(0)}$ を代入という意味です。（現時点での位置での勾配ベクトルがほしいから）