連立方程式から始める機械学習

はじめに
連立方程式
連立方程式と機械学習
- とっても簡単な機械学習の例
- 現実の機械学習
  - 解に関して
  - データ次元に関して
最後に

はじめに

この記事では機械学習の初心者が、連立方程式という比較的馴染みのある数学からスタートして、学習とは一体何を行っているのかを把握し、その後、連立方程式を簡単に記述できる線形代数の世界に少しだけ足を踏み入れ、現代的な機械学習の初歩が理解できるようになることを目指します。

余力があれば、実際に線形代数の操作を手で行ってみると良いでしょう。

連立方程式

初歩的な連立方程式

連立方程式とは、例えば以下のような式を言います。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \end{cases}$

これを解く方法はいくつかあります。

代入法

１つは代入法です。２つ目の式を

$\begin{cases} x + 2y = 3 \\ x =y+ 6 \end{cases}$

と変更することで、 $x$ についてとりあえず解けたことになります。この $x$ を１つ目の式に代入することで

$(y+6) + 2y = 3$

$⇔ 3y = -3$

$⇔ y = -1$

となり、 $x = y+6$ でしたので、 $x = -1 + 6 = 5$ としてやることで

$\begin{cases} x = 5 \\ y = -1 \end{cases}$

と連立方程式を解くことができたというわけです。

加減法

もう１つが加減法であり、こちらのほうがテクニカルではありますが、便利な場合が多いです。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \end{cases}$

の両辺を差を取ることで

$3y = -3$

$⇔y = -1$

となります。残りの $x$ は、今求まった $y$ を使えばすぐに求まるのですが、一貫性を持って加減法で解きましょう。二番目の式を２倍して、連立方程式を以下に書き換えます。

$\begin{cases} x + 2y = 3 \\ 2x -2y = 12 \end{cases}$

その後、両辺和を取ることで

$3x = 15$

$⇔x = 5$

と求まります。消したい文字の係数を揃えることで、和あるいは差を取り文字を消去するという作戦です。

連立方程式の重要な性質

まず連立方程式の重要な性質を列挙しておきます。

求めたい文字が２つ有る場合には、方程式が２つあれば解くことが（大抵の場合は）可能です。

できない場合もあります。それは後に話します。また、加減法でやったように

連立方程式を足したり引いたりして方程式を新たに作っても構いません。

更に、こちらも加減法で見ましたが、

方程式の両辺を定数倍して方程式を作っても構いません。

加減法で見た連立方程式の解法には、上記の非常に重要な方程式に関する性質が全て詰まっています。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \end{cases}$

例えば、 $x$ を求めるときには、二番目の式を２倍しましたね。これによって新たな方程式を創りだしており、正確には以下のように記述されるところでしょう。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \\2x - 2y = 12 \end{cases}$

しかし、二番目の式と三番目の式は本来同じものであるため、わざわざ２つ目の式は書いても書かなくてもいいということです（しかしここでは明記しておきましょう）。さらに、一番目と三番目の式の和を取ることで、４つ目の式を作り出しました。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \\2x - 2y = 12 \\3x = 15 \end{cases}$

こうして作り出された４番目の式は、幸運にも求めたい $x$ だけを含む形になっているので、すぐに値を確定させることができたわけです。

いま、４つの式が羅列されていますが、ここに現れている式は、本質的には全て同じものであり、実質はもともとの２つの式の別の姿にすぎません。ですから、見かけ上方程式は増えていますが、人間に取って分かりやすく変形しただけのものです。

逆に、基本的ないくつかの変形というものを取り揃えていれば、それらを用いて、もともと与えられた連立方程式を、それらを組み合わせるだけで解くことができるようになります（その手段行列によって得られますが、その話はもっと後にしましょう）。

連立方程式が解けるか解けないか

「求めたい文字が２つ有る場合には、方程式が２つあれば解くことが（大抵の場合は）可能です」と述べました。

不定

しかし、連立方程式が以下の２つであった場合にはどうでしょうか。

$\begin{cases} x + 2y = 3 \\ 2x + 4y = 6 \end{cases}$

文字２つに式が２つです。これに対してウキウキしながら、代入法や加減法を使ってみても、「 $0=0$ 」という当たり前の式が作られるだけです。今はわざとわかりやすい例を示していますからそんなことをする人はいないでしょう。どうみても２つの式は同じものです。

先ほど述べたように、両辺定数倍をした方程式というのは実質同じものです。今回は一番目の式を２倍したものが２番目の式になっており、全く同じものなのです。

２つの文字に１つの式しか無いため、これを確定させることはできません。

確定はできませんが、この方程式を満たす $x,y$ の組を示すことはできます。

例えば $x=1,y=1$ は上記の式を満たしていますし、 $x = -1, 2$ も上記の式を満たしています。

$x = t$

という値だとすれば、

$\displaystyle y = \frac{1}{2}(3-t)$

と決定するのです。こんな $x=t$ という値を明確に決めなくても式変形すれば

$\displaystyle y = \frac{1}{2}(3-x)$

なのですから当たり前です。こういった場合には、連立方程式の解 $(x,y)$ は上記で表される直線上の全ての点になります。ただ１つには求まりません。連立方程式の解が１つに求まるのは実は非常に運が良いケースなのです。

このように解はあるんだけど、確定はしません。というタイプの連立方程式を「不定である」と言ったりします。

不能

次は以下のようなケースを考えましょう。

$\begin{cases} x + 2y = 3 \\ x - y = 6 \\ x + y = 100\end{cases}$

さて、この連立方程式は解けるでしょうか。

結論から言えば、この連立方程式は絶対に解けません。

１番目と２番目の式は最初の例で見た連立方程式と全く同じものです。ですから、上の２つの式だけを見れば答えは $x=5,y = -1$ となります。

しかし、この答えは３番目の式を満たしていません。では２番目の３番目だけを見てみるとどうでしょう。 $x = 106,y = -6$ になるのですが、これは１番目の式を満たしません。いかなる２つの連立方程式に着目しても、解は求まらないのです。

連立方程式を解くというのは、その与えられた数式を満たす都合の良い値を見つけましょうということです。２つの文字に、３つの数式を満たすように要請するのはあまりに酷だというわけです。

この手の連立方程式を「不能」と表現します。

クイズ

以下の連立方程式は、解が求まるか、不定か不能か判断してみてください。

1. $\begin{cases} x + 2y = 3 \\ x - y = 6 \\ -3x +3 y = -18\end{cases}$

2. $\begin{cases} x + 2y = 3 \\ x - y = 6 \\ 2x + y = 9\end{cases}$

正解は1.も2.も解が求まります。

「1.」は簡単ですね。3番目の式は2番目の式を $-3$ 倍した式です。実質2つの式です。

「2.」は別々の方程式が3つあるように見せかけて、実は実質2つです。3番目の方程式は、1番目の2番目の足して作ったものです（足したり引いたりした式は、元の式と同じだった）。

さて、「2.」のようなケースは実世界では頻繁に起こりえます。にも関わらず、これを判断するのは意外と難しいということを直感的に理解できたでしょうか（実はこれをシステマチックに判定するのが行列式の役割なのですが、これももっと後に話しましょう）。

連立方程式と機械学習

さて、連立方程式をおさらいしたところで、機械学習の話に入りましょう。

機械学習とはデータ ${\bf x} = (x_1,x_2,x_3,...,)$ に対して、 $t$ という値を出力する関数 $t = f({\bf x})$ を上手く作ることです。ここで、 $t$ が連続的な値ならば回帰（例えば株価のいくつかの指標から、特定の銘柄の株価を出力する）であり、離散的な値ならば分類（例えばいくつかの個人情報から、男女のいずれかを出力する）です。

機械学習を行う場面とは、実際にはデータが ${\bf x_i}$ がたくさんあり、それに対応する $t_i$ も沢山手元にあるという状況で、手元のデータで $t = f({\bf x})$ を上手く再現するような関数を作り上げ、新たなデータに対して予測を行いたいということになります。

とっても簡単な機械学習の例

データ ${\bf x} = (x_1,x_2)$ に対してその答え $t$ の組が2つ手元に有るとしましょう。

${\bf x^{(1)}} = (1, 2)$ 　に対して　 $t^{(1)} = 3$

${\bf x^{(2)}} = (1, -1)$ 　に対して　 $t^{(2)} = 6$

このデータに対して $t = f(x)$ となる関数を構築せよ。というのが機械学習に与えられる課題ということになります。

さて、ここでは、この機械学習のモデル $f({\bf x})$ にパラメータ $\bf w$ を持たせて、パラメータ $\bf w$ をいろいろ調整することで上手い関数を作りましょう。つまり

$t = f({\bf w,x})$

を、データを元につくり上げるということです。まだこのままでは何をすれば良いのかわからないので、もっと具体的に

$f({\bf w,x}) = w^Tx = w_1x_1 + w_2x_2$

というふうに表すことにしましょう。

パラメータを ${\bf w} = (w_1,w_2)$ という2つの値を持つものだと限定したわけです（これを線形モデルという。他にもいっぱいニューラルネットとかサポートベクトルマシンとかあるけど、結局はどういう関数だと見るかの違い）。

ひとまずこのモデルのもとで、手元のデータを $t = f({\bf w,x})$ 表してみることにしましょう。

$\begin{cases} t^{(1)} = w_1x^{(1)}_2 + w_2x^{(1)}_2 \\ t^{(2)} = w_1x^{(2)}_2 + w_2x^{(2)}_2 \end{cases}$

という関係性があるはずで、具体的に手元のデータ（以下のデータ）

${\bf x^{(1)}} = (1, 2)$ 　に対して　 $t^{(1)} = 3$

${\bf x^{(2)}} = (1, -1)$ 　に対して　 $t^{(2)} = 6$

を当てはめてやれば、

$\begin{cases} 3 = w_1 + 2w_2 \\ 6 = w_1 - w_2 \end{cases}$

の2つの関係式が出てきます。どこかで見た式ですね。先ほど解いた連立方程式そのものです。さて、この連立方程式の解を求めてみれば

$\begin{cases} w_1 = 5 \\ w_2 = -1 \end{cases}$

となります。なので私達が求めたかった関数というのは、

$f({\bf w,x}) = w^Tx = w_1x_1 + w_2x_2 = 5x_1 - x_2$

というものだったわけです。これに対して、新しいデータ $\bf x^{(new)} = (4,-3)$ みたいなものが得られたら、この関数は

$t^{(new)} = 5 \times 4 - 1 \times (-3) = 23$

と出力することになります。

手元にデータが有るときの学習というのは、 $w$ を求める連立方程式を解くことに相当しているのです。

現実の機械学習

現実の機械学習でも、上記で扱った線形モデルというのは馬鹿にできません。非常に広く使われており、これが正しく使いこなせるのであれば結構儲かります（使いこなすのは難しい）。

ただし、先ほど見たほど単純ではないのです。

解に関して

データ $\bf x^{(i)}$ が通常は大量にあります。そして、データの次元が先程は2次元でしたが、仮に100次元のデータだとしましょう。そうすれば線形モデルを以下のように構築できるはずです。

$f({\bf w,x}) = w_1x_1 + w_2x_2 + ... + w_{100} x_{100}$

さて、ここでは未知数の $w$ が１００個あります。そして連立方程式はデータの数だけ構築されることになります。一般的に機械学習では未知数と方程式の数は一致しません。

未知数に対して、データ数が足りない場合は、連立方程式は不定になります。解があるのですが１つに確定しないのです。手元のデータのことだけ考えるならば、これはむしろ都合か良さそうに見えますが、新しいデータを予測するときに使える解がどれなのかは誰にも分かりません。

そして未知数に対してデータ数が過剰であれば連立方程式は不能になります。もはや全てのデータを説明できるようなモデルは絶対に構築できないということです。こうなった場合は、手元のデータに対してすら何らかの妥協をしなければならないということです。

そして忘れてはいけません。そもそも与えられた連立方程式に、同じようなものが含まれているかもしれないのです。

通常の機械学習ではピタっと方程式を解くのを諦め、そこそこ関係性を上手く表すことができれば良いだろう、という方針で行くことになります。

つまり、本当は $t = f({\bf w,x})$ がほしいんだけど、それは難しいから代わりに $y = f({\bf w,x})$ っていうものを考えて、 $t,y$ がどれくらい離れてしまっているかを評価しようという考えです。 $t=y$ と完全に一致すれば完璧に連立方程式が解けたということです（がもちろん、それは無理）。