時系列データ：隠れマルコフモデルの基礎と、リカレントネットの台等

はじめに
隠れマルコフモデル
- 確率分布として考える
- 隠れマルコフモデルで何ができるか
リカレントネット

はじめに

隠れマルコフモデルでは、時系列的に変動するデータを確率的なモデルで表現します。

通常の機械学習手法（例えばサポートベクターマシン）などでは、データは各時刻毎に独立したデータであると仮定しており、そのデータの順番に意味がないという前提を持っています。（厳密には更に強く仮定をし、各データ点はある一つの確率分布から生起しているとし、各データ点同士は独立であるとする。これを独立同分布に従うデータと言う。）

一方で隠れマルコフモデルでは、データの変動（隠れマルコフモデルでは遷移と呼ぶ）が確率的に起こっているとしてその部分をモデル化します。

ここまでは単なる「隠れていないマルコフモデル」です。

隠れマルコフモデルでは、時系列の観測データに対して、観測はできないが潜在的なデータの変動が起きているとし、その潜在的なデータに応じて出力データ（観測データ）が得られるという二段構えのモデルになっています。

この観測できない潜在的（観測できる時刻とできない時刻が混在していても良い）なデータの方をマルコフモデルで記述しているので「隠れマルコフモデル」と言います。

隠れマルコフモデルは音声認識や自然言語処理で活躍していたものです。

現在はリカレントネットワーク、Long Short-Term Memory(LSTM)に置き代わっている状況です。

隠れマルコフモデル

確率分布として考える

隠れていないマルコフモデル

マルコフモデルというのは、1つ前の時刻のデータに依存して確率的にデータが変動するというモデルです。（実際はこれを1次マルコフモデルと良い、n次マルコフモデルではn個前までの時刻のデータ全てに依存して現在のデータが決まる）

数式で書くと、時刻 $t$ でのデータ点 $x_t$ は

$x_t 〜 p(x_t|x_{t-1})$

と表します。 $〜$ の記号は、右辺の確率分布から左辺の変数が生起するという意味です。

f:id:s0sem0y:20170114225430p:plain

例えば、 $x_{t-1}$ は昨日の晩御飯で、 $x_{t}$ は今日の晩御飯という形です。昨日は牛丼だったので、今日は麺類かもしれません。しかし、麺類→麺類→麺類→麺類なんていう形式は考えにくいでしょう。いや、ラーメンが大好きな人はそうかもしれません。そうであれば、マルコフモデルで麺類が続く日が多いことをモデル化すればいいのです。そのような場合

$p(x_t=麺類|x_{t-1}=麺類)=0.9$

のような形でモデル化されることになり、この人は前の日が麺類だったら今日も9割麺類を食べると表していることになります。

1個前が○○だったら、次は☓☓になるということを確率で表現するのがマルコフモデルです。

このようなモデル化は、その人の食生活のデータを大量に有していれば可能でしょう。

隠れマルコフモデル

ここに、隠れ変数（潜在変数とも言う） $z_t$ を導入します。

隠れ変数は観測はできませんが、仮定したモデルに内在する変数です。

$z_t 〜 p(z_t|z_{t-1})$

であり、先ほど説明したマルコフモデルそのものです。

f:id:s0sem0y:20170114225522p:plain

しかし重要なのは、この隠れ変数 $z_t$ は直接観測することができません。データとして手元には無いのです。代わりに、隠れ変数 $z_t$ に応じて何らかの観測 $y_t$ が得られるとしましょう。つまり以下のようにモデル化します。

$z_t 〜 p(z_t|z_{t-1})$

$y_t 〜 p(y_t|z_t)$

2つ目の式は、単純に時刻 $t$ の隠れ変数 $z_t$ に応じて $y_t$ の振る舞いが変わることを示しています。観測できるのは $y_t$ のみであるときに、 $y_t$ に背景にある $z_t$ と、その（隠れている）マルコフモデルを記述するのが隠れマルコフモデルです。

f:id:s0sem0y:20170114225805p:plain

先程の例に習って、この隠れマルコフモデルの概要を掴みましょう。

隠れ変数 $z_t$ は直接観測することはできませんが、日にち $t$ での朝御飯としましょう。私たちはある有名人の朝の食生活をモデル化したいと思っており、 $p(z_t|z_{t-1})$ のマルコフモデルを構築したいと思っていますが、彼のプライベートはとても謎に包まれています。

ただし、毎日の仕事での彼の表情 $y_t$ がその日の朝御飯 $z_t$ に依存するとします。

つまり、 $y_t〜p(y_t|z_t)$ という依存関係を持っているということです。

我々が知りたいのは、彼の食生活 $z_t 〜 p(z_t|z_{t-1})$ の方ですが、観測できるのがその日の表情 $y_t 〜 p(y_t|z_t)$ だけである場合に、なんとか観測できない食生活の方も含めたモデルを得るのが隠れマルコフモデルというわけです。

いま $z_t$ は観測できないと言いましたが、観測できる時があっても構いません。

特に最初の $z_1$ を決めないことには始まりませんから、適当に仮定するか、観測できた点から隠れマルコフモデルを開始します。

f:id:s0sem0y:20170114230304p:plain

隠れマルコフモデルの学習

隠れマルコフモデルを見ていると、とても観測データだけから隠れているデータのマルコフモデルを構成できるようには思えません。しかし、隠れマルコフモデルでは、観測データも隠れているデータも離散変数として扱います。

隠れ変数が食事ならば、「麺類、米、パン」の三種類にするというような形です。（つまり株価の連続的な値などは扱えません）

このような場合は、隠れ変数 $z_t$ が麺類になるか米になるかパンになるのかの確率を、3次元のベクトル $\bf z_t$ で表し、それぞれの成分を、それぞれ三種類の食事を取る確率とします。

$\bf z_t = (0.2,0.5,0.3)^T$

と言った具合です。そして、次の日の食事 $z_{t+1}$ を知りたい場合には

$\bf z_{t+1}=Az_t$

と言った具合に、行列で変換することによって、 $z_{t+1}$ の成分の中身が得られ、その日の食事の確率を知ることができるという仕組みです。

この仕組みによって、パラメータは少数に収まります。（高々行列の成分の数だけ）

同じように観測データ $y_t$ も離散値であり、とりうる値のパターンの次元を持つベクトル $\bf y_t$ を準備して、それぞれの成分に確率を入れます。

そして、 $\bf y_t=Bz_t$ というモデルを考えることで、パラメータの数が少数で済むことになります。

具体的なモデルは

$\bf z_t=Az_{t-1}$

$\bf y_t = Bz_t$

となり、確率分布で表されている頃に比べ、だいぶ目処が立ったように見えますね。

詳細は避けますが、学習はバウム-ウェルチのアルゴリズムによって行われます。

これはEMアルゴリズムの一種であり、EMアルゴリズムは観測できない変数がある場合の学習に使う一般的な学習手法です。

また上記の連立方程式は状態空間モデルと呼ばれるものの一種です。同じ構造でも、値が連続値である場合にはEMアルゴリズムでは解けなくなります。

隠れマルコフモデルでの予測

$\bf z_t=Az_{t-1}$

$\bf y_t = Bz_t$

の $\bf A,B$ が学習により求まったとしましょう。

そうだとしても、やはり我々が手に入れられるのは観測データ $y_t$ だけです。

従って、手元にある新しい $y_t$ のデータ列から、やはり本当に知りたい $z_t$ がなんだったのかを上記の式から逆算する必要が出てきます。

$y_t$ の時系列を実現するような $z_t$ の時系列の中で最も確率の大きなものを選べばいいのですが、これを総当りで計算して比較するのは時間がかかります。

その効率的な解法がビタビアルゴリズムと呼ばれるもので、動的計画法の一種です。

隠れマルコフモデルで何ができるか

結局、隠れマルコフモデルは、第 $n$ 成分に第 $n$ パターンが生起する確率を入れたベクトル $\bf z_t$ と $\bf y_t$ を準備して以下でモデル化するものでした。

$\bf z_t=Az_{t-1}$

$\bf y_t = Bz_t$

$y_t$ が観測データであり、 $z_t$ が隠れデータである場合にどのようなことができるでしょうか。

例えば、観測 $y_t$ が音波であり、ある音波は「あ」とか「か」とか「に」とかの音素を表現しているとします。しかし、人間の使う言語である以上、「あかいろ」という音の並びはあっても、「あかきふ」などという音の並びは無いはずです（あるいは確率が非常に低い）。

音素 $z_t$ の並び方にはルールがあり $z_t$ は $z_{t-1}$ に依存し、ある音素 $z_t$ のときには音波 $y_t$ を観測できるということです。

これならば、隠れ変数を音素として、観測された音波を使って、その確率を成分としたベクトルを用いて

$\bf z_t=Az_{t-1}$

$\bf y_t = Bz_t$

とモデル化できそうです。音波は通常単なる波形ではなくスペクトログラムにしたりなどの工夫が施されます。

リカレントネット

リカレントネットは、リカレントニューラルネット（RNN）とも呼ばれ、または現在流行中のLong Short-Term Memory(LSTM)の名で呼ばれることも多いです。

リカレントネットの構造

f:id:s0sem0y:20170114233157p:plain

出力が $\bf y$ で、入力が $\bf x$ 、中間層の変数を $\bf z$ だと思えば

${\bf z_t} = f({\bf z_{t-1}})+g(\bf {x_t})$

${\bf y_t} =h(\bf {z_t})$

という具合になっているのが分かるでしょうか。これ状態空間表現にかなり似ていますね。

LSTMだとかGRUだとかは、上記の関数 $f,g,h$ を工夫してみたり、新たな変数を内部に導入したりしているものです。まずは本質的な部分を知る上では普通のリカレントネットから理解するのが大事でしょう。

時間方向への展開

時間方向で展開すれば以下のような形になります。

実際にはアルゴリズムの都合上 $\bf z_1$ の前に初期値 $\bf z_0$ を与える必要はありますが、まあそれは本質的なことではないでしょう。

f:id:s0sem0y:20170114233610p:plain

リカレントネットでは、変数は離散値でも連続値でも構いませんし、出力 $\bf y_t$ が再びリカレントネットへの入力になっていても構いません（すなわち多層のリカレントネット）。

また、 $\bf x_t$ が別のニューラルネットの出力によって構成されていてもよく（すなわちリカレントネットの手前に普通のニューラルネットなどがある状態）、このニューラルネットの柔軟性によって、ほとんどの伝統的な手法が取って代わられています。

また、上記のように時間方向に展開するとループ構造が消えるため、バックプロパゲーションを行うことができ、最適化の方法を新たに考える必要もありません。

深層学習について

音声認識や自然言語処理にRNNがなぜ有効なのかは、伝統的な手法がある程度うまくいっていた背景を見れば、その拡張に相当するということを認識することで理解することができます。

それは画像認識なども然りです。

畳み込みニューラルネットの畳み込み層に相当する操作は、伝統的に人手で行われてきたものです。深層学習はどこからともなく現れたわけではなく、伝統的な手法とかぶっている部分もあります。今はいきなり深層学習から入る人が多いかと思いますが、たまには伝統的な手法を省みることもしてみてください。

記事

s0sem0y.hatenablog.com

HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学、量子計算などをテーマに扱っていきます

時系列データ：隠れマルコフモデルの基礎と、リカレントネットの台等

はじめに

隠れマルコフモデル

確率分布として考える

隠れていないマルコフモデル

隠れマルコフモデル

隠れマルコフモデルの学習

隠れマルコフモデルでの予測

隠れマルコフモデルで何ができるか

リカレントネット

リカレントネットの構造

時間方向への展開

深層学習について

記事