分類問題における新たな活性化関数「Gumbel-Softmax」

メモ用記事

論文は以下にあります。

中間層での活性化関数は、通常はシグモイド関数やReLUなどが用いられます。

$Sigmoid(x)=\frac{1}{1+\exp (-x)}$

$ReLU(x)=\max(0,x)$

中間層での活性化関数は基本的に好きなものを用いればよく、データをよく表現できれば何でも良いです。言い換えれば、これが良いというものを決めることは難しいです。

通常はReLUが高精度を達成できると言われています（暗にスパース性を持たせることができる）。

出力層での活性化関数 $f$ は、問題に応じてある程度決められています。

回帰ならば恒等写像

$f(x) = x$

1ユニットを用いた二値分類ならばシグモイド関数

$f(x) = Sigmoid(x)$

分類クラスの数と同じ数のユニットを用いた多値分類ならばソフトマックス関数

$f(x_i) = \frac{\exp(x_i)}{\sum_j \exp(x_j)}$

これらは学習の際に定める損失関数と重要な関係を持っており、回帰では二乗誤差、分類では交差エントロピーが用いられてきました。今回新しい論文では、分類における活性化関数として「Gumbel-Softmax」なる新しい活性化関数が提案されたのです。

どうやら出力層を新しいものに変えるだけで精度の向上が見られるらしい。

まだ論文をちゃんと読んでいないのですが、試せる環境の人は試してみてください。

HELLO CYBERNETICS