抑えておきたい評価指標「正解率」「精度」「再現率」

f:id:s0sem0y:20170505205306p:plain

評価の指標を１つじゃない
- はじめに
- 正解率
- 再現率
- 精度
- 分割表
評価の方法
参考

評価の指標を１つじゃない

はじめに

機械学習による分類を行った場合に、その手法が従来より優れているか否かを判断したいという場面に遭遇します。

その際、分類を適切にできた数の割合である「正解率」に着目したくなりますが、実は評価の方法はコレ以外にも複数存在します。

正解率

正解率は、テストデータが $n$ 個ある際に、予測結果が正解であった数を $a$ として

$\frac{a}{n}$

で表現されます。

最も直感的で分かりやすい評価指標です。

再現率

$n$ クラス分類でクラスが $C_1,C_2,...,C_m$ の $m$ 個があったとしましょう。

「再現率」という場合には、「クラス $C_1$ に対する精度」という具合に、あるクラスについて評価をすることになります。

クラス $C_1$ のテストデータが $n_1$ 個あるとしましょう。理想的には学習によって得られた分類器が、 $n_1$ 個のデータ全てを $C_1$ と判定して欲しいところですが、実際にはそうはいきません。

ここで $C_1$ のテストデータ $n_1$ 個のうち $x$ 個が正しく分類され、 $y$ 個が間違って他のクラスに分類されたとしましょう（他のクラスのどれであるかは問わない）。このとき、 $C_1$ に対する再現率は

$\frac{x}{x + y}=\frac{x}{n_1}$

というように定義されます。

本来すべて分類が上手くいけば $x+y=n_1$ 個が $C_1$ と分類されるべきです。実際には $x$ 個しか分類されなかった場合に、その割合が再現率となります。

再現率と言った時には、あるクラスに着目しており、そのクラスに属するデータのみで議論をしているということに注意してください。端的に言えば再現率は「クラス $C_i$ のすべてデータに対して実際にクラス $C_i$ と判断できる割合」です。

同様に、クラス $C_i$ について精度を考えたければ、クラス $C_i$ に属する $n_i$ 個のデータのうち何個が正しく $C_i$ と判断されたかの割合を考えればいいです。

精度

$n$ クラス分類でクラスが $C_1,C_2,...,C_m$ の $m$ 個があったとしましょう。

こちらも $C_1$ に対する精度という具合に扱います。

分類器が $C_1$ に属する $w$ 個のデータを正しく $C_1$ に分類したとしましょう。しかし場合によっては、 $C_1$ に属していない $z$ 個のデータも $C_1$ と分類してしまうこともあるでしょう。

このとき、 $C_1$ の精度とは

$\frac{w}{w+z}$

と定義されます。

再現率のときとは違い、分母の $z$ 個のデータは $C_1$ に属していないデータです。

精度の場合は着目しているクラス以外のデータも指標に混在していることに注意してください。端的に言えば精度とは、「クラス $C_i$ と判断したすべてのデータのうち、実際に $C_i$ であった割合」です。

分割表

再現率と精度を計算する際に、あるクラス $C_i$ に対する分割表を使うと便利です。

分割表とは

$C_i$ に属するデータを $C_i$ と分類した数 $a_i$

$C_i$ に属さないデータを $C_i$ と分類した数 $b_i$

$C_i$ に属するデータを $C_i$ 以外に分類した数 $c_i$

$C_i$ に属さないデータを $C_i$ 以外に分類した数 $d_i$

を以下の表形式にまとめたものです。

$C_i$ の分割表	$C_i$ に属する	$C_i$ に属さない
$C_i$ と分類	$a_i$	$b_i$
$C_i$ 以外に分類	$c_i$	$d_i$

$C_i$ の再現率はこの表に従えば

$\frac{a_i}{a_i+c_i}$

と表記されることとなります。

$C_i$ の精度はこの表に従えば

$\frac{a_i}{a_i+b_i}$

と表記されることになります。

評価の方法

精度と再現率のトレードオフ

再現率は「クラス $C_i$ のすべてデータに対して実際にクラス $C_i$ と判断できる割合」で、精度は「クラス $C_i$ と判断したすべてのデータのうち、実際に $C_i$ であった割合」でした。

もしも分類器が、少しでも $C_i$ っぽいなと感じれば $C_i$ と判定してしまうようになっていれば、再現率は向上します。一方で、 $C_i$ でないものも混じってくるため精度は落ちます。

逆に、かなり $C_i$ である確信を持った時のみ $C_i$ と判定するようにした場合は、 $C_i$ に属するはずのデータも弾く場合があるため再現率は低下する一方で、 $C_i$ でないようなデータをかなりの確率で弾けるために精度は向上します。

F値

分類器は再現率と精度に対してトレードオフを持っているため、これらを統合して評価できる指標が必要になります。その指標の１つがF値です。

F値は、再現率を $Rec$ 、精度を $Pre$ とした場合に

$\frac{2Rec・Pre}{Rec+Pre}$

で定義されます（調和平均）。F値を大きくするような分類器を良いものと判断します。

break-even

精度と再現率が等しくなるような点を「break-even」とよびます。

精度と再現率について $x-y$ 座標にプロットしたデータを取り、 $y=x$ との交点を求めますが、プロットした点が必ずしも $y=x$ 上にあるとは限らないため、通常は近い2点を線形補間して求めます。

注意点

精度や再現率、F値はいずれにしても「とあるクラス $C_i$ 」に着目しているものです。

精度も再現率も、データが $C_i$ に属するか否かの二値を評価しているのであって、 $C_i$ に属するはずが $C_k$ に分類しているとか、 $C_j$ のデータを $C_i$ と判定しているとか、細かいことまでは評価していません。あるクラスに対して正しいか否かであり、どのような間違え方をしているかまでは評価できないということです。

参考

言語処理のための機械学習入門 (自然言語処理シリーズ)

作者: 高村大也,奥村学
出版社/メーカー: コロナ社
発売日: 2010/07
メディア: 単行本
購入: 13人クリック: 235回
この商品を含むブログ (42件) を見る

HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学、量子計算などをテーマに扱っていきます