"機械学習","信号解析","ディープラーニング"の勉強

HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学などをテーマに扱っていきます

【書評】機械学習 データを読み解くアルゴリズム技法

 

 

 

はじめに

今回紹介するのは以下の書籍。

 

機械学習 ─データを読み解くアルゴリズムの技法─

機械学習 ─データを読み解くアルゴリズムの技法─

  • 作者: ピーターフラッハ,Peter Flach,竹村彰通,田中研太郎,小林景,兵頭昌,片山翔太,山本倫生,吉田拓真,林賢一,松井秀俊,小泉和之,永井勇
  • 出版社/メーカー: 朝倉書店
  • 発売日: 2017/04/10
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (1件) を見る
 

 

原著は2012年に発売された以下の書籍です。

 

Machine Learning: The Art and Science of Algorithms that Make Sense of Data

Machine Learning: The Art and Science of Algorithms that Make Sense of Data

 

 

 

本書の特徴と結論

特徴

これから機械学習を学ぶ人にとって良い本

 

本書の内容はなるべく計算式など、難しく感じてしまう部分を省いて説明がなされています。分野の都合上、理論的なことをキッチリ学ぼうと思ったら数式を避けることはできませんが、最小限の数式を使いつつ「いい加減な説明」になっているわけではありません。機械学習を学び始める第一歩としては適当な量の数式であると感じました。

 

前提として線形代数の基本的な計算が分かる必要はあります。

 

幅広い分野をカバー

 

機械学習というのは本来は幅広い言葉です(近年はニューラルネットワークがその代表格として目立っている)。本書では「幾何モデル」、「確率モデル」、「論理モデル」という名で機械学習のモデルを分けて説明しています(突き詰めれば、「幾何モデルのある手法が、確率モデルの近似である」などの事実が浮かび上がってくる場合がありますが、機械学習モデルが何を出力するのかということに着目して、機械学習手法の多様性を強調する意味で分けて説明している)。

 

ルールベースのモデルなども解説がなされており、機械学習のかなりの範囲の基本を抑えることができます。

 

プログラミングをしながら読むタイプの本ではない

 

疑似コードは載せられていますが、機械学習のアルゴリズムを理解することに重点が置かれているため、文章での理屈の説明がかなり多めです。パッと試して、パッと確認したい人にとっては不向きの本かもしれません(しかし、遅かれ早かれ、理屈は何らかの形で理解する必要がある)。

 

従って、むしろプログラムをなんとなく動かしてきたという人が、その理屈を理解するために読むと良いように思います。

 

 

結論

数式をなるべく省いて説明するタイプの本では知る限り最も硬派です。

いい加減なことを言っているのではなく、なるべくわかりやすく解説するための手段としてこのような形式を取っていることがよくわかります。

 

 

本書は数式を最小限に抑えたうえで、機械学習の幅広い範囲の理屈を理解するために適した本です。プログラムをなんとなく動かしてきた人や、これから機械学習を学んでいこうという人におススメできます。文章による説明が丁寧ですので、機械学習それ自体を学ぶのが初めてだとしても大丈夫でしょう。

特に特定のタスク領域に絞った解説が行われているわけではないため、純粋に機械学習という分野を幅広く学ぶことに適しています。

 

 

逆に全体像はある程度知っており、ある特定の手法について詳しく学びたい場合や、ある特定のタスク(例えば画像処理だとか)に興味がある場合はそれぞれの的を絞った本を手に取った方がいいでしょう。

 

 

 

構成内容

  • 機械学習の三大要素
    「1.タスク」、「2.モデル」、「3.特徴量」について説明。

  • 二値分類および関連するタスク
    分類の性能評価やクラス確率の推定に関して説明。

  • 二値分類を超えて
    多クラス分類や回帰の問題について説明。
    クラスタリングについてもここで説明がされます。

  • 概念学習
    最近の機械学習手法にとって最もなじみの薄い分野かもしれません。訓練データから論理表現を構築するための手法です。

  • 木モデル
    決定木などの基本的な木モデルについて説明(ランダムフォレストなどは別の章で出てきます)。

  • ルールモデル
    決定木が相互排他的なルールを作ることに対し、ルールの重複を扱うことのできるルールモデルについて説明。多分近年では一番馴染みの薄いモデル。

  • 線形モデル
    近年の機械学習モデルの基礎となる分野。いわゆる識別モデル(識別関数)を取り扱っています。データがプロットされた空間(インスタンス空間)に分類面を配置するパラメトリックな関数として説明がされます。

  • 距離ベースのモデル
    最近傍法やK-meansなどの距離を指標にしたモデルの説明です。

  • 確率モデル
    確率分布に基づいたモデルの説明です(さらっと線形モデルや決定木などの識別モデルや、生成モデルについても触れられています)。

  • 特徴量
    「特徴量」を機械学習の三大要素の1つとして考えているため、特徴量の説明に一章を割いています。「特徴量はデータという宇宙を観測する望遠鏡である」というまとめの言葉が印象的です。

  • モデルアンサンブル
    バギングとブースティングを題材に、モデルをアンサンブルする基本的な考え方を説明。

  • 機械学習実験
    測定対象、測定方法、結果の解釈方法について解説。いわゆる学習の評価の仕方についての説明になります。

  • エピローグ
    本を読み終わった人への、今後の学習指針を示すため手法や分野間の繋がりを簡単に紹介しています。

 

 

計算をなるべく省いた書籍ではあるものの、各手法の共通点や差異をしっかり説明しながら進んでいくため、決して到達点の低い書籍ではなく、ココから更に個々の進んだ勉強に繋げることができると思います。