「データサイエンスのオススメ本 その⑤」

フリーランスのデータサイエンティスト日記

 

7回目のエントリーです。今回からは一般化線形モデル(以下GLM)の基礎まで学んだ方を想定して、後続のテキストや機械学習テキストを紹介していきたいと思います。ここらへんまで来るといろいろな手法がいろいろな文脈で語られることが多いのでなかなか整理も難しいのですが、タスクベースで見ながらなるべく迷わないテキストセレクションを行いたいです。

 

とくに、GLM辺りまで学んだ後はやっぱり機械学習(以下ML)だよねーと、いわゆるPRML(『パターン認識機械学習』)とか『統計的学習の基礎』に進んだ後、即座に玉砕というストーリーを見て来たので、まずはPRMLだけじゃない(もちろんゴールでもない)という当然の認識を強調した上で、【間を埋める】ことも意識しながら書きたいと思います。あと、MLだDLだといいつつ、統計モデルや数理統計の理論に魅了される人も結構いるのでは推測しているので、数理統計のその後、についても充実させたいです。

 

また、毎回のエントリーでくどく言っているのですが、本当に焦ると良いことがないのでなるべく末永く使える基礎力の強化を主眼としてテキスト選びをしたいと思います。レベル感は一応GLMまで学んだ方が対象となるのでやや高めになっていきますが、もっと基礎から学びたいという方は過去エントリーを参照してみてください。

 

★★★ 

 

概論については2回目のエントリーを

datascientist.hatenadiary.com

データサイエンスな人って普段どんなことしてるの?とかどんなこと考えてるの?という疑問に対してヒントになるテキストを紹介しています。

 

統計学の基礎については3回目のエントリーを

datascientist.hatenadiary.com

データサイエンスをこれからはじめる方向けに、入門書と数学の学び直し本を少し紹介しています。あと一応Excel本と関連する資格のまとめも。

 

 

多変量解析の基礎については4回目のエントリーを

datascientist.hatenadiary.com

多変量解析の入門以後のテキストについて紹介しています。動機付けのための歴史関連の本もいくつか。

 

 

今(というのは2018年の1月頃)中規模書店で手に入って気軽に中身を確認しやすいテキストについては5回目のエントリーをご参照ください。

datascientist.hatenadiary.com

まずは本屋さんで情報収集したい、という方向けに ビル型の大規模書店にいかなくても見つかりそうなラインナップを紹介しました。啓蒙レベルから初・中級程度の書き手様の様相が分かるかと思います。

 

★★★

 

テキスト読む順番とかを有向グラフでリコメンドしてくれるWEBサイトとかかってないのでしょうか「この本を読んだ人はその前にこんな本を読んでいます」とか「この本を読んだ人はその後にこんな本を読んでいます」とか。ないか

 

★★★

 

ここからテキスト紹介です。今回はいくつかのカテゴリに分けています。振り返らずにガーと書いていき、また時間があるときに目次付けてまとめたい。のですが、今は自分の継続をメインにしてやや荒削りのままアップさせてください。ほんと毎日Blog更新している人は何者なのだろう…凄すぎ。

 

【オススメ本 ~ 数理統計のまとめ本とレベルアップ本~ 】

既出ですが東大本3冊をまずは読み返しましょう。

  

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

 
自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

 
人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

 

なんやかんや言って東大本は本当にありがたいです。末永く座右の書として役立ってくれそうな感じがします。難しいとか、分かりにくいとか感じる方も、参照用で良いのでゲットしておくことがオススメします。初学者がはじめて読んだ時の評判の悪さはアルアルなのであまり気にせず、歳月を得ても生き残ってきたという市場の評価を重視してOKだと思います。

 

僕の拙い経験だと例えばPRMLと同じように、東大本についても知ってはいる/持ってはいるけれど実際にちゃんと読んでいる人は本当に少ないです。ビジネス書的に少し大げさにアジってしまえば、この3冊をちゃんと読んだだけである程度差別化できると思います(悲しいけど現状はまだまだそのくらいだと思います。)

 

あと東京大学出版の本は(統計本に限らず)全般的に閉じている良書が多いです。いちいち他のテキスト参照しなくても写経(という程数式の多い本ではないのですが)でも何でもすれば、必ず読みこなせます。逆に言うと東大本の赤(1冊目)が読めない場合は、数学的基礎力をもう少し固めた方が良いのですが、その程度の基礎力はこれからデータサイエンスのどのような領域に進もうと、あるいは少しでも数学に関連するどのようなことを行おうと絶対に持っていた方が良いのでトレーニングの投資対効果は抜群です。効果がそれほど明確な投資対象があるなんてすごくラッキーなことなので、迷わず高校数学の学び直しをしておくと良いと思います。

 

続けます。

 

東大本はさらっと一読した。その上で数理的なテクニックを少し引き上げたいという方に是非オススメなのが、Raoの

 

Linear Statistical Inference and its Applications

 

Linear Statistical Inference and its Applications (Wiley Series in Probability and Statistics)

Linear Statistical Inference and its Applications (Wiley Series in Probability and Statistics)

 

 このテキストは本当に良書です。使い所を理解しながら特性関数や二次形式の扱いに慣れることができます。ルベーグ積分とか特性関数(積率母関数)の扱いとか非心分布とか、確率分布曼荼羅のような様々な確率分布の相互関連とかを曖昧なままにしてきた方も本書で見通しが良くなるはずです。ソフトウェアや言語を使って解析はじめてしまうと(論文フォローしている人でもなければ)あびるように数式触れる機会がなかなか持てないと思うので、こういう数理統計本を常に何冊かカバンに入れておくとなまらずに良いですよ。

 

邦書もあるみたいです。ちょっと高いですが 

 

統計的推測とその応用

統計的推測とその応用

統計的推測とその応用

  • 作者: C.ラダクリシュナラオ,Cayampudi Radhakrishna Rao,奥野忠一
  • 出版社/メーカー: 東京図書
  • 発売日: 1992/01/01
  • メディア: 単行本
  • この商品を含むブログを見る
 

 

確率分布曼荼羅はコチラ

www.math.wm.edu

知識の整理に便利です! 

 

Raoほど難しくはない(数理的ではない)けれど、様々な話題を網羅的に扱っていて数理統計の整理にピッタリなのが

 

数理統計学ハンドブック 

数理統計学ハンドブック

数理統計学ハンドブック

 

内容は少し古いかも。だけど、つまみ食い的に数理統計を学んできた人が高速で読めばかなりの知識整理ができると思います。

 

ちなみに朝倉のハンドブックシリーズ、たぶん高いので敬遠されがちだと思うのですが、意外と良書多いです。

http://www.asakura.co.jp/G_11_2.php

 

大著や洋書はちょっという方が、行列表現に慣れ1歩数学的知識を引き上げるには

 

統計学の基礎Ⅰ 

統計学の基礎 I?線形モデルからの出発 (統計科学のフロンティア)

統計学の基礎 I?線形モデルからの出発 (統計科学のフロンティア)

 

 無駄のない記述がすごく気持ちいいです。前段は竹村先生による回帰モデルを中心とした解説です(東大本の青の二章を詳しくしたイメージです。)不変測度の概念がいかに応用上便利かが良く分かります。後半は谷口先生による時系列モデルの解説、こちらも時系列モデルを齧ったことがある方が、レベルアップをするきっかけとして丁度良い刺激が得られると思います。紹介は省力しますが<統計科学のフロンティア>はシリーズとしてもオススメ!

 

竹村先生と言えば、かなり前の本ですが、

多変量推測統計の基礎 (応用統計数学シリーズ)

多変量推測統計の基礎 (応用統計数学シリーズ)

 

も数学に自信がある人限定でかなりオススメです。(すごく稀だと思うのですが…)ちゃんと測度論で進めたいという人、例えばウィシャート分布ってどうやって導出するの?という方は是非。

 

ちなみにルベーグ積分ちゃんと学びたいという方は 

 

テレンス・タオ ルベーグ積分

テレンス・タオ ルベーグ積分入門

テレンス・タオ ルベーグ積分入門

 

  

伊藤先生のルベーグ積分入門 

ルベーグ積分入門(新装版) (数学選書)

ルベーグ積分入門(新装版) (数学選書)

 

 古いかな。すいません、最近のルベーグ本は全然追いかけていません。ただ不足するということはないはず。

  

流れに乗って(測度論的)確率論までいっきに攻めてしまいたいという方は、

 

舟木先生の『確率論』 

確率論 講座数学の考え方 (20)

確率論 講座数学の考え方 (20)

 

が圧倒的にオススメ。こういう本があって良かったと思えます。測度論の入門書を読んだ後に(記憶が曖昧になる前に)即座にに読むと良いと思います。

 

あとは隠れた名著として

 

小谷『測度と確率』 

OD>測度と確率 (岩波オンデマンドブックス)

OD>測度と確率 (岩波オンデマンドブックス)

 

  もオススメ。数学的記述の中で確率過程の基礎までを厳密に学べます。ハウスドルフ測度の話とか、他ではあんまり書いていない話題も結構あって数学好きには楽しめるはず。舟木先生の本より若干難しいです。位相の知識が曖昧だと厳しいかも。

 

★★★

 

業務で直面している内容から少しだけ外れた理論書(数学書)って何とも言えない爽やかな時間を与えてくれますよね。少しだけ外れた内容だから結局あとになってどこかで業務に繋がることも多いしお得なことしか思い浮かびません。数学書効用高いです、本当に。

 

★★★ 

 

さて数学方面に伸び過ぎてしまいました。GLMまでいったら次はBayesモデルだ!という方も多いはず。Bayesモデル(とくに階層Bayesモデル)の分かりやすい導入と言えば、

 

岩波データサイエンス Vlo1.

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

 

 が絶対オススメ。「そもそも階層的構造にするのはなぜ?」に対してのスッキリした回答がコンパクトな論説から得られます。岩波のデータサイエンスも良いシリーズ過ぎて全部オススメ、小冊子な外見に惑わされずに覗いてみてください。

 

その後はあまりにも有名な久保先生のテキスト

 

データ 解析のための統計モデリング入門

を読まれると良いと思います。「その後は」と書いたのですがGLMまでの知識がある方であればすぐ後読めます。東大本の赤本後でも。事例は生物よりですが、階層Bayesに限らず統計モデルの組み立て方がスッキリ理解できるかと。

 

階層Bayesと言えばMCMC抜きには語れませんが、MCMCアルゴリズムについてだけでなく、数理的基礎についてどこかでしっかり学びといと思ったら、

 

計算統計2 マルコフ連鎖モンテカルロ法とその周辺

計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)

計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)

 

若干粘り強く数式に関わる必要があります。

  

Stanを用いた練習なら豊田先生の

 

基礎からのベイズ統計学

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

 

問題がちょっと面白い(?)です。豊田先生はBayes本を続々と出されていますね。語り口の個性が強いと思うのですが、合う人は一貫した著者のもとでいろいろ学べてすごく良いと思います。

 

 Bayes統計をしっかり理解したい方には、WAICの渡辺澄夫先生の教科書

ベイズ統計の理論と方法

ベイズ統計の理論と方法

ベイズ統計の理論と方法

 

 下手なBayes本を10冊読むよりは本書をじっくり読んだ方が何十倍も効用高いはずです。Bayes統計がなんとなくずっとしっくり来てない、という方(でかつ、その違和感を解消したい方)全員にオススメ!

 

なんかここまで理論書の比重が多くなってしまいました。もちろん全部読む必要はないと思います。スッキリ感は大切ですが、何でもかんでも知りたがるよりは、良いバランスで応用機会を作ったり、特定の文脈のテキストを読んだ方が良いと思います。

 

★★★

 

ということで、ここから少し脱線

 

【オススメ本 ~基礎を理解した人が飛び立てる周辺領域や東大本の補足~ 】

 

数理統計方面(数学的道具)のレベルアップではなく、運用としてのレベルアップを図りたい方、周辺分野のテキストを読んで領域拡大を目指したい方向けにオススメのテキストをいくつか紹介したいと思います。

 

まずは数理統計の運用本。例えばASAのp値批判がピンと来ていない、あるいは効果量という概念やサンプルサイズの見積について曖昧な部分が多いという方へ。

 

R本ですが、豊田先生の 検定力分析

 

検定力分析入門

検定力分析入門

 

 

がオススメ。検定力分析の実践が分かります。あと、社会科学系・人文科学系のテキストを読むのが楽しくなるかもしれません。ただしこちらはまさに運用本で、理論詳細を扱ったテキストではないです。Rの入門書についてはいつか別エントリーで。

 

サンプルサイズについてより詳しくは永田先生の 

サンプルサイズの決め方

サンプルサイズの決め方 (統計ライブラリー)

サンプルサイズの決め方 (統計ライブラリー)

 

が良いと思います。

 

 

東大本の緑には「地域統計」や「商圏分析」などの類書(とくに邦書)でなかなか見ないカテゴリーがあるのですが、この分野はこの分野で1つの専門分野を形成しています。もっと詳しくみてみたい、ハフ・モデルやMCIの拡張に興味があるという方は、

 

 Foundation of location analysis 

 

ちなみに物理的な空間統計はまた別な分野です。こちらのテキストは、

 

空間統計学

空間統計学: 自然科学から人文・社会科学まで (統計ライブラリー)

空間統計学: 自然科学から人文・社会科学まで (統計ライブラリー)

 

類書があんまりないので、本当に助かりました(今ではもっとあるかも?教えてください。) 

 

商圏分析の流れでマーケティング・サイエンスに興味をもった方には、

 

マーケティング・経営戦略の数 

マーケティング・経営戦略の数理 (シリーズ ビジネスの数理)

マーケティング・経営戦略の数理 (シリーズ ビジネスの数理)

 

 

 マーケティングの統計モデル

マーケティングの統計モデル (統計解析スタンダード)

マーケティングの統計モデル (統計解析スタンダード)

 

ビジネスユース系のデータ解析の本は記述統計からはじまってt検定、重回帰辺りで根尽きている実質統計入門本が多いので注意です。 

  

ベストセラーとなった森岡さんの

 

確率思考の戦略論

確率思考の戦略論  USJでも実証された数学マーケティングの力

確率思考の戦略論 USJでも実証された数学マーケティングの力

 

 とかにインスパイアされた方(マーケ系の方、とくに小売り系の方でデータ解析しなければ!となっている方は)は、

 

小売りマーケティング科学のニューフロンティア 

小売マーケティング研究のニューフロンティア

小売マーケティング研究のニューフロンティア

 

中西先生はこの分野を牽引してきた研究者の方です。コトラーとか読むよりもしっくりくるはず。この本以外は全般的にちょっと古くなってしまうので割愛。

 

階層Bayesを学んだ後なら、階層Bayesのマーケティング応用本として、

 

樋口先生のビッグデータ時代のマーケティング 

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

 

 貴重なビジネス応用例です。ビジネス本チックな内容ですが、しっかり書かれているので階層Bayesの応用例を(論文ではなく)テキストで学びたい、という方はどうぞ。ただし応用本なので例えば久保先生の本みたいな理論の入門書を読んでないとつらいと思います。

 

いずれマーケだけではなく流行りの人事統計とか事務職種別にテキストをまとめてみたいです。が、それはまた次回以後

 

経済モデルについては、既出ですが計量経済モデルの入門書として、

実証分析のための計量経済学 

実証分析のための計量経済学

実証分析のための計量経済学

 

がオススメ。理論の本ではないのですが、豊富な事例を浴びれるので使い所と土地勘が得られます。

 

時系列モデルについての理論書では、

経済・ファイナンスデータの計量時系列分析

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

 

がオススメ。不均一分散とか共和分とか単位根検定とかの用語が??の人はまずこの1冊から。 

 

傾向スコア分析については、 

調査観察データの統計科学

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)

 

 が絶対オススメ。因果推論についてちゃんと考えたい人や欠測処理について学びたい人も。

 

X12ARIMAなど公的データの季節調整ロジックを学ぶには、 

経済時系列と季節調整法 (統計解析スタンダード)

経済時系列と季節調整法 (統計解析スタンダード)

 

 が詳しいです。ARモデルから扱っているので時系列がはじめてでも読み進められます。

 

東大出版の青本の方についても少し補足を

 

青本読んでノンパラちょっと詳しくなりたいと思った方は 

ノンパラメトリック統計学

ノンパラメトリック統計学―行動科学のために

ノンパラメトリック統計学―行動科学のために

 

がオススメ。豊富な事例の中で使いどころが学べます。理論詳細はカットされている部分が多いです(青本の方が詳しいです。)ノンパラの事例をフラッシュで知りたい方にオススメ。といいつつ、すごい古い本なので今はもっと良い本が沢山あるかもしれません。

 

青本は差分方程式のコラムがあってその後乱数についての話で終わっています。差分を連続的にしたのが微分だと分かっていても、どうしても差分の扱いが苦手な人は多いようです。テキストもあるようでなかなかないトピックの一つなので、ここで1冊ご紹介

 

差分方程式

差分方程式 (1961年) (新数学シリーズ〈第20〉)

差分方程式 (1961年) (新数学シリーズ〈第20〉)

 

例えば微積分の基本定理の差分版の公式がすぐ浮かばない人が本書を読むと世界が広がると思います。 

 

培風館の新数学シリーズは良書が多いです。ついでにもう1冊紹介

 経済のための線型数学

経済のための線型数学 (1961年) (新数学シリーズ〈第22〉)

経済のための線型数学 (1961年) (新数学シリーズ〈第22〉)

 

 本書も隠れた名著の1つ。Frobeniusの定理や、Stiemke-Tucker の定理、など最適化・線形不等式系の理論についてきちんと学びたい方には強くオススメです。

 

乱数についての詳細はUP選書の

 

乱数 

乱数 (UP応用数学選書)

乱数 (UP応用数学選書)

 

がオススメ。記述がコンパクトで良いです。

 

 

【オススメ本 ~データマイニングとか応用数学とか~ 】

『乱数』まで出してしまったので、ここらへんからデータマイニングやCSよりの事項にシフトしてテキスト紹介をしたいです。

 

たぶん、データ解析からPythonやRなどのコンピュータ言語に入った人には、いつかコンピュータサイエンス(以下CS)をしっかり学びたいという意欲をもっている方も多いはず。そういう方向けの入門的テキストとしては思いっきり脱線しますが、

 

 入門コンピュータサイエンス

入門 コンピュータ科学 ITを支える技術と理論の基礎知識

入門 コンピュータ科学 ITを支える技術と理論の基礎知識

 

 

データサイエンスしていると後半(とくにデータマイニングとかAI関連)の記述はちょっと退屈かもしれません。その他の本はまた別エントリーで。

 

ところで、最近はデータマイニングというが言葉すっかり使われなくなってしまったような感じがしているのですが、データマイニングと銘打っているテキストの中にはCSよりのアルゴリズム解説とビジネス応用例が良いバランスで記載されたテキストも多くあり、今もって良書だと思えるものも多いです。言葉の変遷に惑わされないことが大切だと思います。

 

データマイニング関連のアルゴリズムについて基礎から学びたいという方は、

 

 データマイニングとその応用

データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)

データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)

 

がオススメ。サポートベクターマシーン(以下SVM)の記述とかニューラルネットの記述とかどうしようもなく古くなっている部分はあるのですが(間違っているという意味ではないです)良書だと思います。とくにいわゆる「ビールとオムツ」な古典的なアソシエーション分析を1度は学んでみたいという方にオススメ。

 

その上での購買行動分析の応用本だと、例えば

 戦略的データマイニング

戦略的データマイニングアスクルの事例で学ぶ

戦略的データマイニングアスクルの事例で学ぶ

 

良い意味で結果が全然美しくないので、現場の手探り間が分かると思います。事例本なのでそんなもんかとサクッと読むのがオススメ。

 

あと古典的な教科書としては、以下2冊も良い本

データマイニング手法

データマイニング手法 予測・スコアリング編―営業、マーケティング、CRMのための顧客分析

データマイニング手法 予測・スコアリング編―営業、マーケティング、CRMのための顧客分析

 

 

データマイニング手法 探索的知識発見編―営業、マーケティング、CRMのための顧客分析

データマイニング手法 探索的知識発見編―営業、マーケティング、CRMのための顧客分析

 

どちらかと言えば「お話」部分も多いのですが、実践的文脈で書かれているところとデータマイニングの基礎的手法が網羅的に語られているところが良いです。クラスター分析とか遺伝的アルゴリズムとか統計学の文脈だとなかなか詳細語られない手法について概観しておきましょう。

 

データマイニングは分かったから、応用数学方面に手を伸ばしたい!という方。 

応用数学、とくに最適化問題フーリエ解析、ウェーブレット方面の入門書としては金谷先生のテキストが感動する程分かりやすいです。

 

 これなら分かる最適化数学

これなら分かる最適化数学―基礎原理から計算手法まで

これなら分かる最適化数学―基礎原理から計算手法まで

 

 

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

 

どちらもとにかく読み手への配慮に行き届いているテキストで、数学に苦手意識がある人にも安心してお薦めできる良書です。画像解析やパターン認識の基礎的道具を挫折なしで習得できます。本当にすごい。圧巻です。高校数学からの数学学び直し本の王様はもしかしたらこの本かもしれません。解説の分かりやすさの点でも、応用への直接的なつながりという点でも。

 

ちょっと脇道にそれますがゲーム関連の話に興味がある方は、 

 

ゲーム3D数学

 

実例で学ぶゲーム3D数学

実例で学ぶゲーム3D数学

 

こちらもベクトルの解説レベルからとても分かりやすく(丁寧というよりは直感的に)書かれている好著です。クウォータニオンの扱いがどうにも慣れないという方もどうぞ。

 

★★★ 

 

すごく散漫になってきました(ごめんなさい…。)

 

こうやって見ていくと、どうやら僕は、あまり名称や区分にこだわらずに幅広く数理モデルに接していくと良い、と思っているのかもしれません。そういえば、感覚的にはデータサイエンスという今もって定義が曖昧な概念がどんどん関連しそうな領域に手を伸ばしていったのも2010年以後の流れの1つでした。データサイエンス本のタイトルや参考文献の変遷を誰かがまとめてくれるとありがたいのですが…。

 

あとあえて何でもかんでも数理モデルと言っていますが、伝統的に数理モデルと言ったらもちろん統計モデルではなく微分方程式を用いた数理モデルだったと思います。統計学を学ぶ過程でモデリングって楽しい!面白い!となったら、是非微分方程式立てる方面の学習もしてみると良いかもです。

 

有名な入門用のテキストとしては、微分方程式で数学モデルを作ろう

微分方程式で数学モデルを作ろう

微分方程式で数学モデルを作ろう

 

がオススメ。数理モデルというよりは統計学だけをやっているとなかなか使わない微分方程式の入門本としても良いです。 

 

機械的モデリングができる(気がするようになる)本としては

数理モデリング入門 

数理モデリング入門 ―ファイブ・ステップ法― 原著第4版

数理モデリング入門 ―ファイブ・ステップ法― 原著第4版

 

もオススメ。分数階微分の応用とかもあって楽しいです。

 

もちろん、物理が嫌いじゃなかったら大学物理の教科書をサルベージするのもありだと思います。ベクトルや行列やテンソルなんて道具なんだから、どんな入り口から入っても良いはずです。領域にこだわる学びは不自由だと思います。

 

物理のためのベクトルとテンソル 

物理のためのベクトルとテンソル

物理のためのベクトルとテンソル

 

 テンソルにちゃんと慣れたいと思っている人は多いのではないでしょうか。もし高校時代物理が苦手じゃなかったら本書を是非。

 

 物理本まで出してしまった…全然収束しないのでここらへんで機械学習本へ。

 

 

【オススメ本 ~機械学習と深層学習~ 】

 

機械学習ちゃんと学ぶ場合、最近でた東京大学工学教程のテキストはかなりオススメです。

 

とくにお薦めは以下2冊

 

機械学習

東京大学工学教程 情報工学 機械学習

東京大学工学教程 情報工学 機械学習

 

 

線型代数

基礎系 数学 線形代数II (東京大学工学教程)

基礎系 数学 線形代数II (東京大学工学教程)

 

 

線形代数2は機械学習の文脈ですごく現代的にまとまっています。非負行列についてや一般逆行列についてなど、ふつうの線形代数本ではあまり扱っていないトピックが嬉しいです。前のエントリーで行列代数についてのテキストを紹介しましたが、ある程度数学的基礎力がある方(線形代数の学部テキストを十分理解できる方)は、間挟まずこちらのテキストを即座に読んだ方が、機械学習の道具としての線形代数を効率よく学べると思います。 

 

僕的にはなかなか定本がなかった分野なのですが、変分法の数理についてのお薦めテキストも同シリーズから、

 最適化と変分法

基礎系 数学 最適化と変分法 (東京大学工学教程)

基礎系 数学 最適化と変分法 (東京大学工学教程)

 

 

 もちろん全部読んだわけではないのですが…こうしてみるとすごくすごく良いシリーズなのではないだろうか、東京大学工学教程。頑張って欲しいです。 

 

こちらは有名なテキストですが、各手法についての基礎的事項を網羅的に学びたいなら

 

はじめてのパターン認識 

はじめてのパターン認識

はじめてのパターン認識

 

この本とPRML(とあといくつか)が機械学習系のオススメテキストの公約数ではないでしょうか。安心してオススメできる良書です。 

 

機械学習の多くの手法は多変量解析やデータマイニングの流れから自然に読めるのに対してインパクトが大きいのはカーネルトリックではないでしょうか。カーネルトリックしっかり学びたいのなら、カーネル多変量解析 

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)

 

が圧倒的にオススメです。数学の基礎力は必要です。

 

 

テキストマイニングの領域に興味がある方は、

言語処理のための機械学習入門 

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

 

自然言語処理がはじめての方はもちろん、機械学習に必要な数学の基礎をコンパクトに復習するためのテキストとしても本書は有用です。自然言語処理という領域をあまり意識せず、数学に苦手意識のある方は機械学習数学の入門書としてトライしてみると価値があると思います。このテキストがとても難しい!と感じる場合はもう少し数学の学び直しが必要かもしれません。

 

 

テキストマイニングと言えば、すぐできるGUIソフトとしてKH Coderがありますね

社会調査のための計量テキスト分析 

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

 

本書は、KH Coderのマニュアル本でもあり、同時に自然言語処理のライトな入門書にもなっています。理論詳細を学ぶ本ではありませんが、これからテキスト処理をしてみたいという方は本書を手に実際動かして見るのが手っ取り早いと思います。ちなみに漱石ファンは1.5倍楽しめます。

  

最後はあまりにも有名な3冊。アンチも根付良いファンも多いですが、僕はどれも大好きです。

 

パターン認識機械学習 

パターン認識と機械学習 上

パターン認識と機械学習 上

 

通称PRMLです。PRMLは難しいというか行間が広い本です。あまりにも有名になり過ぎてしまったので、いきなりこの本からはじめて玉砕されてしまう人が(とくに3年くらい前までは)すごくすごく多かったのですが、数理統計と行列代数(線形代数)と学部程度の解析(変分法とかラグランジュ乗数とか)をちゃんと理解していれば(少なくてもトピックごとにもう少し行間が密な他書を参照しながらであれば)読み通せるはずだと思っています。

 

というようなことを言って何度も怒られたことがあるのですが(笑)

 

読めない!という人は厳密な理解にこだわり過ぎている場合が多いようです。例えばウィシャート分布の導出とかはちゃんとやるとものすごく難しい(というよりは面倒くさい…)と思うので、その証明をフォローすることで流れを見失う(膨大な時間を使ってしまう)くらいならまずは所与として読み進めるという方が圧倒的に効率が良いはずです。ここらへんのバランスは本当に難しいのですが、少なくともPRML流れに乗ることが肝要なテキストだということは覚えていて欲しいです。細かいフォローはできなかったとしても、一度でも通読できればその後はレファランスとしてゆっくり(余裕を持って)付き合うことができるようになります。いつまでも「PRML読めない自分」に後ろめたさを感じるのは生産的ではないと思うので、さくっと読み通してしまいましょう!

 

続いてマーフィー本

Machine Learning: A Probabilistic Perspective

Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)

Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)

 

 まだ翻訳がないですね。大著ですがPRMLよりも網羅的で細かい、ゆえに読みやすいと思います。本腰入れてこの道で行こうという方はもちろん、レファランス本としても置いておくと困ったときに便利な本です。

 

最後は

 

統計的学習の基礎 

統計的学習の基礎 ―データマイニング・推論・予測―

統計的学習の基礎 ―データマイニング・推論・予測―

  • 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
  • 出版社/メーカー: 共立出版
  • 発売日: 2014/06/25
  • メディア: 単行本
  • この商品を含むブログ (5件) を見る
 

書き手も役者も豪華な決定版。 

これは完全に感覚とイメージなのですが、学習トピックとして統計学機械学習を最もメリハリよく分ける(差が出る)概念は正則化(あるいは汎化性能へのこだわり)とアンサンブル学習ではないでしょうか。長年しっかりしたデザインのもとでコテコテの統計モデル適用してきた人たちからアンサンブル系のモデルに対して「そんなことして良いの?」という声を聞いたことは少なくありません。ただしモデルの有用性はそれとは別な話。ランダムフォレストや勾配ブースティングの強さはKaggleやKDD Cupなど各種のコンペの結果を見れば一目瞭然なわけです。

 

大著だから敬遠する人も多いけれど、本書の良いところは(正則化はもちろん)アンサンブル学習に詳しいというところ。広い読みでも良いので参照してみてください。

 

英語版(PDF)は無料で公開されています!

 

 

アンサンブル学習をPythonを使って手っ取り早く動かしたいなら、 

Python機械学習プログラミング

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

 

 Pythonを使ったML入門本としてもお薦めです。アンサンブル学習ははじめてのパターン認識(既出)でも後半で扱っていますね。

 

ここから深層学習本。まだまだ不勉強なのですが紹介していきます。

 

深層学習はTensorflow触りながらの学習の方が絶対良いと思うので、適宜コーディングサイトとか参照しながら手を動かして学ぶのがオススメです。WEB見ているとNIPSはじめ最先端のモデルが次から次と出てくるので迷いがちですが、初学者は理論としてしっかり理解するべきトピックとして、まずはCNN、RNN、LSTMをしっかり理解することを目指すと良いと思います。

 

 

既出ですがはじめの1冊としては

 

深層学習 

深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)

 

か、

 深層学習 Deep Learning

深層学習 Deep Learning (監修:人工知能学会)

深層学習 Deep Learning (監修:人工知能学会)

 

難易度的にはそんなに変わらないのだけれど、どちらかと言うと岡谷先生の本→人工知能学会の本という順序の方が読みやすいと思います。

 

Pythonを使ってしっかり手を動かして学ぶなら圧倒的にオススメなのが 

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

 

こちらです。

 

最後理論的背景をもっと詳しく知りたいならばベストセラーとなった

Deep Learning (Adaptive Computation and Machine Learning series 

Deep Learning (Adaptive Computation and Machine Learning series)

Deep Learning (Adaptive Computation and Machine Learning series)

 

素晴らしいことにPDFで公開されている上、東大の松尾研究室で翻訳準備中とのことでもうすぐ(?)日本語で読めるようになるかもしれません。そうそう松尾研のWEBサイトはそれ自体深層学習の勉強にすごく有用だと思います。

 

deeplearning.jp

deeplearning.jp

 

【オススメ本 ~離散数学関連~ 】

 

息切れしてきた…。

 

一応、機械学習と銘打ったテキストでなかなか数理的なフォローが行き届かない分野としてグラフ理論がありますが、グラフを学ぶならこちらがお薦めです。高校数学程度の前提知識でも読み進めていけます。

 

 グラフとダイグラフの理論

グラフとダイグラフの理論 (1981年)

グラフとダイグラフの理論 (1981年)

 

  

離散数学の様々なトピッ概論としては、最初の1冊としては

 

離散数学入門

 

離散数学入門 (入門 有限・離散の数学)

離散数学入門 (入門 有限・離散の数学)

 

が良いと思います。

  

情報理論と符号理論も 

情報理論と符号理論

情報理論と符号理論

 

 

限界! 

 

 

【結び】

今回はGLM以後をテーマにして機械学習・深層学習の文脈では通常扱われない雑多なテーマも含めてテキスト紹介を行いました。各論の深堀りテキストはこれから順次紹介していこうと思います。

 

なるべく小カテゴリーの中では難易度順になるようにしたつもりなのですが、読んでから大分時間が経過しているテキストも多く、そこら辺は随時加筆・修正して更新していきたいです。あと教科書紹介なので当然ながら内容の重複も多いです。なるべく内容の重複なしで、最短で学ぶテキストラインナップを考えることもすごく重要だと思うし、メリットが多いと思うのですが僕では現状整理しきれず今後頑張ろうと思います。

 

ちなみにほとんどの人にとって全部読む必要性はないはずです。僕は友達ノリでお客さんや同業の人と同じテキストを読むのが好き(話題に入りたがり)なので少し多めに読んでいるかもしれません。ただし感想は正直に書いています。だいたい全部褒めてるように見えるかもしれませんが、読んで本当にどうしようもなかった本(沢山ある!!)はあえてスルーしています。

 

あと、たぶん全体的に少しテキストが古いかも。最近は統計もMLもDLもテキストが山のように出版されていて羨ましい限りですが僕のポテンシャルでは到底キャッチアップしきれません。良い本あったら教えて欲しいです。

 

★★★

 

大人の学びって覚悟がいりますよね。学生の時みたいに時間ないし、仕事とかキャリアとか家族とか子供とかお金とか病気とか心のバッファを占領するものが沢山あるし、だから時間かけて学ぶことに躊躇してしまうし、だからと言って時間をかけないと理論的なことは身につかないし、その上身に着けた内容がお金に変わるとは限らないし、と言って学習サボっているとすごい勢いで忘却していくし、計算遅くなるし、覚えられなくなっていくし、新しい論文次から次に出てくるし、若手のすごい人も次々現れるし、これまでの常識を覆す理論とかがなぜか矢継ぎ早に提案されてくるし、何とかならないかなとモヤモヤしていると自己啓発書が広告で甘い誘惑かけてくるし、迷っていたら次の仕事が大火事で勉強どころじゃなくなって再開した時にはこれまでのこと忘れているし…。学び続けて、積み上げて、使えるようにするのは本当に本当に本当に大変だと思うのです。データサイエンスみたいな型がふわっとしている領域ならなおさら、しかも数学から遠く離れていた人ならもうものすごく、大変だと思うのです。

 

だから止まってしまってもしょうがないと思います。放り出したテキストが沢山あっても、積読が沢山あっても、読まないままメルカリに出品したテキストがあっても、ごくごく普通なことなはずです。再出発はいつでもできるし、新しい出発地点は前と同じじゃなくても良いはず、そう思ってなるべく様々な角度からテキスト紹介をしました。

 

それではまた次回!

 

 ★★★