「データサイエンスのオススメ本 その⑤」
フリーランスのデータサイエンティスト日記
7回目のエントリーです。今回からは一般化線形モデル(以下GLM)の基礎まで学んだ方を想定して、後続のテキストや機械学習テキストを紹介していきたいと思います。ここらへんまで来るといろいろな手法がいろいろな文脈で語られることが多いのでなかなか整理も難しいのですが、タスクベースで見ながらなるべく迷わないテキストセレクションを行いたいです。
とくに、GLM辺りまで学んだ後はやっぱり機械学習(以下ML)だよねーと、いわゆるPRML(『パターン認識と機械学習』)とか『統計的学習の基礎』に進んだ後、即座に玉砕というストーリーを見て来たので、まずはPRMLだけじゃない(もちろんゴールでもない)という当然の認識を強調した上で、【間を埋める】ことも意識しながら書きたいと思います。あと、MLだDLだといいつつ、統計モデルや数理統計の理論に魅了される人も結構いるのでは推測しているので、数理統計のその後、についても充実させたいです。
また、毎回のエントリーでくどく言っているのですが、本当に焦ると良いことがないのでなるべく末永く使える基礎力の強化を主眼としてテキスト選びをしたいと思います。レベル感は一応GLMまで学んだ方が対象となるのでやや高めになっていきますが、もっと基礎から学びたいという方は過去エントリーを参照してみてください。
★★★
概論については2回目のエントリーを
データサイエンスな人って普段どんなことしてるの?とかどんなこと考えてるの?という疑問に対してヒントになるテキストを紹介しています。
統計学の基礎については3回目のエントリーを
データサイエンスをこれからはじめる方向けに、入門書と数学の学び直し本を少し紹介しています。あと一応Excel本と関連する資格のまとめも。
多変量解析の基礎については4回目のエントリーを
多変量解析の入門以後のテキストについて紹介しています。動機付けのための歴史関連の本もいくつか。
今(というのは2018年の1月頃)中規模書店で手に入って気軽に中身を確認しやすいテキストについては5回目のエントリーをご参照ください。
まずは本屋さんで情報収集したい、という方向けに ビル型の大規模書店にいかなくても見つかりそうなラインナップを紹介しました。啓蒙レベルから初・中級程度の書き手様の様相が分かるかと思います。
★★★
テキスト読む順番とかを有向グラフでリコメンドしてくれるWEBサイトとかかってないのでしょうか「この本を読んだ人はその前にこんな本を読んでいます」とか「この本を読んだ人はその後にこんな本を読んでいます」とか。ないか
★★★
ここからテキスト紹介です。今回はいくつかのカテゴリに分けています。振り返らずにガーと書いていき、また時間があるときに目次付けてまとめたい。のですが、今は自分の継続をメインにしてやや荒削りのままアップさせてください。ほんと毎日Blog更新している人は何者なのだろう…凄すぎ。
【オススメ本 ~ 数理統計のまとめ本とレベルアップ本~ 】
既出ですが東大本3冊をまずは読み返しましょう。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08/01
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (22件) を見る
なんやかんや言って東大本は本当にありがたいです。末永く座右の書として役立ってくれそうな感じがします。今難しいとか、分かりにくいとか感じる方も、参照用で良いのでゲットしておくことがオススメします。初学者がはじめて読んだ時の評判の悪さはアルアルなのであまり気にせず、歳月を得ても生き残ってきたという市場の評価を重視してOKだと思います。
僕の拙い経験だと例えばPRMLと同じように、東大本についても知ってはいる/持ってはいるけれど実際にちゃんと読んでいる人は本当に少ないです。ビジネス書的に少し大げさにアジってしまえば、この3冊をちゃんと読んだだけである程度差別化できると思います(悲しいけど現状はまだまだそのくらいだと思います。)
あと東京大学出版の本は(統計本に限らず)全般的に閉じている良書が多いです。いちいち他のテキスト参照しなくても写経(という程数式の多い本ではないのですが)でも何でもすれば、必ず読みこなせます。逆に言うと東大本の赤(1冊目)が読めない場合は、数学的基礎力をもう少し固めた方が良いのですが、その程度の基礎力はこれからデータサイエンスのどのような領域に進もうと、あるいは少しでも数学に関連するどのようなことを行おうと絶対に持っていた方が良いのでトレーニングの投資対効果は抜群です。効果がそれほど明確な投資対象があるなんてすごくラッキーなことなので、迷わず高校数学の学び直しをしておくと良いと思います。
続けます。
東大本はさらっと一読した。その上で数理的なテクニックを少し引き上げたいという方に是非オススメなのが、Raoの
Linear Statistical Inference and its Applications
Linear Statistical Inference and its Applications (Wiley Series in Probability and Statistics)
- 作者: C. Radhakrishna Rao
- 出版社/メーカー: Wiley-Interscience
- 発売日: 1973/04/13
- メディア: ハードカバー
- この商品を含むブログを見る
このテキストは本当に良書です。使い所を理解しながら特性関数や二次形式の扱いに慣れることができます。ルベーグ積分とか特性関数(積率母関数)の扱いとか非心分布とか、確率分布曼荼羅のような様々な確率分布の相互関連とかを曖昧なままにしてきた方も本書で見通しが良くなるはずです。ソフトウェアや言語を使って解析はじめてしまうと(論文フォローしている人でもなければ)あびるように数式触れる機会がなかなか持てないと思うので、こういう数理統計本を常に何冊かカバンに入れておくとなまらずに良いですよ。
邦書もあるみたいです。ちょっと高いですが
統計的推測とその応用
- 作者: C.ラダクリシュナラオ,Cayampudi Radhakrishna Rao,奥野忠一
- 出版社/メーカー: 東京図書
- 発売日: 1992/01/01
- メディア: 単行本
- この商品を含むブログを見る
確率分布曼荼羅はコチラ
知識の整理に便利です!
Raoほど難しくはない(数理的ではない)けれど、様々な話題を網羅的に扱っていて数理統計の整理にピッタリなのが
数理統計学ハンドブック
- 作者: Robert V.Hogg,Joseph W.McKean,Allen T.Craig,豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2006/07/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (3件) を見る
内容は少し古いかも。だけど、つまみ食い的に数理統計を学んできた人が高速で読めばかなりの知識整理ができると思います。
ちなみに朝倉のハンドブックシリーズ、たぶん高いので敬遠されがちだと思うのですが、意外と良書多いです。
http://www.asakura.co.jp/G_11_2.php
大著や洋書はちょっという方が、行列表現に慣れ1歩数学的知識を引き上げるには
統計学の基礎Ⅰ
統計学の基礎 I?線形モデルからの出発 (統計科学のフロンティア)
- 作者: 竹村彰通,谷口正信
- 出版社/メーカー: 岩波書店
- 発売日: 2018/01/25
- メディア: Kindle版
- この商品を含むブログを見る
無駄のない記述がすごく気持ちいいです。前段は竹村先生による回帰モデルを中心とした解説です(東大本の青の二章を詳しくしたイメージです。)不変測度の概念がいかに応用上便利かが良く分かります。後半は谷口先生による時系列モデルの解説、こちらも時系列モデルを齧ったことがある方が、レベルアップをするきっかけとして丁度良い刺激が得られると思います。紹介は省力しますが<統計科学のフロンティア>はシリーズとしてもオススメ!
竹村先生と言えば、かなり前の本ですが、
も数学に自信がある人限定でかなりオススメです。(すごく稀だと思うのですが…)ちゃんと測度論で進めたいという人、例えばウィシャート分布ってどうやって導出するの?という方は是非。
- 作者: テレンスタオ,Terence Tao,舟木直久,乙部厳己
- 出版社/メーカー: 朝倉書店
- 発売日: 2016/12/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
古いかな。すいません、最近のルベーグ本は全然追いかけていません。ただ不足するということはないはず。
流れに乗って(測度論的)確率論までいっきに攻めてしまいたいという方は、
舟木先生の『確率論』
が圧倒的にオススメ。こういう本があって良かったと思えます。測度論の入門書を読んだ後に(記憶が曖昧になる前に)即座にに読むと良いと思います。
あとは隠れた名著として
小谷『測度と確率』
もオススメ。数学的記述の中で確率過程の基礎までを厳密に学べます。ハウスドルフ測度の話とか、他ではあんまり書いていない話題も結構あって数学好きには楽しめるはず。舟木先生の本より若干難しいです。位相の知識が曖昧だと厳しいかも。
★★★
業務で直面している内容から少しだけ外れた理論書(数学書)って何とも言えない爽やかな時間を与えてくれますよね。少しだけ外れた内容だから結局あとになってどこかで業務に繋がることも多いしお得なことしか思い浮かびません。数学書効用高いです、本当に。
★★★
さて数学方面に伸び過ぎてしまいました。GLMまでいったら次はBayesモデルだ!という方も多いはず。Bayesモデル(とくに階層Bayesモデル)の分かりやすい導入と言えば、
岩波データサイエンス Vlo1.
が絶対オススメ。「そもそも階層的構造にするのはなぜ?」に対してのスッキリした回答がコンパクトな論説から得られます。岩波のデータサイエンスも良いシリーズ過ぎて全部オススメ、小冊子な外見に惑わされずに覗いてみてください。
その後はあまりにも有名な久保先生のテキスト
データ 解析のための統計モデリング入門
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
を読まれると良いと思います。「その後は」と書いたのですがGLMまでの知識がある方であればすぐ後読めます。東大本の赤本後でも。事例は生物よりですが、階層Bayesに限らず統計モデルの組み立て方がスッキリ理解できるかと。
階層Bayesと言えばMCMC抜きには語れませんが、MCMCのアルゴリズムについてだけでなく、数理的基礎についてどこかでしっかり学びといと思ったら、
計算統計2 マルコフ連鎖モンテカルロ法とその周辺
計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)
- 作者: 伊庭幸人,種村正美
- 出版社/メーカー: 岩波書店
- 発売日: 2005/10/27
- メディア: 単行本
- 購入: 5人 クリック: 78回
- この商品を含むブログ (34件) を見る
若干粘り強く数式に関わる必要があります。
Stanを用いた練習なら豊田先生の
基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2015/06/25
- メディア: 単行本
- この商品を含むブログ (6件) を見る
問題がちょっと面白い(?)です。豊田先生はBayes本を続々と出されていますね。語り口の個性が強いと思うのですが、合う人は一貫した著者のもとでいろいろ学べてすごく良いと思います。
Bayes統計をしっかり理解したい方には、WAICの渡辺澄夫先生の教科書
ベイズ統計の理論と方法
下手なBayes本を10冊読むよりは本書をじっくり読んだ方が何十倍も効用高いはずです。Bayes統計がなんとなくずっとしっくり来てない、という方(でかつ、その違和感を解消したい方)全員にオススメ!
なんかここまで理論書の比重が多くなってしまいました。もちろん全部読む必要はないと思います。スッキリ感は大切ですが、何でもかんでも知りたがるよりは、良いバランスで応用機会を作ったり、特定の文脈のテキストを読んだ方が良いと思います。
★★★
ということで、ここから少し脱線
【オススメ本 ~基礎を理解した人が飛び立てる周辺領域や東大本の補足~ 】
数理統計方面(数学的道具)のレベルアップではなく、運用としてのレベルアップを図りたい方、周辺分野のテキストを読んで領域拡大を目指したい方向けにオススメのテキストをいくつか紹介したいと思います。
まずは数理統計の運用本。例えばASAのp値批判がピンと来ていない、あるいは効果量という概念やサンプルサイズの見積について曖昧な部分が多いという方へ。
R本ですが、豊田先生の 検定力分析
がオススメ。検定力分析の実践が分かります。あと、社会科学系・人文科学系のテキストを読むのが楽しくなるかもしれません。ただしこちらはまさに運用本で、理論詳細を扱ったテキストではないです。Rの入門書についてはいつか別エントリーで。
サンプルサイズについてより詳しくは永田先生の
サンプルサイズの決め方
が良いと思います。
東大本の緑には「地域統計」や「商圏分析」などの類書(とくに邦書)でなかなか見ないカテゴリーがあるのですが、この分野はこの分野で1つの専門分野を形成しています。もっと詳しくみてみたい、ハフ・モデルやMCIの拡張に興味があるという方は、
Foundation of location analysis
ちなみに物理的な空間統計はまた別な分野です。こちらのテキストは、
空間統計学
空間統計学: 自然科学から人文・社会科学まで (統計ライブラリー)
- 作者: 瀬谷創,堤盛人
- 出版社/メーカー: 朝倉書店
- 発売日: 2014/03/28
- メディア: 単行本
- この商品を含むブログ (2件) を見る
類書があんまりないので、本当に助かりました(今ではもっとあるかも?教えてください。)
商圏分析の流れでマーケティング・サイエンスに興味をもった方には、
マーケティング・経営戦略の数
マーケティング・経営戦略の数理 (シリーズ ビジネスの数理)
- 作者: 西尾チヅル,猿渡康文,桑嶋健一
- 出版社/メーカー: 朝倉書店
- 発売日: 2009/03
- メディア: 単行本
- この商品を含むブログ (1件) を見る
マーケティングの統計モデル
ビジネスユース系のデータ解析の本は記述統計からはじまってt検定、重回帰辺りで根尽きている実質統計入門本が多いので注意です。
ベストセラーとなった森岡さんの
確率思考の戦略論
確率思考の戦略論 USJでも実証された数学マーケティングの力
- 作者: 森岡毅,今西聖貴
- 出版社/メーカー: KADOKAWA/角川書店
- 発売日: 2016/06/02
- メディア: 単行本
- この商品を含むブログ (1件) を見る
とかにインスパイアされた方(マーケ系の方、とくに小売り系の方でデータ解析しなければ!となっている方は)は、
小売りマーケティング科学のニューフロンティア
中西先生はこの分野を牽引してきた研究者の方です。コトラーとか読むよりもしっくりくるはず。この本以外は全般的にちょっと古くなってしまうので割愛。
階層Bayesを学んだ後なら、階層Bayesのマーケティング応用本として、
ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)
- 作者: 佐藤忠彦,樋口知之
- 出版社/メーカー: 講談社
- 発売日: 2013/01/22
- メディア: 単行本(ソフトカバー)
- クリック: 5回
- この商品を含むブログ (4件) を見る
貴重なビジネス応用例です。ビジネス本チックな内容ですが、しっかり書かれているので階層Bayesの応用例を(論文ではなく)テキストで学びたい、という方はどうぞ。ただし応用本なので例えば久保先生の本みたいな理論の入門書を読んでないとつらいと思います。
いずれマーケだけではなく流行りの人事統計とか事務職種別にテキストをまとめてみたいです。が、それはまた次回以後
経済モデルについては、既出ですが計量経済モデルの入門書として、
実証分析のための計量経済学
がオススメ。理論の本ではないのですが、豊富な事例を浴びれるので使い所と土地勘が得られます。
時系列モデルについての理論書では、
経済・ファイナンスデータの計量時系列分析
経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
- 作者: 沖本竜義
- 出版社/メーカー: 朝倉書店
- 発売日: 2010/02/01
- メディア: 単行本
- 購入: 4人 クリック: 101回
- この商品を含むブログ (6件) を見る
がオススメ。不均一分散とか共和分とか単位根検定とかの用語が??の人はまずこの1冊から。
傾向スコア分析については、
調査観察データの統計科学
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (25件) を見る
が絶対オススメ。因果推論についてちゃんと考えたい人や欠測処理について学びたい人も。
X12ARIMAなど公的データの季節調整ロジックを学ぶには、
が詳しいです。ARモデルから扱っているので時系列がはじめてでも読み進められます。
東大出版の青本の方についても少し補足を
青本読んでノンパラちょっと詳しくなりたいと思った方は
がオススメ。豊富な事例の中で使いどころが学べます。理論詳細はカットされている部分が多いです(青本の方が詳しいです。)ノンパラの事例をフラッシュで知りたい方にオススメ。といいつつ、すごい古い本なので今はもっと良い本が沢山あるかもしれません。
青本は差分方程式のコラムがあってその後乱数についての話で終わっています。差分を連続的にしたのが微分だと分かっていても、どうしても差分の扱いが苦手な人は多いようです。テキストもあるようでなかなかないトピックの一つなので、ここで1冊ご紹介
差分方程式
例えば微積分の基本定理の差分版の公式がすぐ浮かばない人が本書を読むと世界が広がると思います。
培風館の新数学シリーズは良書が多いです。ついでにもう1冊紹介
経済のための線型数学
本書も隠れた名著の1つ。Frobeniusの定理や、Stiemke-Tucker の定理、など最適化・線形不等式系の理論についてきちんと学びたい方には強くオススメです。
乱数についての詳細はUP選書の
乱数
がオススメ。記述がコンパクトで良いです。
『乱数』まで出してしまったので、ここらへんからデータマイニングやCSよりの事項にシフトしてテキスト紹介をしたいです。
たぶん、データ解析からPythonやRなどのコンピュータ言語に入った人には、いつかコンピュータサイエンス(以下CS)をしっかり学びたいという意欲をもっている方も多いはず。そういう方向けの入門的テキストとしては思いっきり脱線しますが、
データサイエンスしていると後半(とくにデータマイニングとかAI関連)の記述はちょっと退屈かもしれません。その他の本はまた別エントリーで。
ところで、最近はデータマイニングというが言葉すっかり使われなくなってしまったような感じがしているのですが、データマイニングと銘打っているテキストの中にはCSよりのアルゴリズム解説とビジネス応用例が良いバランスで記載されたテキストも多くあり、今もって良書だと思えるものも多いです。言葉の変遷に惑わされないことが大切だと思います。
データマイニング関連のアルゴリズムについて基礎から学びたいという方は、
データマイニングとその応用
データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)
- 作者: 加藤直樹,矢田勝俊,羽室行信
- 出版社/メーカー: 朝倉書店
- 発売日: 2008/10/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (3件) を見る
がオススメ。サポートベクターマシーン(以下SVM)の記述とかニューラルネットの記述とかどうしようもなく古くなっている部分はあるのですが(間違っているという意味ではないです)良書だと思います。とくにいわゆる「ビールとオムツ」な古典的なアソシエーション分析を1度は学んでみたいという方にオススメ。
その上での購買行動分析の応用本だと、例えば
戦略的データマイニング
良い意味で結果が全然美しくないので、現場の手探り間が分かると思います。事例本なのでそんなもんかとサクッと読むのがオススメ。
あと古典的な教科書としては、以下2冊も良い本
データマイニング手法
データマイニング手法 予測・スコアリング編―営業、マーケティング、CRMのための顧客分析
- 作者: ゴードン S.リノフ,マイケル J.A.ベリー,江原淳,上野勉,藤本浩司,佐藤栄作
- 出版社/メーカー: 海文堂出版
- 発売日: 2014/04/01
- メディア: 単行本
- この商品を含むブログ (1件) を見る
データマイニング手法 探索的知識発見編―営業、マーケティング、CRMのための顧客分析
- 作者: ゴードン S.リノフ,マイケル J.A.ベリー,佐藤栄作,斉藤史朗,原田慧,小川祐樹,大野知英,谷岡日出男
- 出版社/メーカー: 海文堂出版
- 発売日: 2014/04/01
- メディア: 単行本
- この商品を含むブログを見る
どちらかと言えば「お話」部分も多いのですが、実践的文脈で書かれているところとデータマイニングの基礎的手法が網羅的に語られているところが良いです。クラスター分析とか遺伝的アルゴリズムとか統計学の文脈だとなかなか詳細語られない手法について概観しておきましょう。
データマイニングは分かったから、応用数学方面に手を伸ばしたい!という方。
応用数学、とくに最適化問題やフーリエ解析、ウェーブレット方面の入門書としては金谷先生のテキストが感動する程分かりやすいです。
これなら分かる最適化数学
これなら分かる応用数学教室―最小二乗法からウェーブレットまで
- 作者: 金谷健一
- 出版社/メーカー: 共立出版
- 発売日: 2003/06/01
- メディア: 単行本
- 購入: 17人 クリック: 123回
- この商品を含むブログ (110件) を見る
どちらもとにかく読み手への配慮に行き届いているテキストで、数学に苦手意識がある人にも安心してお薦めできる良書です。画像解析やパターン認識の基礎的道具を挫折なしで習得できます。本当にすごい。圧巻です。高校数学からの数学学び直し本の王様はもしかしたらこの本かもしれません。解説の分かりやすさの点でも、応用への直接的なつながりという点でも。
ちょっと脇道にそれますがゲーム関連の話に興味がある方は、
ゲーム3D数学
- 作者: Fletcher Dunn,Ian Parberry,松田晃一
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/10/04
- メディア: 大型本
- 購入: 21人 クリック: 141回
- この商品を含むブログ (41件) を見る
こちらもベクトルの解説レベルからとても分かりやすく(丁寧というよりは直感的に)書かれている好著です。クウォータニオンの扱いがどうにも慣れないという方もどうぞ。
★★★
すごく散漫になってきました(ごめんなさい…。)
こうやって見ていくと、どうやら僕は、あまり名称や区分にこだわらずに幅広く数理モデルに接していくと良い、と思っているのかもしれません。そういえば、感覚的にはデータサイエンスという今もって定義が曖昧な概念がどんどん関連しそうな領域に手を伸ばしていったのも2010年以後の流れの1つでした。データサイエンス本のタイトルや参考文献の変遷を誰かがまとめてくれるとありがたいのですが…。
あとあえて何でもかんでも数理モデルと言っていますが、伝統的に数理モデルと言ったらもちろん統計モデルではなく微分方程式を用いた数理モデルだったと思います。統計学を学ぶ過程でモデリングって楽しい!面白い!となったら、是非微分方程式を立てる方面の学習もしてみると良いかもです。
有名な入門用のテキストとしては、微分方程式で数学モデルを作ろう
- 作者: デヴィッド・バージェス・モラグ・ボリー,垣田 高夫,大町 比佐栄
- 出版社/メーカー: 日本評論社
- 発売日: 1990/04/09
- メディア: 単行本
- 購入: 15人 クリック: 101回
- この商品を含むブログ (5件) を見る
がオススメ。数理モデルというよりは統計学だけをやっているとなかなか使わない微分方程式の入門本としても良いです。
数理モデリング入門
- 作者: Mark M. Meerschaert,佐藤一憲,梶原毅,佐々木徹,竹内康博,宮崎倫子,守田智
- 出版社/メーカー: 共立出版
- 発売日: 2015/01/24
- メディア: 単行本
- この商品を含むブログ (1件) を見る
もオススメ。分数階微分の応用とかもあって楽しいです。
もちろん、物理が嫌いじゃなかったら大学物理の教科書をサルベージするのもありだと思います。ベクトルや行列やテンソルなんて道具なんだから、どんな入り口から入っても良いはずです。領域にこだわる学びは不自由だと思います。
物理のためのベクトルとテンソル
テンソルにちゃんと慣れたいと思っている人は多いのではないでしょうか。もし高校時代物理が苦手じゃなかったら本書を是非。
物理本まで出してしまった…全然収束しないのでここらへんで機械学習本へ。
【オススメ本 ~機械学習と深層学習~ 】
機械学習をちゃんと学ぶ場合、最近でた東京大学工学教程のテキストはかなりオススメです。
とくにお薦めは以下2冊
線型代数2
線形代数2は機械学習の文脈ですごく現代的にまとまっています。非負行列についてや一般逆行列についてなど、ふつうの線形代数本ではあまり扱っていないトピックが嬉しいです。前のエントリーで行列代数についてのテキストを紹介しましたが、ある程度数学的基礎力がある方(線形代数の学部テキストを十分理解できる方)は、間挟まずこちらのテキストを即座に読んだ方が、機械学習の道具としての線形代数を効率よく学べると思います。
僕的にはなかなか定本がなかった分野なのですが、変分法の数理についてのお薦めテキストも同シリーズから、
最適化と変分法
もちろん全部読んだわけではないのですが…こうしてみるとすごくすごく良いシリーズなのではないだろうか、東京大学工学教程。頑張って欲しいです。
こちらは有名なテキストですが、各手法についての基礎的事項を網羅的に学びたいなら
はじめてのパターン認識
この本とPRML(とあといくつか)が機械学習系のオススメテキストの公約数ではないでしょうか。安心してオススメできる良書です。
機械学習の多くの手法は多変量解析やデータマイニングの流れから自然に読めるのに対してインパクトが大きいのはカーネルトリックではないでしょうか。カーネルトリックをしっかり学びたいのなら、カーネル多変量解析
カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)
- 作者: 赤穂昭太郎
- 出版社/メーカー: 岩波書店
- 発売日: 2008/11/27
- メディア: 単行本
- 購入: 7人 クリック: 180回
- この商品を含むブログ (32件) を見る
が圧倒的にオススメです。数学の基礎力は必要です。
テキストマイニングの領域に興味がある方は、
言語処理のための機械学習入門
自然言語処理がはじめての方はもちろん、機械学習に必要な数学の基礎をコンパクトに復習するためのテキストとしても本書は有用です。自然言語処理という領域をあまり意識せず、数学に苦手意識のある方は機械学習数学の入門書としてトライしてみると価値があると思います。このテキストがとても難しい!と感じる場合はもう少し数学の学び直しが必要かもしれません。
テキストマイニングと言えば、すぐできるGUIソフトとしてKH Coderがありますね
社会調査のための計量テキスト分析
社会調査のための計量テキスト分析―内容分析の継承と発展を目指して
- 作者: 樋口耕一
- 出版社/メーカー: ナカニシヤ出版
- 発売日: 2014/03
- メディア: 単行本
- この商品を含むブログ (4件) を見る
本書は、KH Coderのマニュアル本でもあり、同時に自然言語処理のライトな入門書にもなっています。理論詳細を学ぶ本ではありませんが、これからテキスト処理をしてみたいという方は本書を手に実際動かして見るのが手っ取り早いと思います。ちなみに漱石ファンは1.5倍楽しめます。
最後はあまりにも有名な3冊。アンチも根付良いファンも多いですが、僕はどれも大好きです。
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (20件) を見る
通称PRMLです。PRMLは難しいというか行間が広い本です。あまりにも有名になり過ぎてしまったので、いきなりこの本からはじめて玉砕されてしまう人が(とくに3年くらい前までは)すごくすごく多かったのですが、数理統計と行列代数(線形代数)と学部程度の解析(変分法とかラグランジュ乗数とか)をちゃんと理解していれば(少なくてもトピックごとにもう少し行間が密な他書を参照しながらであれば)読み通せるはずだと思っています。
というようなことを言って何度も怒られたことがあるのですが(笑)
読めない!という人は厳密な理解にこだわり過ぎている場合が多いようです。例えばウィシャート分布の導出とかはちゃんとやるとものすごく難しい(というよりは面倒くさい…)と思うので、その証明をフォローすることで流れを見失う(膨大な時間を使ってしまう)くらいならまずは所与として読み進めるという方が圧倒的に効率が良いはずです。ここらへんのバランスは本当に難しいのですが、少なくともPRMLは流れに乗ることが肝要なテキストだということは覚えていて欲しいです。細かいフォローはできなかったとしても、一度でも通読できればその後はレファランスとしてゆっくり(余裕を持って)付き合うことができるようになります。いつまでも「PRML読めない自分」に後ろめたさを感じるのは生産的ではないと思うので、さくっと読み通してしまいましょう!
続いてマーフィー本
Machine Learning: A Probabilistic Perspective
Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)
- 作者: Kevin P. Murphy
- 出版社/メーカー: The MIT Press
- 発売日: 2012/08/24
- メディア: ハードカバー
- 購入: 1人 クリック: 26回
- この商品を含むブログを見る
まだ翻訳がないですね。大著ですがPRMLよりも網羅的で細かい、ゆえに読みやすいと思います。本腰入れてこの道で行こうという方はもちろん、レファランス本としても置いておくと困ったときに便利な本です。
最後は
統計的学習の基礎
- 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
- 出版社/メーカー: 共立出版
- 発売日: 2014/06/25
- メディア: 単行本
- この商品を含むブログ (5件) を見る
書き手も役者も豪華な決定版。
これは完全に感覚とイメージなのですが、学習トピックとして統計学と機械学習を最もメリハリよく分ける(差が出る)概念は正則化(あるいは汎化性能へのこだわり)とアンサンブル学習ではないでしょうか。長年しっかりしたデザインのもとでコテコテの統計モデル適用してきた人たちからアンサンブル系のモデルに対して「そんなことして良いの?」という声を聞いたことは少なくありません。ただしモデルの有用性はそれとは別な話。ランダムフォレストや勾配ブースティングの強さはKaggleやKDD Cupなど各種のコンペの結果を見れば一目瞭然なわけです。
大著だから敬遠する人も多いけれど、本書の良いところは(正則化はもちろん)アンサンブル学習に詳しいというところ。広い読みでも良いので参照してみてください。
英語版(PDF)は無料で公開されています!
アンサンブル学習をPythonを使って手っ取り早く動かしたいなら、
Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
- 作者: Sebastian Raschka,株式会社クイープ,福島真太朗
- 出版社/メーカー: インプレス
- 発売日: 2016/06/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
Pythonを使ったML入門本としてもお薦めです。アンサンブル学習ははじめてのパターン認識(既出)でも後半で扱っていますね。
ここから深層学習本。まだまだ不勉強なのですが紹介していきます。
深層学習はTensorflow触りながらの学習の方が絶対良いと思うので、適宜コーディングサイトとか参照しながら手を動かして学ぶのがオススメです。WEB見ているとNIPSはじめ最先端のモデルが次から次と出てくるので迷いがちですが、初学者は理論としてしっかり理解するべきトピックとして、まずはCNN、RNN、LSTMをしっかり理解することを目指すと良いと思います。
既出ですがはじめの1冊としては
深層学習
か、
深層学習 Deep Learning
深層学習 Deep Learning (監修:人工知能学会)
- 作者: 麻生英樹,安田宗樹,前田新一,岡野原大輔,岡谷貴之,久保陽太郎,ボレガラダヌシカ,人工知能学会,神嶌敏弘
- 出版社/メーカー: 近代科学社
- 発売日: 2015/11/05
- メディア: 単行本
- この商品を含むブログ (2件) を見る
難易度的にはそんなに変わらないのだけれど、どちらかと言うと岡谷先生の本→人工知能学会の本という順序の方が読みやすいと思います。
Pythonを使ってしっかり手を動かして学ぶなら圧倒的にオススメなのが
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
- 作者: 斎藤康毅
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/09/24
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (18件) を見る
こちらです。
最後理論的背景をもっと詳しく知りたいならばベストセラーとなった
Deep Learning (Adaptive Computation and Machine Learning series
Deep Learning (Adaptive Computation and Machine Learning series)
- 作者: Ian Goodfellow,Yoshua Bengio,Aaron Courville
- 出版社/メーカー: The MIT Press
- 発売日: 2016/11/18
- メディア: ハードカバー
- この商品を含むブログ (1件) を見る
素晴らしいことにPDFで公開されている上、東大の松尾研究室で翻訳準備中とのことでもうすぐ(?)日本語で読めるようになるかもしれません。そうそう松尾研のWEBサイトはそれ自体深層学習の勉強にすごく有用だと思います。
deeplearning.jp
【オススメ本 ~離散数学関連~ 】
息切れしてきた…。
一応、機械学習と銘打ったテキストでなかなか数理的なフォローが行き届かない分野としてグラフ理論がありますが、グラフを学ぶならこちらがお薦めです。高校数学程度の前提知識でも読み進めていけます。
グラフとダイグラフの理論
離散数学の様々なトピッ概論としては、最初の1冊としては
離散数学入門
が良いと思います。
情報理論と符号理論も
限界!
【結び】
今回はGLM以後をテーマにして機械学習・深層学習の文脈では通常扱われない雑多なテーマも含めてテキスト紹介を行いました。各論の深堀りテキストはこれから順次紹介していこうと思います。
なるべく小カテゴリーの中では難易度順になるようにしたつもりなのですが、読んでから大分時間が経過しているテキストも多く、そこら辺は随時加筆・修正して更新していきたいです。あと教科書紹介なので当然ながら内容の重複も多いです。なるべく内容の重複なしで、最短で学ぶテキストラインナップを考えることもすごく重要だと思うし、メリットが多いと思うのですが僕では現状整理しきれず今後頑張ろうと思います。
ちなみにほとんどの人にとって全部読む必要性はないはずです。僕は友達ノリでお客さんや同業の人と同じテキストを読むのが好き(話題に入りたがり)なので少し多めに読んでいるかもしれません。ただし感想は正直に書いています。だいたい全部褒めてるように見えるかもしれませんが、読んで本当にどうしようもなかった本(沢山ある!!)はあえてスルーしています。
あと、たぶん全体的に少しテキストが古いかも。最近は統計もMLもDLもテキストが山のように出版されていて羨ましい限りですが僕のポテンシャルでは到底キャッチアップしきれません。良い本あったら教えて欲しいです。
★★★
大人の学びって覚悟がいりますよね。学生の時みたいに時間ないし、仕事とかキャリアとか家族とか子供とかお金とか病気とか心のバッファを占領するものが沢山あるし、だから時間かけて学ぶことに躊躇してしまうし、だからと言って時間をかけないと理論的なことは身につかないし、その上身に着けた内容がお金に変わるとは限らないし、と言って学習サボっているとすごい勢いで忘却していくし、計算遅くなるし、覚えられなくなっていくし、新しい論文次から次に出てくるし、若手のすごい人も次々現れるし、これまでの常識を覆す理論とかがなぜか矢継ぎ早に提案されてくるし、何とかならないかなとモヤモヤしていると自己啓発書が広告で甘い誘惑かけてくるし、迷っていたら次の仕事が大火事で勉強どころじゃなくなって再開した時にはこれまでのこと忘れているし…。学び続けて、積み上げて、使えるようにするのは本当に本当に本当に大変だと思うのです。データサイエンスみたいな型がふわっとしている領域ならなおさら、しかも数学から遠く離れていた人ならもうものすごく、大変だと思うのです。
だから止まってしまってもしょうがないと思います。放り出したテキストが沢山あっても、積読が沢山あっても、読まないままメルカリに出品したテキストがあっても、ごくごく普通なことなはずです。再出発はいつでもできるし、新しい出発地点は前と同じじゃなくても良いはず、そう思ってなるべく様々な角度からテキスト紹介をしました。
それではまた次回!
★★★