「データサイエンスのオススメ本 その⓪ 経営学・中学数学・Excel」
フリーランスのデータサイエンティスト日記
8回目のエントリーです。前回はGLM以後の様々な領域のテキスト紹介を五月雨式に行いました。
ちょうどアポ前に書いていて、時間ギリギリのタイミングで「えいやっ!」と公開してしまったので、今日になってあらためていろいろと見直していたのですが、もっと書きたい部分や書き直したい稚拙な部分など文章としての不備は置いておいて、なんか少し違和感を感じたので今回のエントリーです。
いや、前回紹介しているテキストは陰に陽に確かに役立ってきてくれた本たちなのですが、そこで書かれている内容が現場の方、とくに始めたばかりの方々とあまり結びつかず「僕の知ってる現場の人たちってこんな内容求めてたっけ?」と思ったわけです。いや、求めてないな。求めていたとしてもごくごく小数派なはず。
たぶん難しかったと思うのです…自分が数か月から数年かけて読んできたテキストたちを矢継ぎ早に紹介しても窒息しそうになりますよね…僕のブログは全然アクセス数がないのですが、もし読んでくださっている貴重な方々の中で負荷を感じてしまった方、大変申し訳ないです。
データサイエンスを学びはじめようとしている人や今始めたばかりだけど分からな過ぎて困っている人たちの学びの環境をもう少しマイルドにしたいという思いもあったのに、全然マイルドじゃなかったです。もっと言うとGLMまでしっかり理解できるような人ならあとは独学でどうとでも進めるよね…元も子もない感想だけど…なんか急ぎ過ぎました。
ということで、少し掘り下げたテキストの話は後回しにして、もっと僕のリアルなお客さんを想定して細かく刻んだエントリーを挙げたいと思います。テーマの半分はExcelです!いろいろな意味でちょっと怖いけど書きます。WEB世界の片隅で書くのでアンチExcelな人許してください。
【データサイエンスのオススメ本 0(ゼロ)】
★★★
私見ですが、twitterとかはてブの有名な方って、ものすごいハイスペック過ぎる方が多いと思うのですね。読んでいてすごくタメになるし楽しいし日々感謝なのですが、同時に高度過ぎて初学者の心を折るところもある気がするんです。いや、僕のメンタルが弱小なのでそう思うだけかもしれませんが…。
ハッキリ言うと、データ解析に携わっている人も、理系の人も院卒の人も、学業から遠く離れている場合(卒業後すぐの若手は除く)は、たぶん大部分の方は周り見ていただくと状況を納得していただけると思うのですが、皆さんそんなに数学はできないものです。
また、非エンジニアであればExcelやAccessでもちゃんと使える人はすごく稀です。例えば非エンジニアな人がVBA書けるとかって結構誇って良いはずだと思うんですよね。学歴や数学やIT周りで不安やコンプレックスを抱えている方も沢山いると思うのですが、結構な割合で幻想的な超人社会をイメージしてしまっている場合があるので注意です。あとWEB記事はエンジニアバイアスも結構あると思います。エンジニアだけが必要なスキルだとは到底思えないのですが、どうしてもそう見えてしまいがちな傾向もある気がします。WEBな人々がキラキラ輝き過ぎているだけなのだと思います。
自分の仕事と照らして使えそうという感覚があるなら、領域や学歴は無視してどんどん進んでしまっていいと思うのです。
★★★
データサイエンス的な業務を高度なアカデミックキャリアを背景にもつ人だけに限定した方が質的な意味で安定するというような意見もあるかもしれないのですが、それとこれとは別なのです。
ユーザーやお客様のこと、自社サービスの使われ方やイメージ、業界や社会のことについて、データから知りたい、知見を深めたいし確かめたいし発見したい、というのは必要だし自然な欲求なので臆さずどんどんチャレンジすると良いと思います。そしてそれを行うために必要な道具はそんなに高度である必要はないはずです。単に高度化できるというだけのことです。
リコメンドエンジン作ったり、予測や判別のモデル作るというのならちょっと大変そうですが、例えば自分の直感を裏付けたり、今あるデータから誰もが納得するな結果や誰かを動かすような結果を示すとき、大抵の場合は(統計学的な裏付けがあろうとなかろうと)グラフだけでも明らかなような圧倒的な結果が必要なはずです。
だからこそ誰もが納得するわけで。「データで語る」みたいなテキストで、高度な手法使っている書き手なんて全然いませんよね?多くの場合、ただただデータを調べて可視化するという地道な作業のたまものなわけです。さらに、僕の拙い経験から言うと、そういう基本的なデータ操作を得てしかも結果を出してきた人の方が、本格的にデータサイエンスを学びはじめた時に圧倒的に勘所が良いような気がしています。
コア・テキスト 経営統計学
本書はデータ分析を実務で生かしたいという方全員にオススメの名著です。著者は調教大学の高橋伸夫先生。経営学関連を学んでいる方なら知らない人はいないと思うのですが、実は東京大学出版の緑本の共著者の1人でもあります。このテキストも実は緑本の担当ページを少し経営よりにした仕立てとなっています。
このテキストのすごい所、類書にない所は、クロス表(とくに2×2クロス表)の扱い方と大切さがこれでもかというくらいにしっかり書かれている点です。Excelの「ピボットテーブル」をよく使っている人は自然な形で実作業と統計学的発想をリンクさせることができると思います。
統計入門中の方は、推測統計基礎の復習とExcelを用いた解析の入門にも使えるでしょう。「相関」の概念を散布図から少し掘り下げるきっかけにもなるはず。
また理論的な数理統計ばかりを学ばれてきた人にとっては、実務応用する場合に求められる手軽さ(スピード感と単純さと説明力)について実感できます。応用の方向性やシンプルな形に落とす工夫の勘所が理解できると思います。理論書ばかり読まれてきた方、多変量解析や機械学習にまで一足飛びに行けてしまった方にこそ読んで欲しいテキストです。
本書の発想による実際の解析成功例は少し古い本ですが
できる社員は「やり過ごす」
などを参照。基本的にはビジネス書なので統計学的な突込み所はあります。が、するどい洞察と説得力のある分析、それを伝えるための分かりやすくロジックにも心にも響く表現方法など学ぶところが多々あるテキストです。やや古いので現状の環境にどこまでフィットするか分からないのですがサラリーマン(とくに管理職の方)の方には内容的にも役立つ部分があるかもしれません。
あぁ。機械学習だAIだという流れに抗いまくってる。けど、もっとこういう本をサルベージしていきたい。
★★★
数学についても同じ。「いつからでも頑張れる」みたいなありがちな結論になりそうな予感がしながら書いているのですが…結論というよりは、まずは本当にみんな文系とか理系とか気にしすぎ!数学の苦手意識高すぎ!という状況をシェアしたいです。
これも感覚なのですが、少なからず分析とか解析とかに携わっている人でさえ7割くらいそんな感じな気がするのです。気分的にも良くないはずだし、それによって動けなくなっているのが本当に勿体ないといつも思ってきました。「私は文系なのでとか」「一応理系なのですが」とか何度聞いたことか…。
奇しくもこれを書いているのはセンター試験中なのですが、いつも思っていたのだけど(数学に限らず)例えば大学受験の問題ってすっごく難しいと思うんです。あんなに難しい試験で高得点取れる人たちが、社会人になると高校数学やらプログラミングやらでどうしようもなく躓いてしまうのはなぜなのでしょうか。
いろいろな意見があるけれど、一つは不確実性の問題なのではないかと思っています。数学の基礎的な内容ってまだまだ習得するのに時間がかかる上に役立つかどうか分からない(受験生時代の受験勉強や直面する業務直結の勉強に比べて)相対的にすごくリスキーな内容だと思われていて、リスキーな内容という前提が精神を動揺させ集中力を妨げていて、集中力がないから勉強もなかなか身につかず、なかなか身につかないけど時間がないから成果を焦って曖昧な理解で良しとしてしまい、その結果先に続かないし使えない状態でストップするから、数学が苦手という意識も数学の勉強がリスキーという観念も強化される、みたいな構造ではないでしょうか。
高速で大学数学をものにするような天才的な才能の話ではなく高校数学の話なので、難易度の問題でもないと思うのです。だって出来ていたはずですよね、少なくとも数Ⅱ・B(?今の制度が分からないけど要するに文理共通内容)までは。
だから落ち着いて、思い出して、一歩踏み出して欲しいです。健全な自己評価をして欲しいです。暗気力も計算力も落ちたかもしれないけど、高校生で出来たことは段取り力や効率性や(人によっては)技術力を磨いてきた今ならもっと楽にできるはずです。それにもちろん、お金があれば工夫の幅は広がります。リアル・オプションを、ポートフォリオ・マネジメントを、企画力を、健全に「数学の学習」という投資対象に適用してみてください。本当に費用対効果の見積はできないのでしょうか。数学は本当に投資効率が悪い分野なのでしょうか。本当に数学と言う壁を壊す企画はないのでしょうか。
でもって健全な計算結果で万が一投資効率が悪かったとしても、本当にそれだけで諦めてしまってよい分野なのでしょうか。科学の言語の数学が。
オイラーの贈物
本書は中・高校数学の基礎あたりからオイラーの公式までを効率よく学べるテキストです。数学が嫌いではなかった社会人の方が、数学そのものに再入門するテキストとしてオススメです。
同じ著者の虚数の情緒
は上記のテキスト同様オイラーの公式を中心軸としながらも文学や歴史、量子力学や相対論の入り口まで非常に幅広いトピックを扱った大著です。「中学生からの全方位独学法」という副題はウソではなく、学問が有機的につながっている様子を中学生からでも学べるように練りに練って構成されています。(多少説教臭いところがあるのですが…学生くらいならむしろ響くのかもしれません…)
「この商品を含むブログ」が93件もある!いつの間にかそんなに売れたのですね…。著者の熱意勝ちだ。
ついでに素数夜曲
こちらは整数論の入門書であり関数型言語の入門書でもあります。データサイエンスはどうしても解析よりと見られてしまうけれど例えば暗号論の基礎とかは理解していて損はないはずです。λ計算で躓いた方も数学と一緒に再トライできます。いつか学びたくなるコンピュータ・サイエンスの理論方面への備えとしても良いと思います。
あとは、新著で手軽に持ち運びができ、基礎的事項を効率的に(ただしあまり胡麻化さずに)学べる学び直し本として、
数学入門<上>
数学入門<下>
水道方式の世代の方は読んでいない気がするのでちょっと紹介すると著者は数学教育会の巨匠のひとり。最近評伝もでたそうです。
遠山啓 行動する数楽者の思想と仕事
高校から数学が苦手となってしまった方の一定数は極限や虚数などの定義(導入)に違和感を持って立ち止まってしまった人たちがいるのではないでしょうか。そういった方はあえて、高校数学のテキストや工学系テキストを読んでも同じ違和感を抱えたまま進むことになりがちです。あえて大学数学の基礎的テキストから学び、厳密な定義の記載方法と数学的な構造についての理解を進めた方が近道なはずです。
是非オススメなのが、
集合と位相
すごく誤解されていますが、例えば高校数学の問題が難なく解けなければ大学数学のテキストを読めない、というわけではありません。本書を読めばアクセス可能なテキストの幅がぐっと広がるはずです。数学が厳密な土台の上に築き上げられているということを(標語ではなく)集合と位相という概念を経由して理解すると、たいていのことは時間さえかければ理解できるはずだという自信も身に付きます。「距離」という概念の扱いや、同時に距離(計量)を経由しない「近さ」の扱いなど、データサイエンスでも必須の考え方も位相を学ぶことで自然と馴染むことができます。
★★★
Excelについて。データサイエンスや機械学習を本業にしている人のExcelの評判は本当に悪いです。ネ申ExcelやExcel方眼紙、Excel大好きユーザーの弊害はすごくすごく分かるのですが、データ分析をこれから始めるなら手っ取り早さの点でExcel程優れた教材はないと僕は思っています。
一番危惧していることは、Excelではデータ分析は出来ないのか、とデータ分析そのものを手放してしまうことです。プログラミング経験のない方にとってRやPythonの導入がすごく敷居が高い(ググれば誰でも出来ると本人が分かっていてもそれでもインストールする気になれない)ということを知っています。何ならExcel操作も少し不安という方も沢山いますよね。
きっかけ一つだと思うのです。まずはExcelでの分析を覚えて、例えばVBAでプログラミングに馴染み、自然な形でRに入り、余裕があればPythonやSQL(順序適当)という流れで全然良いと思います。Excelである程度成果を出せる人はその他の環境でも成果を出せるはずです。
ただしExcelでやれる(やるべき)ことには限界があるというのは圧倒的に真実だと思います。それでもそんな要求をしてくる「何でもExcelおじさん」に正しく反論するにもExcelの知識は役に立つはずです。Excelユーザーでも大丈夫、Excel好きならむしろチャンスです。
Excelで手作り数学シミュレーション
Excelで遊ぶ手作り数学シミュレーション―グラフ機能とVBAプログラムを自在に操る (ブルーバックス)
- 作者: 田沼晴彦
- 出版社/メーカー: 講談社
- 発売日: 2004/01/21
- メディア: 新書
- 購入: 1人 クリック: 23回
- この商品を含むブログ (7件) を見る
本書はExcel VBAを使いながら数学シミュレーションを行うための入門書です。Excel VBAやユーザーフォームの入門書としても数学学び直し本としてもとても良いテキストだと思います。とくに中学数学あたりから躓きを感じてしまった方には福音の書となるかもしれません。手を動かして、関数を動かして学ぶことで、新鮮な気持ちで数学と向き合い直すことができるはずです。扱っている内容もケプラーの惑星運動までとなかなか高度。ビジネスユースでVBAを学びたいと思っている方には一石二鳥のお得感もあります。
上記のテキストがフィットしたらVBAの世界を少し掘り下げて、かつプログラミング思考の抽象度を上げるのが良いと思います。Excel本はあまり詳しくないのですが、例えば大村あつしさんの一連のテキストは定評があると思います。
Excel VBA 本格入門 ~日常業務の自動化からアプリケーション開発まで~
- 作者: 大村あつし
- 出版社/メーカー: 技術評論社
- 発売日: 2015/05/16
- メディア: 大型本
- この商品を含むブログ (1件) を見る
クラスモジュールまである程度使えるようになったら、古いですが
そこが知りたい!Excel VBAプロの技 Excel97/2000/2002/2003対応!
そこが知りたい!Excel VBAプロの技 Excel97/2000/2002/2003対応!
- 作者: 井川はるき
- 出版社/メーカー: ナツメ社
- 発売日: 2003/11
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (4件) を見る
を読めば、Excel VBAの(ダサさではなく)深さと素晴らしさを実感できると思います。古いか!?
データサイエンスをExcelで行うテキストとしては既出ですが、
データ・スマート
英語版は大ベストセラーとなりました。圧倒的にお薦めな良いテキストです。邦訳のamazonレビューが全然盛り上がっていないのですが、心配な人は原著を読みましょう(僕は原著しか読んでいません…。)ロジスティック回帰やクラスター分析(!)、Naïve BayesまでをExcelで実現しているテキストですが、Excel使いの発想の良さに刺激を受けます。ソルバーアドインやoffset関数・index関数など分析系関数の使い方にも自然に慣れることができるでしょう。多変量解析のロジックを知りたいけれど数式は読みこなせないという方も、手を動かして計算過程を一目で見ながら学ぶことができる本書のようなテキストを間に挟むと理解が進むはずです。
ここも既出ですが、配列数式(Array Formula)の扱いが心配だと言う方向けにExcelの本も1冊紹介。Excelにも豊かな世界が待っていることを実感できます。
Excel 2016 Bible
Excelを用いたグラフの扱いについては、まずはこの1冊
理系のためのExcelグラフ入門
まずはグラフや表を作るということを徹底的に繰り返し行って習慣化する(面倒にならないようにする)ことが本当に大切だと思っています。ソフトウェアの手順や操作に関する簡単なTIPSを一読してストレスフリーな状態にしておきましょう。
★★★
【結び】
迷った末にUターンしました。
好きだからやる、食えそうだからやる、ただそれで良いと思うのだけど何か勿体ないポテンシャルの人がどこでも溢れている気がしています。しかもそれが無自覚なコンプレックスや単なる勘違いであることがすごく多いような。あと一歩で飛躍できるのに踏み止まってしまっている人たちに天才たちの超絶技巧は無用。今ある環境の中から少しでも進めるきっかけが得られればと今回のエントリーを書きました。
本当は新しい本買わなくても本棚や机の隅に積読してあるテキストをもう一度開いて見るというだけで学び直しのすごく良いきっかけになると思います。例えば数学って不思議なところが沢山あって、ずっと分からなかった所や分からないだろうと決めかかっていたところが、数か月後(あるいは数年後)にページ開いてみたらあっという間に分かってしまう、みたいことも多々あって、そんなことが案外モチベーションの復活につながったりするようです。
「データサイエンスのオススメ本 その⑤」
フリーランスのデータサイエンティスト日記
7回目のエントリーです。今回からは一般化線形モデル(以下GLM)の基礎まで学んだ方を想定して、後続のテキストや機械学習テキストを紹介していきたいと思います。ここらへんまで来るといろいろな手法がいろいろな文脈で語られることが多いのでなかなか整理も難しいのですが、タスクベースで見ながらなるべく迷わないテキストセレクションを行いたいです。
とくに、GLM辺りまで学んだ後はやっぱり機械学習(以下ML)だよねーと、いわゆるPRML(『パターン認識と機械学習』)とか『統計的学習の基礎』に進んだ後、即座に玉砕というストーリーを見て来たので、まずはPRMLだけじゃない(もちろんゴールでもない)という当然の認識を強調した上で、【間を埋める】ことも意識しながら書きたいと思います。あと、MLだDLだといいつつ、統計モデルや数理統計の理論に魅了される人も結構いるのでは推測しているので、数理統計のその後、についても充実させたいです。
また、毎回のエントリーでくどく言っているのですが、本当に焦ると良いことがないのでなるべく末永く使える基礎力の強化を主眼としてテキスト選びをしたいと思います。レベル感は一応GLMまで学んだ方が対象となるのでやや高めになっていきますが、もっと基礎から学びたいという方は過去エントリーを参照してみてください。
★★★
概論については2回目のエントリーを
データサイエンスな人って普段どんなことしてるの?とかどんなこと考えてるの?という疑問に対してヒントになるテキストを紹介しています。
統計学の基礎については3回目のエントリーを
データサイエンスをこれからはじめる方向けに、入門書と数学の学び直し本を少し紹介しています。あと一応Excel本と関連する資格のまとめも。
多変量解析の基礎については4回目のエントリーを
多変量解析の入門以後のテキストについて紹介しています。動機付けのための歴史関連の本もいくつか。
今(というのは2018年の1月頃)中規模書店で手に入って気軽に中身を確認しやすいテキストについては5回目のエントリーをご参照ください。
まずは本屋さんで情報収集したい、という方向けに ビル型の大規模書店にいかなくても見つかりそうなラインナップを紹介しました。啓蒙レベルから初・中級程度の書き手様の様相が分かるかと思います。
★★★
テキスト読む順番とかを有向グラフでリコメンドしてくれるWEBサイトとかかってないのでしょうか「この本を読んだ人はその前にこんな本を読んでいます」とか「この本を読んだ人はその後にこんな本を読んでいます」とか。ないか
★★★
ここからテキスト紹介です。今回はいくつかのカテゴリに分けています。振り返らずにガーと書いていき、また時間があるときに目次付けてまとめたい。のですが、今は自分の継続をメインにしてやや荒削りのままアップさせてください。ほんと毎日Blog更新している人は何者なのだろう…凄すぎ。
【オススメ本 ~ 数理統計のまとめ本とレベルアップ本~ 】
既出ですが東大本3冊をまずは読み返しましょう。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08/01
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (22件) を見る
なんやかんや言って東大本は本当にありがたいです。末永く座右の書として役立ってくれそうな感じがします。今難しいとか、分かりにくいとか感じる方も、参照用で良いのでゲットしておくことがオススメします。初学者がはじめて読んだ時の評判の悪さはアルアルなのであまり気にせず、歳月を得ても生き残ってきたという市場の評価を重視してOKだと思います。
僕の拙い経験だと例えばPRMLと同じように、東大本についても知ってはいる/持ってはいるけれど実際にちゃんと読んでいる人は本当に少ないです。ビジネス書的に少し大げさにアジってしまえば、この3冊をちゃんと読んだだけである程度差別化できると思います(悲しいけど現状はまだまだそのくらいだと思います。)
あと東京大学出版の本は(統計本に限らず)全般的に閉じている良書が多いです。いちいち他のテキスト参照しなくても写経(という程数式の多い本ではないのですが)でも何でもすれば、必ず読みこなせます。逆に言うと東大本の赤(1冊目)が読めない場合は、数学的基礎力をもう少し固めた方が良いのですが、その程度の基礎力はこれからデータサイエンスのどのような領域に進もうと、あるいは少しでも数学に関連するどのようなことを行おうと絶対に持っていた方が良いのでトレーニングの投資対効果は抜群です。効果がそれほど明確な投資対象があるなんてすごくラッキーなことなので、迷わず高校数学の学び直しをしておくと良いと思います。
続けます。
東大本はさらっと一読した。その上で数理的なテクニックを少し引き上げたいという方に是非オススメなのが、Raoの
Linear Statistical Inference and its Applications
Linear Statistical Inference and its Applications (Wiley Series in Probability and Statistics)
- 作者: C. Radhakrishna Rao
- 出版社/メーカー: Wiley-Interscience
- 発売日: 1973/04/13
- メディア: ハードカバー
- この商品を含むブログを見る
このテキストは本当に良書です。使い所を理解しながら特性関数や二次形式の扱いに慣れることができます。ルベーグ積分とか特性関数(積率母関数)の扱いとか非心分布とか、確率分布曼荼羅のような様々な確率分布の相互関連とかを曖昧なままにしてきた方も本書で見通しが良くなるはずです。ソフトウェアや言語を使って解析はじめてしまうと(論文フォローしている人でもなければ)あびるように数式触れる機会がなかなか持てないと思うので、こういう数理統計本を常に何冊かカバンに入れておくとなまらずに良いですよ。
邦書もあるみたいです。ちょっと高いですが
統計的推測とその応用
- 作者: C.ラダクリシュナラオ,Cayampudi Radhakrishna Rao,奥野忠一
- 出版社/メーカー: 東京図書
- 発売日: 1992/01/01
- メディア: 単行本
- この商品を含むブログを見る
確率分布曼荼羅はコチラ
知識の整理に便利です!
Raoほど難しくはない(数理的ではない)けれど、様々な話題を網羅的に扱っていて数理統計の整理にピッタリなのが
数理統計学ハンドブック
- 作者: Robert V.Hogg,Joseph W.McKean,Allen T.Craig,豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2006/07/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (3件) を見る
内容は少し古いかも。だけど、つまみ食い的に数理統計を学んできた人が高速で読めばかなりの知識整理ができると思います。
ちなみに朝倉のハンドブックシリーズ、たぶん高いので敬遠されがちだと思うのですが、意外と良書多いです。
http://www.asakura.co.jp/G_11_2.php
大著や洋書はちょっという方が、行列表現に慣れ1歩数学的知識を引き上げるには
統計学の基礎Ⅰ
統計学の基礎 I?線形モデルからの出発 (統計科学のフロンティア)
- 作者: 竹村彰通,谷口正信
- 出版社/メーカー: 岩波書店
- 発売日: 2018/01/25
- メディア: Kindle版
- この商品を含むブログを見る
無駄のない記述がすごく気持ちいいです。前段は竹村先生による回帰モデルを中心とした解説です(東大本の青の二章を詳しくしたイメージです。)不変測度の概念がいかに応用上便利かが良く分かります。後半は谷口先生による時系列モデルの解説、こちらも時系列モデルを齧ったことがある方が、レベルアップをするきっかけとして丁度良い刺激が得られると思います。紹介は省力しますが<統計科学のフロンティア>はシリーズとしてもオススメ!
竹村先生と言えば、かなり前の本ですが、
も数学に自信がある人限定でかなりオススメです。(すごく稀だと思うのですが…)ちゃんと測度論で進めたいという人、例えばウィシャート分布ってどうやって導出するの?という方は是非。
- 作者: テレンスタオ,Terence Tao,舟木直久,乙部厳己
- 出版社/メーカー: 朝倉書店
- 発売日: 2016/12/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
古いかな。すいません、最近のルベーグ本は全然追いかけていません。ただ不足するということはないはず。
流れに乗って(測度論的)確率論までいっきに攻めてしまいたいという方は、
舟木先生の『確率論』
が圧倒的にオススメ。こういう本があって良かったと思えます。測度論の入門書を読んだ後に(記憶が曖昧になる前に)即座にに読むと良いと思います。
あとは隠れた名著として
小谷『測度と確率』
もオススメ。数学的記述の中で確率過程の基礎までを厳密に学べます。ハウスドルフ測度の話とか、他ではあんまり書いていない話題も結構あって数学好きには楽しめるはず。舟木先生の本より若干難しいです。位相の知識が曖昧だと厳しいかも。
★★★
業務で直面している内容から少しだけ外れた理論書(数学書)って何とも言えない爽やかな時間を与えてくれますよね。少しだけ外れた内容だから結局あとになってどこかで業務に繋がることも多いしお得なことしか思い浮かびません。数学書効用高いです、本当に。
★★★
さて数学方面に伸び過ぎてしまいました。GLMまでいったら次はBayesモデルだ!という方も多いはず。Bayesモデル(とくに階層Bayesモデル)の分かりやすい導入と言えば、
岩波データサイエンス Vlo1.
が絶対オススメ。「そもそも階層的構造にするのはなぜ?」に対してのスッキリした回答がコンパクトな論説から得られます。岩波のデータサイエンスも良いシリーズ過ぎて全部オススメ、小冊子な外見に惑わされずに覗いてみてください。
その後はあまりにも有名な久保先生のテキスト
データ 解析のための統計モデリング入門
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
を読まれると良いと思います。「その後は」と書いたのですがGLMまでの知識がある方であればすぐ後読めます。東大本の赤本後でも。事例は生物よりですが、階層Bayesに限らず統計モデルの組み立て方がスッキリ理解できるかと。
階層Bayesと言えばMCMC抜きには語れませんが、MCMCのアルゴリズムについてだけでなく、数理的基礎についてどこかでしっかり学びといと思ったら、
計算統計2 マルコフ連鎖モンテカルロ法とその周辺
計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア 12)
- 作者: 伊庭幸人,種村正美
- 出版社/メーカー: 岩波書店
- 発売日: 2005/10/27
- メディア: 単行本
- 購入: 5人 クリック: 78回
- この商品を含むブログ (34件) を見る
若干粘り強く数式に関わる必要があります。
Stanを用いた練習なら豊田先生の
基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2015/06/25
- メディア: 単行本
- この商品を含むブログ (6件) を見る
問題がちょっと面白い(?)です。豊田先生はBayes本を続々と出されていますね。語り口の個性が強いと思うのですが、合う人は一貫した著者のもとでいろいろ学べてすごく良いと思います。
Bayes統計をしっかり理解したい方には、WAICの渡辺澄夫先生の教科書
ベイズ統計の理論と方法
下手なBayes本を10冊読むよりは本書をじっくり読んだ方が何十倍も効用高いはずです。Bayes統計がなんとなくずっとしっくり来てない、という方(でかつ、その違和感を解消したい方)全員にオススメ!
なんかここまで理論書の比重が多くなってしまいました。もちろん全部読む必要はないと思います。スッキリ感は大切ですが、何でもかんでも知りたがるよりは、良いバランスで応用機会を作ったり、特定の文脈のテキストを読んだ方が良いと思います。
★★★
ということで、ここから少し脱線
【オススメ本 ~基礎を理解した人が飛び立てる周辺領域や東大本の補足~ 】
数理統計方面(数学的道具)のレベルアップではなく、運用としてのレベルアップを図りたい方、周辺分野のテキストを読んで領域拡大を目指したい方向けにオススメのテキストをいくつか紹介したいと思います。
まずは数理統計の運用本。例えばASAのp値批判がピンと来ていない、あるいは効果量という概念やサンプルサイズの見積について曖昧な部分が多いという方へ。
R本ですが、豊田先生の 検定力分析
がオススメ。検定力分析の実践が分かります。あと、社会科学系・人文科学系のテキストを読むのが楽しくなるかもしれません。ただしこちらはまさに運用本で、理論詳細を扱ったテキストではないです。Rの入門書についてはいつか別エントリーで。
サンプルサイズについてより詳しくは永田先生の
サンプルサイズの決め方
が良いと思います。
東大本の緑には「地域統計」や「商圏分析」などの類書(とくに邦書)でなかなか見ないカテゴリーがあるのですが、この分野はこの分野で1つの専門分野を形成しています。もっと詳しくみてみたい、ハフ・モデルやMCIの拡張に興味があるという方は、
Foundation of location analysis
ちなみに物理的な空間統計はまた別な分野です。こちらのテキストは、
空間統計学
空間統計学: 自然科学から人文・社会科学まで (統計ライブラリー)
- 作者: 瀬谷創,堤盛人
- 出版社/メーカー: 朝倉書店
- 発売日: 2014/03/28
- メディア: 単行本
- この商品を含むブログ (2件) を見る
類書があんまりないので、本当に助かりました(今ではもっとあるかも?教えてください。)
商圏分析の流れでマーケティング・サイエンスに興味をもった方には、
マーケティング・経営戦略の数
マーケティング・経営戦略の数理 (シリーズ ビジネスの数理)
- 作者: 西尾チヅル,猿渡康文,桑嶋健一
- 出版社/メーカー: 朝倉書店
- 発売日: 2009/03
- メディア: 単行本
- この商品を含むブログ (1件) を見る
マーケティングの統計モデル
ビジネスユース系のデータ解析の本は記述統計からはじまってt検定、重回帰辺りで根尽きている実質統計入門本が多いので注意です。
ベストセラーとなった森岡さんの
確率思考の戦略論
確率思考の戦略論 USJでも実証された数学マーケティングの力
- 作者: 森岡毅,今西聖貴
- 出版社/メーカー: KADOKAWA/角川書店
- 発売日: 2016/06/02
- メディア: 単行本
- この商品を含むブログ (1件) を見る
とかにインスパイアされた方(マーケ系の方、とくに小売り系の方でデータ解析しなければ!となっている方は)は、
小売りマーケティング科学のニューフロンティア
中西先生はこの分野を牽引してきた研究者の方です。コトラーとか読むよりもしっくりくるはず。この本以外は全般的にちょっと古くなってしまうので割愛。
階層Bayesを学んだ後なら、階層Bayesのマーケティング応用本として、
ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)
- 作者: 佐藤忠彦,樋口知之
- 出版社/メーカー: 講談社
- 発売日: 2013/01/22
- メディア: 単行本(ソフトカバー)
- クリック: 5回
- この商品を含むブログ (4件) を見る
貴重なビジネス応用例です。ビジネス本チックな内容ですが、しっかり書かれているので階層Bayesの応用例を(論文ではなく)テキストで学びたい、という方はどうぞ。ただし応用本なので例えば久保先生の本みたいな理論の入門書を読んでないとつらいと思います。
いずれマーケだけではなく流行りの人事統計とか事務職種別にテキストをまとめてみたいです。が、それはまた次回以後
経済モデルについては、既出ですが計量経済モデルの入門書として、
実証分析のための計量経済学
がオススメ。理論の本ではないのですが、豊富な事例を浴びれるので使い所と土地勘が得られます。
時系列モデルについての理論書では、
経済・ファイナンスデータの計量時系列分析
経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
- 作者: 沖本竜義
- 出版社/メーカー: 朝倉書店
- 発売日: 2010/02/01
- メディア: 単行本
- 購入: 4人 クリック: 101回
- この商品を含むブログ (6件) を見る
がオススメ。不均一分散とか共和分とか単位根検定とかの用語が??の人はまずこの1冊から。
傾向スコア分析については、
調査観察データの統計科学
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (25件) を見る
が絶対オススメ。因果推論についてちゃんと考えたい人や欠測処理について学びたい人も。
X12ARIMAなど公的データの季節調整ロジックを学ぶには、
が詳しいです。ARモデルから扱っているので時系列がはじめてでも読み進められます。
東大出版の青本の方についても少し補足を
青本読んでノンパラちょっと詳しくなりたいと思った方は
がオススメ。豊富な事例の中で使いどころが学べます。理論詳細はカットされている部分が多いです(青本の方が詳しいです。)ノンパラの事例をフラッシュで知りたい方にオススメ。といいつつ、すごい古い本なので今はもっと良い本が沢山あるかもしれません。
青本は差分方程式のコラムがあってその後乱数についての話で終わっています。差分を連続的にしたのが微分だと分かっていても、どうしても差分の扱いが苦手な人は多いようです。テキストもあるようでなかなかないトピックの一つなので、ここで1冊ご紹介
差分方程式
例えば微積分の基本定理の差分版の公式がすぐ浮かばない人が本書を読むと世界が広がると思います。
培風館の新数学シリーズは良書が多いです。ついでにもう1冊紹介
経済のための線型数学
本書も隠れた名著の1つ。Frobeniusの定理や、Stiemke-Tucker の定理、など最適化・線形不等式系の理論についてきちんと学びたい方には強くオススメです。
乱数についての詳細はUP選書の
乱数
がオススメ。記述がコンパクトで良いです。
『乱数』まで出してしまったので、ここらへんからデータマイニングやCSよりの事項にシフトしてテキスト紹介をしたいです。
たぶん、データ解析からPythonやRなどのコンピュータ言語に入った人には、いつかコンピュータサイエンス(以下CS)をしっかり学びたいという意欲をもっている方も多いはず。そういう方向けの入門的テキストとしては思いっきり脱線しますが、
データサイエンスしていると後半(とくにデータマイニングとかAI関連)の記述はちょっと退屈かもしれません。その他の本はまた別エントリーで。
ところで、最近はデータマイニングというが言葉すっかり使われなくなってしまったような感じがしているのですが、データマイニングと銘打っているテキストの中にはCSよりのアルゴリズム解説とビジネス応用例が良いバランスで記載されたテキストも多くあり、今もって良書だと思えるものも多いです。言葉の変遷に惑わされないことが大切だと思います。
データマイニング関連のアルゴリズムについて基礎から学びたいという方は、
データマイニングとその応用
データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)
- 作者: 加藤直樹,矢田勝俊,羽室行信
- 出版社/メーカー: 朝倉書店
- 発売日: 2008/10/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (3件) を見る
がオススメ。サポートベクターマシーン(以下SVM)の記述とかニューラルネットの記述とかどうしようもなく古くなっている部分はあるのですが(間違っているという意味ではないです)良書だと思います。とくにいわゆる「ビールとオムツ」な古典的なアソシエーション分析を1度は学んでみたいという方にオススメ。
その上での購買行動分析の応用本だと、例えば
戦略的データマイニング
良い意味で結果が全然美しくないので、現場の手探り間が分かると思います。事例本なのでそんなもんかとサクッと読むのがオススメ。
あと古典的な教科書としては、以下2冊も良い本
データマイニング手法
データマイニング手法 予測・スコアリング編―営業、マーケティング、CRMのための顧客分析
- 作者: ゴードン S.リノフ,マイケル J.A.ベリー,江原淳,上野勉,藤本浩司,佐藤栄作
- 出版社/メーカー: 海文堂出版
- 発売日: 2014/04/01
- メディア: 単行本
- この商品を含むブログ (1件) を見る
データマイニング手法 探索的知識発見編―営業、マーケティング、CRMのための顧客分析
- 作者: ゴードン S.リノフ,マイケル J.A.ベリー,佐藤栄作,斉藤史朗,原田慧,小川祐樹,大野知英,谷岡日出男
- 出版社/メーカー: 海文堂出版
- 発売日: 2014/04/01
- メディア: 単行本
- この商品を含むブログを見る
どちらかと言えば「お話」部分も多いのですが、実践的文脈で書かれているところとデータマイニングの基礎的手法が網羅的に語られているところが良いです。クラスター分析とか遺伝的アルゴリズムとか統計学の文脈だとなかなか詳細語られない手法について概観しておきましょう。
データマイニングは分かったから、応用数学方面に手を伸ばしたい!という方。
応用数学、とくに最適化問題やフーリエ解析、ウェーブレット方面の入門書としては金谷先生のテキストが感動する程分かりやすいです。
これなら分かる最適化数学
これなら分かる応用数学教室―最小二乗法からウェーブレットまで
- 作者: 金谷健一
- 出版社/メーカー: 共立出版
- 発売日: 2003/06/01
- メディア: 単行本
- 購入: 17人 クリック: 123回
- この商品を含むブログ (110件) を見る
どちらもとにかく読み手への配慮に行き届いているテキストで、数学に苦手意識がある人にも安心してお薦めできる良書です。画像解析やパターン認識の基礎的道具を挫折なしで習得できます。本当にすごい。圧巻です。高校数学からの数学学び直し本の王様はもしかしたらこの本かもしれません。解説の分かりやすさの点でも、応用への直接的なつながりという点でも。
ちょっと脇道にそれますがゲーム関連の話に興味がある方は、
ゲーム3D数学
- 作者: Fletcher Dunn,Ian Parberry,松田晃一
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/10/04
- メディア: 大型本
- 購入: 21人 クリック: 141回
- この商品を含むブログ (41件) を見る
こちらもベクトルの解説レベルからとても分かりやすく(丁寧というよりは直感的に)書かれている好著です。クウォータニオンの扱いがどうにも慣れないという方もどうぞ。
★★★
すごく散漫になってきました(ごめんなさい…。)
こうやって見ていくと、どうやら僕は、あまり名称や区分にこだわらずに幅広く数理モデルに接していくと良い、と思っているのかもしれません。そういえば、感覚的にはデータサイエンスという今もって定義が曖昧な概念がどんどん関連しそうな領域に手を伸ばしていったのも2010年以後の流れの1つでした。データサイエンス本のタイトルや参考文献の変遷を誰かがまとめてくれるとありがたいのですが…。
あとあえて何でもかんでも数理モデルと言っていますが、伝統的に数理モデルと言ったらもちろん統計モデルではなく微分方程式を用いた数理モデルだったと思います。統計学を学ぶ過程でモデリングって楽しい!面白い!となったら、是非微分方程式を立てる方面の学習もしてみると良いかもです。
有名な入門用のテキストとしては、微分方程式で数学モデルを作ろう
- 作者: デヴィッド・バージェス・モラグ・ボリー,垣田 高夫,大町 比佐栄
- 出版社/メーカー: 日本評論社
- 発売日: 1990/04/09
- メディア: 単行本
- 購入: 15人 クリック: 101回
- この商品を含むブログ (5件) を見る
がオススメ。数理モデルというよりは統計学だけをやっているとなかなか使わない微分方程式の入門本としても良いです。
数理モデリング入門
- 作者: Mark M. Meerschaert,佐藤一憲,梶原毅,佐々木徹,竹内康博,宮崎倫子,守田智
- 出版社/メーカー: 共立出版
- 発売日: 2015/01/24
- メディア: 単行本
- この商品を含むブログ (1件) を見る
もオススメ。分数階微分の応用とかもあって楽しいです。
もちろん、物理が嫌いじゃなかったら大学物理の教科書をサルベージするのもありだと思います。ベクトルや行列やテンソルなんて道具なんだから、どんな入り口から入っても良いはずです。領域にこだわる学びは不自由だと思います。
物理のためのベクトルとテンソル
テンソルにちゃんと慣れたいと思っている人は多いのではないでしょうか。もし高校時代物理が苦手じゃなかったら本書を是非。
物理本まで出してしまった…全然収束しないのでここらへんで機械学習本へ。
【オススメ本 ~機械学習と深層学習~ 】
機械学習をちゃんと学ぶ場合、最近でた東京大学工学教程のテキストはかなりオススメです。
とくにお薦めは以下2冊
線型代数2
線形代数2は機械学習の文脈ですごく現代的にまとまっています。非負行列についてや一般逆行列についてなど、ふつうの線形代数本ではあまり扱っていないトピックが嬉しいです。前のエントリーで行列代数についてのテキストを紹介しましたが、ある程度数学的基礎力がある方(線形代数の学部テキストを十分理解できる方)は、間挟まずこちらのテキストを即座に読んだ方が、機械学習の道具としての線形代数を効率よく学べると思います。
僕的にはなかなか定本がなかった分野なのですが、変分法の数理についてのお薦めテキストも同シリーズから、
最適化と変分法
もちろん全部読んだわけではないのですが…こうしてみるとすごくすごく良いシリーズなのではないだろうか、東京大学工学教程。頑張って欲しいです。
こちらは有名なテキストですが、各手法についての基礎的事項を網羅的に学びたいなら
はじめてのパターン認識
この本とPRML(とあといくつか)が機械学習系のオススメテキストの公約数ではないでしょうか。安心してオススメできる良書です。
機械学習の多くの手法は多変量解析やデータマイニングの流れから自然に読めるのに対してインパクトが大きいのはカーネルトリックではないでしょうか。カーネルトリックをしっかり学びたいのなら、カーネル多変量解析
カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)
- 作者: 赤穂昭太郎
- 出版社/メーカー: 岩波書店
- 発売日: 2008/11/27
- メディア: 単行本
- 購入: 7人 クリック: 180回
- この商品を含むブログ (32件) を見る
が圧倒的にオススメです。数学の基礎力は必要です。
テキストマイニングの領域に興味がある方は、
言語処理のための機械学習入門
自然言語処理がはじめての方はもちろん、機械学習に必要な数学の基礎をコンパクトに復習するためのテキストとしても本書は有用です。自然言語処理という領域をあまり意識せず、数学に苦手意識のある方は機械学習数学の入門書としてトライしてみると価値があると思います。このテキストがとても難しい!と感じる場合はもう少し数学の学び直しが必要かもしれません。
テキストマイニングと言えば、すぐできるGUIソフトとしてKH Coderがありますね
社会調査のための計量テキスト分析
社会調査のための計量テキスト分析―内容分析の継承と発展を目指して
- 作者: 樋口耕一
- 出版社/メーカー: ナカニシヤ出版
- 発売日: 2014/03
- メディア: 単行本
- この商品を含むブログ (4件) を見る
本書は、KH Coderのマニュアル本でもあり、同時に自然言語処理のライトな入門書にもなっています。理論詳細を学ぶ本ではありませんが、これからテキスト処理をしてみたいという方は本書を手に実際動かして見るのが手っ取り早いと思います。ちなみに漱石ファンは1.5倍楽しめます。
最後はあまりにも有名な3冊。アンチも根付良いファンも多いですが、僕はどれも大好きです。
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (20件) を見る
通称PRMLです。PRMLは難しいというか行間が広い本です。あまりにも有名になり過ぎてしまったので、いきなりこの本からはじめて玉砕されてしまう人が(とくに3年くらい前までは)すごくすごく多かったのですが、数理統計と行列代数(線形代数)と学部程度の解析(変分法とかラグランジュ乗数とか)をちゃんと理解していれば(少なくてもトピックごとにもう少し行間が密な他書を参照しながらであれば)読み通せるはずだと思っています。
というようなことを言って何度も怒られたことがあるのですが(笑)
読めない!という人は厳密な理解にこだわり過ぎている場合が多いようです。例えばウィシャート分布の導出とかはちゃんとやるとものすごく難しい(というよりは面倒くさい…)と思うので、その証明をフォローすることで流れを見失う(膨大な時間を使ってしまう)くらいならまずは所与として読み進めるという方が圧倒的に効率が良いはずです。ここらへんのバランスは本当に難しいのですが、少なくともPRMLは流れに乗ることが肝要なテキストだということは覚えていて欲しいです。細かいフォローはできなかったとしても、一度でも通読できればその後はレファランスとしてゆっくり(余裕を持って)付き合うことができるようになります。いつまでも「PRML読めない自分」に後ろめたさを感じるのは生産的ではないと思うので、さくっと読み通してしまいましょう!
続いてマーフィー本
Machine Learning: A Probabilistic Perspective
Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)
- 作者: Kevin P. Murphy
- 出版社/メーカー: The MIT Press
- 発売日: 2012/08/24
- メディア: ハードカバー
- 購入: 1人 クリック: 26回
- この商品を含むブログを見る
まだ翻訳がないですね。大著ですがPRMLよりも網羅的で細かい、ゆえに読みやすいと思います。本腰入れてこの道で行こうという方はもちろん、レファランス本としても置いておくと困ったときに便利な本です。
最後は
統計的学習の基礎
- 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman,杉山将,井手剛,神嶌敏弘,栗田多喜夫,前田英作,井尻善久,岩田具治,金森敬文,兼村厚範,烏山昌幸,河原吉伸,木村昭悟,小西嘉典,酒井智弥,鈴木大慈,竹内一郎,玉木徹,出口大輔,冨岡亮太,波部斉,前田新一,持橋大地,山田誠
- 出版社/メーカー: 共立出版
- 発売日: 2014/06/25
- メディア: 単行本
- この商品を含むブログ (5件) を見る
書き手も役者も豪華な決定版。
これは完全に感覚とイメージなのですが、学習トピックとして統計学と機械学習を最もメリハリよく分ける(差が出る)概念は正則化(あるいは汎化性能へのこだわり)とアンサンブル学習ではないでしょうか。長年しっかりしたデザインのもとでコテコテの統計モデル適用してきた人たちからアンサンブル系のモデルに対して「そんなことして良いの?」という声を聞いたことは少なくありません。ただしモデルの有用性はそれとは別な話。ランダムフォレストや勾配ブースティングの強さはKaggleやKDD Cupなど各種のコンペの結果を見れば一目瞭然なわけです。
大著だから敬遠する人も多いけれど、本書の良いところは(正則化はもちろん)アンサンブル学習に詳しいというところ。広い読みでも良いので参照してみてください。
英語版(PDF)は無料で公開されています!
アンサンブル学習をPythonを使って手っ取り早く動かしたいなら、
Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
- 作者: Sebastian Raschka,株式会社クイープ,福島真太朗
- 出版社/メーカー: インプレス
- 発売日: 2016/06/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
Pythonを使ったML入門本としてもお薦めです。アンサンブル学習ははじめてのパターン認識(既出)でも後半で扱っていますね。
ここから深層学習本。まだまだ不勉強なのですが紹介していきます。
深層学習はTensorflow触りながらの学習の方が絶対良いと思うので、適宜コーディングサイトとか参照しながら手を動かして学ぶのがオススメです。WEB見ているとNIPSはじめ最先端のモデルが次から次と出てくるので迷いがちですが、初学者は理論としてしっかり理解するべきトピックとして、まずはCNN、RNN、LSTMをしっかり理解することを目指すと良いと思います。
既出ですがはじめの1冊としては
深層学習
か、
深層学習 Deep Learning
深層学習 Deep Learning (監修:人工知能学会)
- 作者: 麻生英樹,安田宗樹,前田新一,岡野原大輔,岡谷貴之,久保陽太郎,ボレガラダヌシカ,人工知能学会,神嶌敏弘
- 出版社/メーカー: 近代科学社
- 発売日: 2015/11/05
- メディア: 単行本
- この商品を含むブログ (2件) を見る
難易度的にはそんなに変わらないのだけれど、どちらかと言うと岡谷先生の本→人工知能学会の本という順序の方が読みやすいと思います。
Pythonを使ってしっかり手を動かして学ぶなら圧倒的にオススメなのが
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
- 作者: 斎藤康毅
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/09/24
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (18件) を見る
こちらです。
最後理論的背景をもっと詳しく知りたいならばベストセラーとなった
Deep Learning (Adaptive Computation and Machine Learning series
Deep Learning (Adaptive Computation and Machine Learning series)
- 作者: Ian Goodfellow,Yoshua Bengio,Aaron Courville
- 出版社/メーカー: The MIT Press
- 発売日: 2016/11/18
- メディア: ハードカバー
- この商品を含むブログ (1件) を見る
素晴らしいことにPDFで公開されている上、東大の松尾研究室で翻訳準備中とのことでもうすぐ(?)日本語で読めるようになるかもしれません。そうそう松尾研のWEBサイトはそれ自体深層学習の勉強にすごく有用だと思います。
deeplearning.jp
【オススメ本 ~離散数学関連~ 】
息切れしてきた…。
一応、機械学習と銘打ったテキストでなかなか数理的なフォローが行き届かない分野としてグラフ理論がありますが、グラフを学ぶならこちらがお薦めです。高校数学程度の前提知識でも読み進めていけます。
グラフとダイグラフの理論
離散数学の様々なトピッ概論としては、最初の1冊としては
離散数学入門
が良いと思います。
情報理論と符号理論も
限界!
【結び】
今回はGLM以後をテーマにして機械学習・深層学習の文脈では通常扱われない雑多なテーマも含めてテキスト紹介を行いました。各論の深堀りテキストはこれから順次紹介していこうと思います。
なるべく小カテゴリーの中では難易度順になるようにしたつもりなのですが、読んでから大分時間が経過しているテキストも多く、そこら辺は随時加筆・修正して更新していきたいです。あと教科書紹介なので当然ながら内容の重複も多いです。なるべく内容の重複なしで、最短で学ぶテキストラインナップを考えることもすごく重要だと思うし、メリットが多いと思うのですが僕では現状整理しきれず今後頑張ろうと思います。
ちなみにほとんどの人にとって全部読む必要性はないはずです。僕は友達ノリでお客さんや同業の人と同じテキストを読むのが好き(話題に入りたがり)なので少し多めに読んでいるかもしれません。ただし感想は正直に書いています。だいたい全部褒めてるように見えるかもしれませんが、読んで本当にどうしようもなかった本(沢山ある!!)はあえてスルーしています。
あと、たぶん全体的に少しテキストが古いかも。最近は統計もMLもDLもテキストが山のように出版されていて羨ましい限りですが僕のポテンシャルでは到底キャッチアップしきれません。良い本あったら教えて欲しいです。
★★★
大人の学びって覚悟がいりますよね。学生の時みたいに時間ないし、仕事とかキャリアとか家族とか子供とかお金とか病気とか心のバッファを占領するものが沢山あるし、だから時間かけて学ぶことに躊躇してしまうし、だからと言って時間をかけないと理論的なことは身につかないし、その上身に着けた内容がお金に変わるとは限らないし、と言って学習サボっているとすごい勢いで忘却していくし、計算遅くなるし、覚えられなくなっていくし、新しい論文次から次に出てくるし、若手のすごい人も次々現れるし、これまでの常識を覆す理論とかがなぜか矢継ぎ早に提案されてくるし、何とかならないかなとモヤモヤしていると自己啓発書が広告で甘い誘惑かけてくるし、迷っていたら次の仕事が大火事で勉強どころじゃなくなって再開した時にはこれまでのこと忘れているし…。学び続けて、積み上げて、使えるようにするのは本当に本当に本当に大変だと思うのです。データサイエンスみたいな型がふわっとしている領域ならなおさら、しかも数学から遠く離れていた人ならもうものすごく、大変だと思うのです。
だから止まってしまってもしょうがないと思います。放り出したテキストが沢山あっても、積読が沢山あっても、読まないままメルカリに出品したテキストがあっても、ごくごく普通なことなはずです。再出発はいつでもできるし、新しい出発地点は前と同じじゃなくても良いはず、そう思ってなるべく様々な角度からテキスト紹介をしました。
それではまた次回!
★★★
謹賀新年!これからデータサイエンスやデータ解析に関わるかもしれない人たちへ
フリーランスのデータサイエンティスト日記
6回目のエントリーです。なんだか普通にまったりお正月をすごしていたらすっかりブログの更新間隔を空けてしまいました。明けましておめでとうございます。
前回は年末だったこともあり、散歩先で立ち寄ったいくつかの本屋さんを参考にしてデータサイエンス関連の「書棚レビュー」を行いました。
新年から気持ちあらたにデータサイエンスはじめる人に少しでも参考になればと思ったのですが…どうだったのだろう。WEBでの個人発信が多くなると情報が簡単に手に入る分、天才や達人のエントリーばかりが目に入って臆してしまうことも多くなりがちです。だけど、実際は大したことなくても何とか食べれてる僕みたいな人も多くいるわけで、天才や達人だけの業界なんてないという当たり前の事実を自分という存在でアピールしなが今年もゆるく行きたいと思います。
今回はここ5年くらいの(プロダクト開発ではなく)データ分析界隈の風景についてつらつらと雑記したいと思います。底辺からの視点だけど、それはそれで貴重なはず!
これからデータサイエンスしたい人や、データ分析で食べていきたいと思っている人に流れを感じてもらい、何かしらのヒントになれば嬉しいです。天才バイアスを吹き飛ばそう!最先端な理論や大規模インフラに支えられた開発に乗れなくても楽しめることがあるはず!
★最先端な人々★
といいつつ、押さえる部分は押さえなくてはならないので、年末年始はNIPS採択論文をチラホラ読んだりしていました。なんというか時代の流れは高速ですね。Swish、CapsNet、GANの様々な拡張…当然面白くもあるけれど、僕のポテンシャルの低さでは「ふーん」という感想しか出ないものも多く、深層学習のキャッチアップは今年も大変そうです。
世の中のデータサイエンティストと呼ばれている人たちは本当にすごいと思います。いつの間に画像認識や生成系の話と業務データ解析の話が同じ文脈に乗るようになり、同じ人によって語られるようになったのでしょうか?
つい最近までLassoやElastic Netに対して「え、そんなことして良いの?」とか突っ込んでいた気がするのですが…、つい最近まで何層もスタックしたアンサンブル・モデルにドキドキしたり、カーネル・トリックとか一生懸命勉強したりしていた気がするのですが、いつの間にかAICはWAICになり、ニューラルネットワークは深層学習になってしまっているのはどういうことなのでしょうか(笑)
Efron先生か誰かが20世紀統計学最大の問題は説明変数の選択問題である(要出典)と言っていた覚えがあり、何となく数年前までは説明変数選択問題の克服という文脈でAICから階層Bayesモデル、その後の深層学習モデルまでを強引にストーリー付けて見ようとしていた人もチラホラいたと思うのですが、なんだか今や昔になってしまいました
★統計学を頑張る人々★
だからと言って、データ解析で食べるならば地味な分析手法を無視できるわけではないし、今ブイブイいわせてるモデルも今後は(数か月先は)どうなるか分からないというのは結構大事な視点だと思っています。だいたいディープラーニングは、多くの企業ではまだまだ画像や生成系の世界のイメージの中にあります。
とにかく、誰にとっても時間は有限だし、成果につながらなければ手法の先端さを競っても無意味なわけで、現場はいろいろなバランス感覚が必要とされ大変そうです。「クロス表1000本ノック」していれば良かった時代が懐かしいですね(今もしてるけど…。)
バランス感覚が必要と言った一方、理論な人と機械学習エンジニアな人と統計家な人等々、役割分担のメリハリが出てきている流れも感じています。「データサイエンスはチーム戦」という主張も少しずつ一般的になりつつあります。
★統計系の老舗企業★
あと、データサイエンス関連のブームの余波の中で昔からあった解析ソフトウェア会社や統計アドバイザリー会社、統計解析の請負会社なんかがサルベージされて盛り上がり、ある程度高止まりしているのも社会的には良い方向なのではと思っています。何もかもデータサイエンスという言葉で一括りにされると外側からは使いにくいという難点もありますが過渡期はそんなものではないでしょうか。
★フリーランスはどうだったのか(知らない…)★
フリーランスという視点で言えば、僕はほとんど知り合いがいなかったのでよく分かりません。ただ最近はクラウドで統計解析の案件とかも増えているようです。いずれしっかりリサーチしたいのですが、現状ではちょっとリスキーなイメージを僕は持っています(単価安いし…。)
そういえばソーシャルの力が誰の目からも明らかになったのもここ5年くらいでした。例えば様々な中心性尺度みたいなネットワークを語る概念なんて、これまでの多くのデータ分析関係者は聞いたこともなかったはずです(情報系出身者以外。)
★身近なデータ分析キャンペーン★
研究側の人は概ね無視していますが、企業内のデータ分析担当を盛り上げるために様々なソフトウェア会社が行っているキャンペーンも(肝心のソフトウェアの評価は置いておくとして)頑張っていました。
乗っかる気はないのですが、僕も企業内のソフトウェア・ユーザーがもっといろんな意味で気持ちよく働ける環境作りはまだまだ必要だと思います。「Excelまでな人」とか「SPSS止まりな人」とか、現場で頑張っている姿見るとなかなか言えないと思いますが、未だにそういう野次は多いですね。批判も多いですが某社がやっている「みんなのデータサイエンス」というコンセプトとか僕は結構好きです。データ解析はもっと身近なものになっても良いと思っています。
★学生と転職したい人たち★
何だかんだで分析したいって人、結構多いですよね。僕も末端にいながら重め軽めの様々な相談を受けてきました。で、思ったのですが。データサイエンスが少し前まであれだけ盛り上がった理由は、市場の期待もあれば深層学習の華々しい成果ももちろんあるけど、「お金になる数理的職業(業務)が1個増えた!」という素朴な嬉しさもあったのではないでしょうか。
頭使いたい、数理的な技を捨てたくない、仕事の中だってサイエンスしたい、という素直な気持ちは持っていても、研究者はもうイヤ、金融は何かカルチャーがイヤ、コンサルはふわっとしていてもっとイヤ、という人は多かったはずです。データサイエンスというコンセプトにはそんな心を惹きつける要素があったと思います。
なのでサイエンスするという視点をすでに持っている人には絶好の機会が到来したことになるわけですが、そもそもサイエンスを真面目に考えてこなかった人がカタチだけ統計学やITを与えられたからと言って何もできることはなく、実際そういう風景も沢山みてきました。
研究とビジネス・データ解析は別物だぁみたいな主張はずっとあって、それはそれで言いたいことは分かるのだけれど、言ってる本人が研究について何も分かっていないパターンは今に続くアルアルです。
★ビジネスマン★
最近の統計学啓蒙本や、データサイエンスの一般書を見たときの違和感の1つとして、そこで紹介されている手法がことごとく20世紀的なものであり、かつこれまでの環境であっても実現できたような内容が多い、というのがあります。与えられた環境の中で最大限合理的な判断をしようと必死で考えてきた人間ならば、統計ブームが来るまでもなく当然に辿り着いているはずであるような知見や手法が、あたかも「最強の手段」のようにスポットライトを浴びてきたのが2010年以後の統計学ブームだった気がするのです。
だから、統計ブームが来るまでもなくビジネスデータの解析を真面目にやりつつ、データ解析との良いつきあい方を自然と身に着けてきた人々の中には「何をいまさら?」という冷ややかな反応をした人も多かったです。
一方、ブームの中ではじめて統計学やデータサイエンスと遭遇した人たちの中では、鳴り物入りで導入された手法やツールが思った程の成果を上げない中で、データサイエンスというパッケージがあたかも経営コンサルのフレームワーク的な流行のようなものと捉え、自戒と後悔を持って退出するという流れもありました。
総論としては、データサイエンスが単なるブームだったかと言えばそうではなく、分散処理やGPUの進歩、何よりも深層学習というまったく新しい体系が爆発的に発展していくなかで「手を動かせる人」はシンプルな感動と興奮の波の中で技術力を高めていき、もともと現場データ解析していた人たちはローカル環境で出来る分析の幅が圧倒的に広がったことできちんと利益を出しているわけで、時代は確実に変わってきていると思います。どんな風に落ち着くのでしょうか。2018年も楽しみです。
★セミナーや研修会社について★
データサイエンス系のセミナーや研修も本当に増えました。実感として正直に言えば、短期間の研修やセミナーでは何となくのイメージを授けることはできても、基礎となる数学や細かいパラメータの選択についての知識を伝えるのは本当に難しいです…。
ついでに言うと「何となくのイメージ」のレベルさえも、こちらの想定していた10分の1も伝えられなかったなぁと感じることが多いです。研修後のちょっとした会話や、セミナー後のワークの様子、あるいは実務で使ってみたという嬉しい報告の中でさえ、自分の力足らずを実感しないことはなかったと思います。他のあらゆる技能と同じように、十分な知識と経験がある人が現場つきっきりでOJTを施すことに勝る手段はないとかと。
といってもデータサイエンスは環境によって機会格差が大きいのも今も変わらぬ事実。データがある、インフラが整っている、ツールがある、理解のある上司がいる、全部が揃った環境は稀だれど、不利な環境にいても経験値積めないのは残酷な事実。どんどん伸びていく人がいる一方で、与えらえた制約の中でモヤモヤとしている人が沢山いました。チャレンジできる環境が増え続けている今は素晴らしいと思います。
★これからセミナーとか行く人へ★
セミナー講師や著者の方に「釣り方は教える」し「釣る道具も授ける」けど、自分はまともに釣ったことがない、という方が多いのは(ビックリするけど)これもまた今に続くアルアルでした。職分が違うと言えばそれまでなのですが、身に着けた技を使って(セミナーや著書ではなく)分析そのものによる直球な成果を出したいという欲求って自然だと思っていたのですが、どうやらそんなに自然ではないようです。
と言っても、データサイエンスの成果ってそんなに自明じゃないし、よほど質の良い環境にいないと正しく成果を見積ることもできないので、外に喧伝される成果は注意して見た方が良いです。この話はいずれまた。
★数学が苦手な人々★
あと自分がセミナーをやってて感じたことを、話し手としての技能をいったん脇に置いて無責任に発言するならば、やっぱり数理的な技能やサイエンスという方法への基礎力がどうしてもボトルネックになっている人が多いような気がしています。なんでこんなにみんな数学を忘れてしまうのだろう…、と何度思ったことか。
出版の世界では数式の数が増えると読者数が単調減少するという話があり、Σを見るとページを閉じるという人にも実際に何人も会ったことがあります。
一方、セミナーや研修の主催側も数式をなるべく使わずに分かりやすく表現できる話し手を評価するような雰囲気もあって、聞き手も話し手も共犯で「なんとなくの知識」を広めることを是とする流れは現実的に結構あります。主催は主催で運営シビアなので、単に顧客アンケート評価の高い講師を厳しく選別していった結果、「なんとなく分かりやすく」な人が残るという構造なだけかもしれませんが。
これからデータサイエンスで食べていこうと考えている若手の人に是非言いたい。数学力は絶やさない方が良いです。大学教養程度でも良いので数学本をコンスタントに読むと絶対お得。解析や線形代数だけではなく、多様体や微分幾何、できれば代数系とかも少しずつ読んでおくとすごく視野が広がります。深層学習なんて微分と線形代数わかっていればいいんでしょ?とか言う人の発言には耳を塞ぎましょう
★学び直しをする人々★
最近は「大人の学び直し」がまぁまぁ話題になるようになってきましたが、学び手としての大人と、大人のための学び環境には決して軽くない問題が山積みしている気がしてしまいます。大学生や大学院生の方が曖昧なもの、使えないもの、ごまかした知識への感度がよほど高いというのは多くの人が実感として持っているのではないでしょうか。
若手やできる人は、WEB上で十分な情報を仕入れつつ発信しつつ前のめりで前進していける一方、やる気はあっても基礎体力が全然ない人たちが陳腐な啓蒙書やセミナーや企業広告にカモられている様子は、ここ2年くらい何度も目にしました。
半分自覚的に自らカモられにいく人たちも多かったです。「曖昧な理解でもいいからとにかく人前で話せるようになること」を目的にセミナーに来ているケースなのですが。昨日知った知識をさも何年も前から熟知していたかのごとく見せる技はビジネススキル的に必要なのかもしれませんが、そのために休日を捧げたり半端な知識の人が(半端に見せないように)話すその話し方を学びにくるというのはすごく歪な感じがしてしまいます。学び直しってそういうことだっけ…?。
★数理的な力で食べていきたい!という人々★
この流れで、数学的なものでで食べていく、ことについても1つコメントを。今、データサイエンスやプロダクトの部品としての深層学習で食べていきたいという人が増えています。年収や、最先端技術に惹かれていることはもちろん、(さっきも書いたけど)基底では、数学や、理数的技術をモロに使って仕事ができるという期待に押されている人が多いようです。
けれど開発や研究メインの業務につかない限り、つまり「ビジネスデータ解析より」の業務の場合、実際は数理的な楽しさはそれほど多くはないはずです。ぶっちゃけ数理的な知的好奇心を満足できるのはだいたいの場合は社内外問わず、いわゆる「勉強会」に参加をしたり、情報収集のために論文読んだりしている時ではないでしょうか。
日常的に使う分析手法については、それこそルーチンになるほど血肉になっていなければならず、だからこそ知的な意味での面白さは遥か昔に通り過ぎているからです。コーディングしている時間ももた、長時間の集中と達成感を得らえる高度に知的な時間とは思いつつ、理論的(数理的)な意味での知的満足があるかというとちょっと違う気がしています。
理論を使うことへの憧れはすごくよく分かります。コンサルタントやクオンツがブームだった時代、メディア的には華やかさと収入と頭の良さ(少なくとも良さそうに見えること)ばかりが注目されていましたが、就活中の学生には理論や社会科学も含めたサイエンスの有効性を素朴に信じて、嬉々としてそういう業界に飛び込んでいた人も多かったのです。老若男女問わず人は「頭使って考えたい」生き物なのだなぁと思いました。
何を伝えたいかと言うと、知的な興奮ばかり求めて前のめりで学習していくよりも基本的な手法に精通していた方が実際は相手にできる案件は多くなるということです(生産性の問題で)。そして、前のめりな人が実際には基礎の部分ですごく曖昧な理解をしているというケースもすごくすごく良くあります。多重共線性とか大事です。本当に。
ついでに言うと、マインドとしても数理マニアな人よりは一般教養に広く興味がある人の方が(データ解析の文脈では)楽しんでいる人が多かったように感じています。ここらへんのメンタリティの話は表現方法間違うとすごく危険な感じがするのですが、"数学がすごく出来る文系" みたいな人が一番楽しんでいるイメージがしました。
★データ解析に着手しはじめた人々★
これまで統計の「と」の字も話題にならなかった企業の中で、データ解析に着手する人々がどんどん増えています。僕も「データ解析はじめました」な人たちと様々に関わりウォッチしてきたのですが、「とりあえずやってみた」人たちが共通に陥りがちな傾向がありました。
例えば、モデルの仮定を顧みずに、出来上がったモデルは何か意味があると無前提に考えてしまう姿勢や、頑張って勉強してツールを使ったのだから意味がある/役立つはずだという思考です。
相手がお客さんだと、おもねってその場で良い顔すると後で苦労するのは分かっていても、実際の言葉選びは結構難しかったりします。「重回帰した結果です!ドヤっ!」みたいに迫られると思わず「なるほど」とか言ってしまったり…。
これからデータ解析をはじめる方は、ソフトウェア・アウトプットの読み方を学ぶのと同じくらい、モデルの前提を整理した方が良いと思います。
何やかんや言いましたが。
それでも僕は分析に一歩踏み出した人はそれだけで結構尊敬していました。なんやかんや言って「やってみること」が一番大事だと思っているからです。こんなBlog書いていて壮大な矛盾のような感じもするのですが(笑)、あんまり掛け声とかポエムは気にし過ぎない方が良いと思います。
最近はデータ解析の心得リストみたいなものがちらほらまとまってきたようで、とくに”Garbage in, garbage out”みたいな原則が語られることが多くなってきました。データがあるから分析しようというのは思考停止過ぎるとか、手法云々ではなく良質なデータ確保が大切とか、素晴らしいと思います。ただし、手元のデータがゴミかどうかの判断ができる程度のリテラシーをもった人はまだまだ少ないし、手元のデータがゴミだと人に説明(説得)できることも実は結構な能力だと僕は思っています。まずは気にせず分析してみる!が大事です。ゴミがゴミに見える力は自然に身についていきます。
★たくさんの文系出身者★
データサイエンスしている文系出身者、沢山いました!
なので文系選択したという過去の選択をもって「自分が数学やモデリングをそこまで得意/好きじゃないかも」と思いこんでしまうのはNGだと思います。「好き」と人前で言えるということには心理的プレッシャーも大きいし、たとえ実際好きじゃなくても「なんとなく数理的感性から逃れられないという体質」のようなものがある気がしています。数理的な世界から一度は離れてしまったけれど、何となくやっぱり戻ってきてしまったというパターンは意外と多いはずです。文理にこだわるのはいいことなし。読んで、手を動かして、楽しければ前に進んでいきましょう!
【結び】
今回は僕がデータ解析な仕事をしながら見て来た風景について記しました。これからデータサイエンスはじめる方へのメッセージをなるべく意識したのですが、機会があれば業界の有名人の話とか、天才の話とか、頻度論vsベイズという不毛な(と僕が思っている)争いの話とか「ビールとおむつ」の時代の話とかいろいろ書きたいです。今年もどうぞよろしくお願いします!!次回からブックレビュー再開します。
「データサイエンスのオススメ本 その④(番外編)」
フリーランスのデータサイエンティスト日記
5回目のエントリーになりました。
とりあえずテキスト紹介で走り出したこのBlogですが、あっという間にGLM(一般化線形モデル)に入ってしまいやや急ぎ過ぎたかなぁと感じたので、今回は前回までの振り返りをしながら少しペースダウンをして進みたいと思います。
あと、年末になり久しぶりに本屋さんに行ったところ「あれ、僕が紹介している本って全然置いてなくない?」と気づいてしまったのでそこらへんのフォローもしていきたいと思っています。Amazon全盛と言ってもまだまだ街の本屋に頼りにいくこともだろうし、誰もがジュンク堂や八重洲ブックセンターの近くに住んでいるわけではないと思うので。
また、この一連のテキスト紹介エントリーは「データサイエンスはじめたばかりの人」や「これからデータサイエンスはじめる人」を主としたターゲットとして書いていたのですが、ピカピカの大学生や大学院生よりはどちらかと言うとすでに勤務している人を想定しています。そういう意味でいうと、限られた時間の中での良さげな学習環境・トレーニング環境についても少しずつ書いていきたいです。業務でバリバリでデータサイエンスしてるぜ!という方には不要かもしれませんが(いや、それでもたぶん)ほとんどの人にとっては勉強し続けることがまだまだ必要な業界(?)だと思います。
あとやっぱり、僕が紹介している本だとめっちゃ忙しい人(結構みんなそうだけど…)には少し時間がかかり過ぎる雰囲気があるので、簡易版みたいな学び方も少しずつ考えていきたいです。個人的には腰据えて教科書読むのが一番効率的だと思うのですが、どうしても時間がない…という人はどうしてもいるみたいです。
★★★
ところで、アメリカでは独立した統計学部が500以上設置されているのに対して、日本では今年(2017年)の4月から滋賀大学ではじめてデータサイエンス学部が設置されたました。評判はまだ詳しくないのですが、相当な生みの苦しみをもって誕生している学部だと思うので頑張ってほしいです。
さて、僕は2回目のエントリー(「データサイエンスのオススメ本 その③」 - DataScientist’s diary)で「まずは概論を学ぼう」という趣旨でテキスト紹介をさせていただいたのですが、例えば時間がない人はこういう大学のシラバスやカリキュラムを参考にしてみると概論や必要な項目・順序がサクッと分かると思うのでお薦めです。
滋賀大だけではありません。ようやく流れになる統計系学部の波も一応フォローしておくと良いかもです。
滋賀大学が幹事校を務めるJINSE(統計教育連携ネットワーク)にも、各分野のカリキュラムや参照基準がありますのでご参考に。
残念ながら日本では統計学部・データサイエンス学部は今はまだほとんどありませんが、統計学やデータサイエンス、データ解析等の授業は様々な大学の様々な学部の中で提供されているので、うまくシラバスを活用すれば特定トピックの目的やテキストを授業期間(四半期か半期か通年か)とセットで知ることができて学習計画を多少時短にできるかもしれません。
素晴らしい作りだし学問に対する思いのこもった記述も多く本当に重宝しています。こういう部分をザルでやらない所が東大ですよね。ちゃんとお金使えるのも羨ましいです。
東工大も素晴らしいです
見ていただけると分かるのですが、結構なボリュームで講義ノートや動画も公開されています。
今更な表現ですが、東工大以外でも講義ノートや動画の公開が世界的に進んでいるので、大学のWEBは社会人こそもっと活用すべきだといつも感じています。あと、英語の勉強にもなって一石二鳥なので海外の大学も是非チェックしましょう。フリーのOpenCourseも盛んです。
例えばデータサイエンスならMITのOpenCourseが便利です。
MIT OpenCourseWare | Free Online Course Materials
HarvardのCourse Catalogはコチラ
Harvard University Course Catalog Harvard University Course Catalog and Cross Registration
グローバル・スタンダードで学ぼう!とか肩肘張らなくても良いと思うのですが、単純に洋書(の教科書)の情報って貴重ですよね。
シラバスって考えようによっては大学の知的財産のような気もするのですが(言い過ぎか)、惜しげなく公開されているので惜しげなく利用させてもらいましょう。
★★★
大学の勉強(学部の勉強)を見下げる向きもあるかもしれませんが、理論の勉強は間違いなく大学の勉強なので、実務か理論かと2分法で考え過ぎずに参考にしてみた方が良いはずです。
実務が増えてきたらちょっと気持ち悪い運用はいやでも目にすると思います。たとえば独自スコアリングとかこんなことやっていいの?というようなガムシャラなアンサンブルモデルとかいずれ目にするはずです。ただし、ここで言う気持ち悪さはどちらかと言うと理論的検証(モデルの性質の詳しい調査)ができていないまま、時間とか能力とかいろんな人的限界のもとで、走ってしまっているという意味での気持ち悪さで、最近のちょっと胡散臭い「深層学習=ブラックボックス論」とはまったく違います。どちらかと言えば敗北宣言に近いです。どんなに恣意的な評価設計でも、どんなに非効率的なコーディングでも、どんなに場当たり的なルールベース・リコメンドでも、それはそれで走らなければ走らないという事態がマレにあるよ、という話です。でもそれはデータサイエンスに限った話ではないと思います。それにある意味で理論きちんと学んでいるから感じる気持ち悪さでもあるわけです。ちゃんと学ぶことはちゃんと役立つのでちゃんと大事です。なんのこっちゃ。
★★★
というわけで、急ぎの人は大学のWEBやシラバスを適宜参照しながら適当な割り振りを考えて必要知識を学んでいきましょう。ただ、やっぱりそこは大学の講義なので参考文献はやっぱり硬派なテキストが多いです。そういう意味では前段で書いた通り「読む時間ない」「置いてない」という問題はあるわけで、ここから最近の中規模本屋さんのテキストレビューを少し。
年末だし散歩がてら大型書店ではなくワンフロア型の書店さんをまわって参りました。年末は本屋さん行きたくなりませんか?ならないか…。
【オススメ本 ~番外編 年末の中規模本屋さんから~ 】
今本屋さんの理工系のコーナーに行くと統計学や機械学習の区分の中でまず見つかる本(シリーズ)と言えば、
『マンガでわかる統計学』
です。たぶん見たことある人多いはず。2004年出版なので、もう結構なロングセラーですね。このシリーズ、カバーはいい感じに可愛いキャラが飾っているのですが、実は中身は割としっかり書いてあります。しっかり書いてあるということは学問的誠実の観点では良いのですが、いかんせん漫画の意味が…(笑)「このテキストしか私には読めないだろう」とすがる思いを感じて手に取った人には読めない、という悲しい現実に僕は何度も出会ってきました。
セリフ(吹き出し)に行列計算が沢山入っているある程度しっかりな理系本です。高校理系数学の基礎力がある人(履修した記憶がまだ新しい人)であれば楽しめると思います。最近はBayes統計本まで出ているみたいです(僕はまだ読めてません。)
漫画の取っ付きやすさをいかした分かりやすい記述のテキストとしては、
『マンガでわかるやさしい統計学』
マンガでわかるやさしい統計学 (池田書店のマンガでわかるシリーズ)
- 作者: 小林克彦,智,サイドランチ
- 出版社/メーカー: 池田書店
- 発売日: 2017/10/08
- メディア: 単行本
- この商品を含むブログを見る
ただし、内容はほぼ記述統計なので、まずは統計検定3級くらいを目指そうかなぁと思っている人にお薦めです。あと、統計学と言えば推定・検定と反射的にイメージしてしまう方にも、あらためて記述統計の良さを認識するテキストとして良いと思います。データの見せ方や他者への説明方法とかってどれだけ高度な理論を学んでも迷い続けますよね。よい解説本はそこらへんの参考になることが多いです。
小島先生の漫画本も出ていました。僕は読んでいませんがファンの方は是非。
『マンガでやさしくわかる統計学』
タイトルが ちょっとずつ違いますね(笑)
あとよく見るところでは、すごく有名人な書き手のテキストシリーズがあります。まずは石村先生たちのシリーズ(沢山あり過ぎるので適当に紹介します。)
『すぐわかる確率・統計』
『やさしく学べる統計学』
学びはじめの頃に、一度は手に取ったことがある方が多いのではないでしょうか。
記述がコンパクトですが、分かりやすくかつ手っ取り早く技を授けるという工夫がすごいです。ライトな数学に終始しているので、数学の学び直し中の人、数学に苦手意識が高い人がトレーニング本として読むと相性が良さそうです。データサイエンスからは少しズレますが、例えばブラック=ショールズ方程式を扱った以下のテキストは金融工学の入門書としても、数学から遠く離れた大人が大学数学へ再入門するテキストとしても素晴らしいと思います。
『増補版 金融・証券のためのブラック・ショールズ微分方程式』
※ちゃんと大学理系数学の記憶のある方にはあまりオススメしません。
理系ベストセラーのもう一方の雄が、涌井先生たちのテキスト。
今書棚で一番よく目にするのは『ディープラーニングがわかる数学入門』
カバーを見みると「Excelで体感できるディープラーニング」と記載されています。すごい本ですね。本書に限らず、涌井先生たちのテキストは何かとExcel押しなので、Excelコアユーザーの方にはすごく取っ付きやすいと思います(もちろんExcelでディープラーニングしよう、と呼び掛けているわけではなく、あくまで学習ソフトとしての位置づけで書かれています。念のため。)
ただ、Bayes関連の本は(詳しくはAmazonレビューに譲りますが…)あんまり入門になっていないような…と感じることが多かったです。好きな人は好きみたいですが…。
おそらく久保先生の緑本とか、岩波のデータサイエンスを読んだ方が大分スッキリすると思います。
『データ解析のための統計モデリング入門』
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
『岩波データサイエンス』
緑本は大型書店じゃないと置いていないかも。岩波データサイエンス、Bayes統計ならVol.1からですね。
数学よりですが、結城先生の数学ガールのシリーズも売れていますね。僕は大好きです。というか、結城先生の本こそ数学学び直しタスクにはピッタリな気がします。何気なく買って通勤電車で読んでいたら数学熱が再燃した、という人にも時々会います。なんで紹介しなかったんだろう。統計本ももちろん分かりやすく面白いです。
『数学ガールの秘密ノート/やさしい統計』
数学ガールの秘密ノート/やさしい統計 (数学ガールの秘密ノートシリーズ)
- 作者: 結城浩
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2016/10/29
- メディア: 単行本
- この商品を含むブログ (11件) を見る
もう少し大学本に寄って、大学数学への導入あるいは数学的演習のリハビリ本としての売れっ子を見ると、マセマのテキストがあります。最近本当によく見るようになりました。解説がとにかく分かりやすいですよね。いい感じに薄くてモチベーションを維持できそう、とにかく挫折しなさそうなところが素晴らしいと思います。高校数学(大学受験)のテキストも沢山出ているので、相性が良ければ高校数学から大学教養数学まで一貫した記述の中で学び直しができますね。
『初めから学べる評判の大学基礎数学確率統計キャンパス・ゼミ』
『スバラシク実力がつくと評判の統計学キャンパス・ゼミ』
スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!
- 作者: 馬場敬之
- 出版社/メーカー: マセマ
- 発売日: 2016/11/01
- メディア: 単行本
- この商品を含むブログを見る
※高校数学のテキストは省略。いつの間にかめっちゃ増えてる!
西内啓さんの『統計学は最強の学問である』シリーズもずっと元気なようです。最近「数学編」が出た模様。章立て見ると学び直し本な感じですが、読めていません。ただ僕の見たタイミングではAmazonで[確率・統計]カテゴリー、[数学]カテゴリーの[ベストセラー1位]のようです。みんな数学学び直しがしたいんだなぁ。2位以下も学び直しが多かったです。
統計学が最強の学問である[数学編]――データ分析と機械学習のための新しい教科書
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2017/12/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
あと、書店の定点観測だと『恋する統計学』のシリーズが出ているのですが、僕は立ち読みしかしていないので何とも言えません。誰か教えてください。
統計本と数学学び直し本はこんなところかな。後半少し端折ってしまった(そして読んでいない本まで紹介してしまった…。)
あと言語で言うとPython本がめっちゃ増えましたね。Rはどうなっていくんだろうか…僕はR大好きです。それとTensorFlow関連のテキストも少しずつ充実してきているようです。僕はふつうにチュートリアルとドキュメントで勉強しているのでそこまでフォローできていないのですが、以下のテキストは分かりやすかったです。
『詳解 ディープラーニング』
詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~
- 作者: 巣籠悠輔
- 出版社/メーカー: マイナビ出版
- 発売日: 2017/05/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
Python本はまたまとめてエントリー書きたいのですが、入門としてはやっぱりこの2冊だと思います。
『入門 Python3』
- 作者: Bill Lubanovic,斎藤康毅,長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2015/12/01
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
『ゼロから作るDeep Learning』
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
- 作者: 斎藤康毅
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/09/24
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (18件) を見る
ここらへんはいつまでもO’REILLYが強いと思います。Pythonこれから始める人はまとまった時間が取れるお正月、チャンスですよ!
R本は、最近だと『みんなのR』がスタンダードなのかな。理論理論していない点と、ggplot押しの点が取っ付きやすいのですが、訳語はヘンテコなのが多いので注意です
- 作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志
- 出版社/メーカー: マイナビ
- 発売日: 2015/06/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (7件) を見る
「Rで学ぶデータサイエンス」のシリーズとか使い勝手良いと思うのですが、置いてませんでした。
SQL本ならミック先生の本が僕は圧倒的にオススメです。以下2冊は中規模書店にも置いてあるはず。
『SQL ゼロからはじめるデータベース操作』
SQL 第2版 ゼロからはじめるデータベース操作 (プログラミング学習シリーズ)
- 作者: ミック
- 出版社/メーカー: 翔泳社
- 発売日: 2016/06/17
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
『 達人に学ぶSQL徹底指南書』
達人に学ぶ SQL徹底指南書 (CodeZine BOOKS)
- 作者: ミック
- 出版社/メーカー: 翔泳社
- 発売日: 2008/02/07
- メディア: 単行本(ソフトカバー)
- 購入: 54人 クリック: 1,004回
- この商品を含むブログ (78件) を見る
機械学習関連でいうと「機械学習プロフェッショナルシリーズ」が情報系の書棚に揃っていることが多かったです。この区分けどうなのだろうか、と一瞬思ったのですが、理工書とだいたい隣りくらいの位置関係だから問題ないかな。同シリーズだと、
『深層学習』
がめちゃめちゃ売れましたね。深層学習の理論がコンパクトな記述で分かりやすくまとまっている名著だと思います。理論の入門書という趣で痒い所に手が届く本ではないし、特定の言語や環境をサポートしているわけではないので読んですぐ実装できる、というタイプの本でもないのですが、深層学習を学ぶ1冊目としては本当に素晴らしいテキストだと思います。
僕のおススメは
『関係データ学習』
行列分解の様々なバリエーション と応用例が理解できます。
あとは、割と最近はじまった同規格の「機械学習スタートアップシリーズ」。
『これならわかる深層学習入門』
機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)
- 作者: 瀧雅人
- 出版社/メーカー: 講談社
- 発売日: 2017/10/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)
- 作者: 須山敦志,杉山将
- 出版社/メーカー: 講談社
- 発売日: 2017/10/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
2冊ともに分かりやすいです。データサイエンティスト採用されたばかりの人のトレーニング用に向いているかもしれません。
SPSS本も相変わらず多いですね。SPSS本と言えば最近ようやくSPSS Modelerの解説本がでました
実践 IBM SPSS Modeler~顧客価値を引き上げるアナリティクス
- 作者: 西牧洋一郎
- 出版社/メーカー: 東京図書
- 発売日: 2017/10/10
- メディア: 単行本
- この商品を含むブログを見る
Modeler導入されている現場の方は恵まれている環境だと思うので、テキストとセットで是非使い倒してください。宣伝ぽいな…。僕は割と楽しみに待ってました。
★★★
今度は文庫本のコーナーから、理系文庫本と言えばちょっと前は岩波文庫の一部なイメージだったのですが、最近はちくま学系文庫のMath&Science(紫背表紙)が感動するほど素晴らしいです。数学・確率・統計本もラインナップ充実しています。そういえば、前回紹介した林知己夫先生の本もちくま学芸文庫でした。
『調査の科学
コルモゴロフの記念碑的著作も入ってます。
『確率論の基礎概念
あとコレは必読『応用数学夜話』
ORの大家、森口繁一先生のテキスト。最適化とか線形計画法とかに馴染みのない方にすごくオススメです。最短経路問題をトロピカル代数で解く話とかも盛り込まれていて、数理モデルの奥行の深さを感じることができるはず。森口先生ご存知ないかといるかもしれませんが、岩波の『数学公式』の作りの手1人です。
イアン・ハッキングの科学哲学本もラインナップへ。
『表現と介入』
データサイエンスには「サイエンス」という言葉が入っているのに、その割には携わっている人に「サイエンスする」という意識が微妙な人が多い気がしています(僕の周りだけかも…)。データ扱ってなんとなく数理モデルいじっているからサイエンスなのではなく、サイエンスするからサイエンスなわけで、がむしゃらにモデルのためのモデルを作るくらいなら、データ使わないけどサイエンスしている人の方がよっぽど生産性が高いはずです。
じゃあサイエンスするって何かと言われると説明が難しいのですが、個人的にはファイマンのエッセイ読むのが一番良いと思います。これも文庫です。
『ご冗談でしょう、ファインマンさん』
- 作者: リチャード P.ファインマン,Richard P. Feynman,大貫昌子
- 出版社/メーカー: 岩波書店
- 発売日: 2000/01/14
- メディア: 文庫
- 購入: 56人 クリック: 1,250回
- この商品を含むブログ (281件) を見る
そして次点として科学哲学本も結構オススメです。とくにハッキングの本は「確率」とか「因果」とかを一度ゆっくり考えたい人には向いていると思います。伊藤先生の本とかマリアヴァン解析のテキスト読むだけが確率を真面目に考えるということではないはず。ただし確率論については、ハードカバーの以下のテキストがダイレクト。書店で売ってるかな…。
『確率の出現』
ちくま学芸文庫に戻ると、似た趣旨ですが統計学的発想法という意味で、大家C.R.ラオ
『統計学とは何か』
- 作者: C.R.ラオ,柳井晴夫,田栗正章,藤越康祝
- 出版社/メーカー: 筑摩書房
- 発売日: 2010/02/09
- メディア: 文庫
- 購入: 10人 クリック: 174回
- この商品を含むブログ (25件) を見る
もオススメ。現実の不確実性と複雑性に立ち向かうサイエンスとしての統計学という観点を歴史的なエピソードや様々な領域の事例と共に学べます。数理的理論も実務や研究への応用と実践も哲学的な思索も滑らかに行き来する筆致はまさに大家。数理統計の教科書も素晴らしかったです。
★★★
今度は新書コーナー。理系新書と言えば今も昔もブルーバックスですね。
ベイズモデリングの新刊が好調の豊田先生の本が新書で読めます。
『違いをみぬく統計学』
違いを見ぬく統計学―実験計画と分散分析入門 (ブルーバックス)
- 作者: 豊田秀樹
- 出版社/メーカー: 講談社
- 発売日: 1994/04/15
- メディア: 新書
- 購入: 3人 クリック: 5回
- この商品を含むブログ (8件) を見る
『原因をさぐる統計学』
『違いを見ぬく統計学』は実験計画の入門書としてすごくオススメ。イメージとしてはフィッシャーの3原則とか聞いたことがない人が、本書1冊でデザインの視点に目覚める(かもしれない)本です。ただし、数学的ディテールはもちろんカットされてます。新書ですしね。同じく『原因をさぐる統計学』も共分散構造分析の使い所がよく分かる好著です。理論の詳細を学ぶ前に共分散構造分析がどんなものか知りたい方に、はじめの1冊としてオススメ。この辺りは書籍だと豊田先生が無双状態ですね。
『先を読む統計学 「情報量基準」とは何か
売ってないかなぁ。売ってないかもしれません。が、ブルーバックス本の中でもとにかくオススメなのが本書。とにかくAICを使うに特化した本です。回帰モデルとかクロス表とか、初等的なモデルにバンバンAICを当てはめてグラフやその他指標と対照させていきます。自然にAICに慣れる本という趣です。
『データ分析 はじめの一歩―数値情報から何を読みとるか?
データ分析 はじめの一歩―数値情報から何を読みとるか? (ブルーバックス)
- 作者: 清水誠
- 出版社/メーカー: 講談社
- 発売日: 1996/10/18
- メディア: 新書
- 購入: 11人 クリック: 264回
- この商品を含むブログ (5件) を見る
こちらも良い本です。記述統計メインの本ですが、公的データを用いた事例ベースで全般展開しているところがユニーク。若干古い(なので使われているデータも古い)本ですが、今でも十分有用だと思います。
ブルーバックスの棚ラストは、
『統計でウソをつく法―数式を使わない統計学入門』
統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)
- 作者: ダレル・ハフ,高木秀玄
- 出版社/メーカー: 講談社
- 発売日: 1968/07/24
- メディア: 新書
- 購入: 9人 クリック: 153回
- この商品を含むブログ (128件) を見る
世界中でベストセラーとなったあまりにも有名な元祖統計本。原著出版は1954年です。タイトルは実感シニカルですが、統計レポートとつきあう上での基本的な姿勢は今も学ぶところは多いはず。
統計学の(必ずしも悪意があるわけでない)誤用・乱用としては、新書ではないのですが、こちらの本も売れているようです。
『ダメな統計学』
昨年は(2016年)はASA(AMERICAN STATISTICAL ASSOCIATION)のp値や有意性に関する声明も出たところなので、ASA声明と併せて読むと良いかもです。とくにこれから論文で統計学が必要な人は
The ASA's Statement on p-Values: Context, Process, and Purpose
http://amstat.tandfonline.com/doi/full/10.1080/00031305.2016.1154108?scroll=top&needAccess=true
あとブルーバックスに限らず新書には、こういう感じの統計リテラシー本が多いですね。
『ウソを見破る統計学』
ウソを見破る統計学―退屈させない統計入門 (ブルーバックス)
- 作者: 神永正博
- 出版社/メーカー: 講談社
- 発売日: 2011/04/21
- メディア: 新書
- 購入: 6人 クリック: 85回
- この商品を含むブログ (14件) を見る
神永さんは『食える数学』でも有名ですね。クオンツがイケイケだった時代を見ている僕としては「食える」というのはちょっと消極的な表現ですがアレですが、中身は数学との接点の中で見る社会という趣の本です。とくに学生の方は、解析だ統計だ幾何だと選り好みせずに何でもやっておくと良いと背中を押されると思います。
『食える数学』
新書のリテラシー本を他2冊
『データはウソをつく』
データはウソをつく―科学的な社会調査の方法 (ちくまプリマー新書)
- 作者: 谷岡一郎
- 出版社/メーカー: 筑摩書房
- 発売日: 2007/05/01
- メディア: 新書
- 購入: 6人 クリック: 215回
- この商品を含むブログ (92件) を見る
『統計数字を疑う なぜ実感とズレるのか?』
こういう本こそ読み飛ばさずに使う姿勢が大切だと思います。どこかの誰かが出してきたレポートを疑うことは大切ですが、疑うだけなら簡単なはずです。確かめることには調べる手間が必要なわけで、その手間を惜しまないことがジワジワと経験値の差になっていくといつも思っています。
ブルーバックスから離れたので、その他の新書コーナーを見ます。今年はなんと言っても、
『データ分析の力 因果関係に迫る思考法
素晴らしい名著だと思います。RCTからはじまり、(新書なのに!)不連続回帰モデルや集積モデル等の胆が分かった気になります。準実験としての社会政策という視点を持てることもそもそも効用大です。こういう本があると、計量経済モデルに興味を持つ人が増えると思います。僕的には今年読んだ新書(大した量読んでませんが…)の中でダントツに良かったです。お正月に是非!
『統計・確率思考で世の中のカラクリが分かる』
も有名ですね。統計「学」の本というよりは、社会派の本です。経済時評が好きな方は楽しめると思います。僕は(高橋先生の主張はどうあれ)随所で見える数学へのリスペクトと教養の広さが結構ツボです。
★★★
その他、今年のトレンドとしてAI関連の新書が大流行りのようですが、「AIで仕事なくなる」関連の本と「AIでとにかく儲かる」本はちょっと今回の趣旨とズレるのでスルーします。前者は深刻な問題であり、後者はワクワクする話だと思うのですが、ビジネス雑誌と同様に書き手にあまり惹かれないです(こんなこと言う必要ないか…。)何でもかんでも詳しい人はいませんよね。
あとその他にもビジネス書コーナーにイケイケなAI本とか機械学習本が結構あったのですが、読んでいないのとしばらく読む予定がないのでスルーしてしまいました。G社とかでバリバリDeepな案件こなしている方々は別として、基本的にデータサイエンス的業務ってイケイケというよりはもっと裏方とかサポなイメージなんですが、皆さん実際はどうなのでしょうか…。あと余談ですが「東大」と「ハーバード」と「スタンフォード」と「マッキンゼー」と「外資系」が大人気ですね。
★★★
以上、中規模書店の書棚によくありそうな教科書と一般書の中間くらいの本をウォッチして紹介しました!
現実的な意味で言うと、ここで紹介したテキスト群については(どの単元をとっても)十分なボリュームのあるテキストはないと思います。ただ、導入本、学び直し本としては、素晴らしい本が多いなぁというのが率直な感想です。
なので「来年こそはデータサイエンス!」という方ならそんなに大きめな書店に行かなくても、駅ビル書店でまぁまぁ良いラインナップが期待できそうです。一方「データサイエンスやりたいぜ!」と言っている人がいつまでも入門書や啓蒙書ばかりを回遊している例も沢山見てきました。
超入門レベル・啓蒙レベルの本を何十冊も読むよりは(例えば東京大学出版の)教科書を時間をかけて読んだ方が良いと思います。WEB記事も同様で、特定トピックについて調べるのにはあまりにも充実している世の中になりましたが、それでも基礎部分は体系立てて順序立てて学んだ方が引き出しの負荷がかかりません。
上で紹介した著者の方々の本はお客さんが持っていることが多い、というのは重要なポイントだと思います。中規模書店の本棚の理系本≒非本業の人たちが手に取る本という部分もあることは覚えておくと良いかもしれません。お客さんが「ちゃんと勉強しようと思ってこの前本屋行ってさぁ」と掲げた本が、上で紹介したいずれかの著者のテキストであることは時々あります。
【結び】
今回は本屋さん巡りの記憶を頼りにデータサイエンス関連の書棚レビューを行いました。今の時代、街の本屋さんに行く場面って欲しい本目当てというよりは、目当ての本がない状態でフラッと立ち寄ることの方がふつう(あればAmazonで買いますよね)だと思うのですが、ふらっと立ち寄った先で「そういえばアノBlogで紹介されてたな」とか思い出してもらえると嬉しいです。ちょっと無茶な企画な企画かもしれず、ヌケモレ沢山あると思いますがご了承ください。
普通の書店で手に取れる名著も沢山あるという事実は暇つぶしするにしても心強いですよね。なんというか、良い時代になったなぁという感じでした。ただやっぱり専門書は大型書店のある都心有利ですね。当たり前か。Amazonで買うにしても専門書単価を考えると中身見たいですよね。あぁ大きな書店がある街に住みたい…。
独立系ゆるゆるDS (@DS67517995) | Twitter
「データサイエンスのオススメ本 その③」
フリーランスのデータサイエンティスト日記
はやいもので4回目のエントリーです。
前回(「データサイエンスのオススメ本 その②」 - DataScientist’s diary)はとりあえず、統計学の基礎~回帰分析までを学ぶテキストをあれこれ紹介しました。通常の流れだと今回から多変量解析の内容に入るかと思いますが、今回も脱線を重ねながらゆるゆる進みたいと思います。正直Blogはじめたばかりなので、あまりすぐにマニアックな領域に入りたくないなぁという気分があります。なるべく広い範囲の方に読んでもらいたいです。そしてフィードバックが欲しいです。
あとやっぱり内容的にも、「実際この通りに学べるのか?」に注意しながらゆっくり時間をかけて書いていかなきゃダメだなぁと感じています。すでに2,3書いた記事の中にも修正・追記したい部分が山ほどあって「あぁ~!」となっているので(笑)
具体的に言えば、ちょっと進みが急過ぎる(一足飛びに難しくなり過ぎている)と感じています。実際どうなのか、は読んでくださっている方からの意見を待ちたいのですが、一応今回から少し進みをゆるやかにしていく予定です。更新頻度というよりも内容の進みの速さの意味で。考えながら、少しでも、少しずつでも、誰かの役に立つ記事にしたいです。
ところで、アメリカではちょっと前に「データサイエンティストの供給問題は解決した」みたいな話もありましたが(@某シンポジウム)、日本のデータサイエンス界隈見ているとまだまだ現場は混乱している感があります。名刺に「データサイエンティスト」と書かれてしまった人がクライアントからのイメージ・ギャップや無茶ぶりで苦しんでいる様子を日々見ているし、発注側は発注側で混乱しまくっています。データサイエンスが「魔法の杖」ではないことは薄々気づかれていますが、今だに回帰分析+αな実装を〇〇AIみたいな名称付けしてしまう例も(信じられないかもしれませんが)普通にあります。
で、いろいろ危なっかしい現状を、勉強不足とか詐欺とか不誠実とか呼ぶのは簡単だと思うのですが(そして真っ当な批判だと思うのですが)現場の混乱を見て常々「大変だなぁ」と思ってきた僕としては、どんな立場にもそうならざるを得ない(単純な悪意ではない)合理性があるものだ、という前提のもとで、文句言わずに少しでも何か貢献したいという自然な思いがあってこのBlogをはじめました。なので使う側にも使われる側にも役立ちたいです。ほんとうに。
そろそろ現実的にデータサイエンスブームが終わり、シビアな成果が問われる中で「なんちゃってな人」が干されていくはずです。データサイエンス(や素朴な統計学)への投資が収束し始め、まだまだトレーニングが必要な人が、ブームの中で勝手に祭り上げられたあげくブームが去ったらポイされるなんていう悲しいストーリーもチラホラ出てきます。
売上ベースで考えてデータ分析への投資がペイしていない現場が本当に沢山あるのは承知していますが、半分は使う側の問題でもあるわけで、ブームが収束していく今の流れを残酷な人材選別期にしてしまうのはあまりにも残酷だと思います。一方現場は現場で、データサイエンスのポテンシャルを理解しないまま、ブーム的なものとして見切りつけてしまうのもどんなもんだろと思うわけです。あと一歩で役立てられるのに、という場面も同様に沢山あります。
僕は世代的にクオンツ・ブームやMBA・経営コンサルブームなどキラキラした職業ブームを沢山見てきたのですが、なんとなくあんな感じになってほしくないなぁとも思っています。
こういう過渡期な状況だとWEBメディアや「〇〇経済」みたいなビジネス雑誌とかの記事がつい気になってしまう人も多くいると思うのですが、あまり右往左往しない方が良いはずです。データサイエンスは役立ちます。役に立つものは役に立つので普通に磨きをかければ良いと思います。でも、データサイエンスの知識を身に付けるのにビジネス雑誌はあまり役にたちません(たぶん)。
個人的には真っ当な教科書をさぼらずに読みながら、日々新しい業務機会をゲットすることがベストだと考えています。とくに学びはじめなら、slideshareもqiitaもtwitterも便利で大切ですが、体系的なテキストの方が大切です。陳腐化しない基礎力は時間がある時に固めてしまいましょう。結局これが言いたかっただけなのですが…地味だけど末永く役立つ知識が得られるテキストをこれからも紹介していきたいです。
というわけで、ここからが本の紹介です。
歴史について
推測統計学の基礎や回帰分析あたりまで学んだ状態(しかも東大本をつまみ食いしているような状態)になったら一度統計学の歴史関連の本を読んでみると良いと思います。散逸しているエッセイをあらためて時系列で学びましょう。骨休めは大切です。それにモチベーションアップにも繋がると思います。、例えばですが、統計学の初等的概念(分散・標準偏差・相関係数・実験計画)などは全て20世紀前半に整備されてきた概念で、それらが最先端の技術として応用された20世紀前半から中盤にかけては戦争の時代であったわけです。つまり統計学を使う側の切迫感が違ったわけです。戦争や国家間競争の文脈の中で命かけて統計学(やオペレーションズ・リサーチや航空工学)に闘志を燃やしてきた状況を知ると、目の前の本を読めばいい立場、失敗しても多少仕事を失う程度の立場が、少し気軽に思えて良い意味で背筋が伸びるかもしれません。
『統計学を拓いた異才たち』
- 作者: デイヴィッド・サルツブルグ,竹内惠行、熊谷悦生
- 出版社/メーカー: 日本経済新聞出版社
- 発売日: 2010/04/01
- メディア: 文庫
- 購入: 16人 クリック: 320回
- この商品を含むブログ (35件) を見る
ゴルトン、フィッシャー、ピアソン、ゴセットなどの推測統計の偉人たちのエピソードが楽しく読めます。1930年代までに彼らが作り上げた諸概念がその後の統計学の土台となり、データ分析を語るアルファベットとなりましたが、出来上がった当時はもちろん混迷を極めていたわけです。新しい学問が出来上がっていく過程は、今の深層学習界隈を考える洞察力を授けてくれるかもしれません(言い過ぎか。)
『多変量解析の歴史』
こんな本あるのか!?とひたすら驚いた本です(笑)多変量解析の歴史的な展開を原論文に即して解説してくれます(数式も原論文通りに展開しているので読みやすくはないです。念のため。)ビジネスシーンでも多用(誤用)されることになった相関という概念の重みと広がりを実感できる本です。
視点を日本に移してみると
『統計学の日本史: 治国経世への願い』
幕末からはじまる政策科学としての統計学について非常に詳しいテキストです。視野を広げたい人は是非。 統計学を築きあげて来た人々では、
『調査の科学』
1940年代、陸軍総軍司令部にて戦闘機の襲来予測等に携わったあと、後に「数量化理論」と呼ばれる体系を築いた林知己夫さんのエッセイ集です。最初の方の話で、陸軍での緊迫感のある経験が語られています。
『デタラメの世界』
原爆調査に関わり、戦後の調査・品質管理をリードしてきた増山元三郎先生のエッセイです。本当はテキストの方がお薦めなのだけれど、やや重いかなと思いまずはエッセイを紹介します。増山先生はタグチメソッドで有名な田口玄一さんの師匠でもあります。
『タグチメソッドわが発想法』
タグチメソッドわが発想法―なぜ私がアメリカを蘇らせた男なのか
- 作者: 田口玄一
- 出版社/メーカー: 経済界
- 発売日: 1999/10
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (12件) を見る
こちらは田口先生の本。ビジネス書っぽいかな。それでも歴史的な流れの中で品質管理(QC)に入門するにはとても良い本だと思います。実験計画や直行法の理論は割と難しくとっつきにくい印象を受ける人が多いと思うのですが、本書はスッキリ読めます(数式はないです。)
『統計科学の三十年 -わが師わが友-』
前統計数理研究所所長の北川源四郎先生(Bayes本でも有名)の父です。黎明期の統計学を独力で作り上げていく気概やマハラノビス(マハラノビス距離の人)との交流の様子など、時代が求めているテーマは違くても、今研究や学びの途中にある人には刺激のあるエッセイだと思います。
なんか統計数理研究所関連の人が多くなってしまったので(そりゃそうか…)最後に赤池先生のテキストを紹介して終わります。
- 作者: 樺島祥介,北川源四郎,甘利俊一,赤池弘次,下平英寿,土谷隆,室田一雄
- 出版社/メーカー: 共立出版
- 発売日: 2007/07/06
- メディア: 単行本
- 購入: 4人 クリック: 74回
- この商品を含むブログ (12件) を見る
AICの応用や発見の経緯、理論的概要(概要です)について興味のある方は是非統計数理研究所の所長の仕事を追いかけていく、というのは良い勉強法かもしれませんね。
例によって、ここまでが前振りです(笑)
【オススメ本 ~多変量解析入門編~ 】
「多変量解析」という括りも今どきではないかもしれないのですが。前段で歴史について触れたのでついでに紹介しておくと多変量解析の標準的なテキスト Anderson "An Introduction to Multivariate Statistical Analysis"が刊行されたのは1958年となります。ネルダーとウェダーバーンによって一般化線形モデルの枠組みが整理されたのが1972年だからここから紹介するテキストの主な内容は50年代~70年代くらいの成果になると思います(たぶん。)
『多変量解析法入門』
「お話(言葉のみによる解説)」ではなくきちんと式を使っているテキストの中でまずオススメなのが本書です。オーソドックスな多変量解析についてロジックの胆の部分を学ぶことができます。本書が厳しい場合は、行列演算や微積のトレーニングがもう少し必要かもしれません。そういう意味で試金石ともなるテキストです。
もし数学のトレーニングがまだまだ必要だと感じたら(そして前回紹介した『ゼロから学ぶ(シリーズ)』を読み終わったあとなら)大学教養レベルの演習本を読むと良いと思います。演習問題が豊富な本がお薦めです。
さて、上記のテキストで一連の多変量解析の基礎を理解したら、行列代数の知識を拡大して「行列分解」という視点で各種多変量を理解することを目指すと良いと思います。行列代数のトレーニング本としてお薦めは、最近邦訳が出た
『統計のための行列代数(上・下)』
がお薦め。タイトル通り(原題も”Matrix Algebra from a Statistician’s Perspective”です)統計学に特化した行列代数の本なので、数学科的な抽象性は少なく読みやすいと思います(ただし、ある人たちにとっては同じ利用で冗長に感じるはずです。)
ハーヴィルの後は、
"Projection Matrices, Generalized Inverse Matrices, and Singular Value Decomposition (Statistics for Social and Behavioral Sciences)"
- 作者: Haruo Yanai,Kei Takeuchi,Yoshio Takane
- 出版社/メーカー: Springer New York
- 発売日: 2011/04/06
- メディア: Kindle版
- この商品を含むブログを見る
が圧倒的にお薦め。多変量解析を幾何的にとらえつつ代数演算も苦労なく行えるだけの十分な知識が身につくと思います。
たぶんしばらくは上記2冊でもしばらく足りると思いますが、ダメ押しでこちらも紹介
"Matrix Differential Calculus with Applications in Statistics and Econometrics (Wiley Series in Probability and Statistics: Texts and References Section)"
ここまで読んでおけば行列代数としては十分かと思います。
ここまで来たら多変量解析の応用系(実例系)のテキストを読みましょう。レベルアップが実感でき、また数式部分で躓きが減っていると思うので(そういう本を選べばですが…)実分析上の注意に集中して読みこむことができるはず。例えば
"Applied Linear Regression Models"
Applied Linear Regression Models
- 作者: John Neter,William Wasserman,Michael H. Kutner
- 出版社/メーカー: Richard d Irwin
- 発売日: 1989/01/01
- メディア: ハードカバー
- この商品を含むブログを見る
と、同時に、やっぱり数学だけ理解していても限界あるなぁと感じるのもこの時期だと思います。確率・統計の知識がちゃんとしてないと読めないんだなぁと思ったら(十分統計量とかフィッシャー情報量とかコクランの定理とか条件付期待値とか積率母関数とか、ちゃんと言える自問してみましょう)まずは東大本を復習した上で、ワンランク上の数理統計学本をゲットしておくと良いと思います。今回は1冊のみ紹介。厳密であるが故のスッキリ感を感じられるでしょう(ただし測度論は使っていません。)
僕は竹村先生の教科書大好きです。 その他沢山ある数理統計の発展本とまとめの話はまた次回以後に(今回はあくまで多変量解析を中心としてテキストを紹介しています。)
さて多変量解析、とくに因子分析や共分散構造分析なんかは、心理学や教育学など人文系でよく使われる分析手法なので当該分野の文脈で学んでおくことも大切です 。そういう趣旨でお薦めなのは、
『多変量データ解析法―心理・教育・社会系のための入門
ただし、東大本の緑を読んでいないならまずそちらから読んでみることをお薦めします。各項目がやや薄いと感じる方向けに実例豊富な大著も紹介。
『多変量解析実例ハンドブック』
とわいえ、今はWEBで簡単に論文検索ができるので適宜調べ学習でも実例(論文)はいくらでも手に入るかと。
因子分析や共分散構造分析などは実運用上の細かい部分(パラメータ選択)が分からん!となりがちですので理論書も紹介しておきます。基礎的な数理統計本と例えば上でお薦めしたような行列代数の本が読めていれば読めると思います。
『因子分析ーその理論と方法』
『共分散構造分析(入門編)』(シリーズ)
共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 1998/10/01
- メディア: 単行本
- 購入: 2人 クリック: 4回
- この商品を含むブログ (5件) を見る
共分散構造分析―構造方程式モデリング 理論編 (統計ライブラリー)
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2007/10/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (2件) を見る
もし数学的準備がまだなら上記のテキストを追うのは簡単ではありません。が、迷ったら参照する本として座右に携えて記述に慣れていくと良いと思います。
『因子分析 (シリーズ行動計量の科学)
エピソードや事例はいらないから理論だけ追っていきたいというマインドな方には市川先生のテキストもお薦めです(柳井先生の本より良い意味で淡々としています。)
ちなみに因子分析と言えば、非常に有名な運用本(アンチョコ本)があります。
『誰も教えてくれなかった因子分析: 数式が絶対に出てこない因子分析入門』
誰も教えてくれなかった因子分析: 数式が絶対に出てこない因子分析入門
- 作者: 松尾太加志,中村知靖
- 出版社/メーカー: 北大路書房
- 発売日: 2002/05/01
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 5回
- この商品を含むブログ (9件) を見る
とりあえず使わなきゃ、という人にはお勧めです(今はググったら何とかなるかもしれませんが…。)その他、心理統計一般についてはまた後日。
多変量解析全般の話題に戻ると、すでにRを使いながら学んでいるという人にお薦めなのが、
『RとS-PLUSによる多変量解析』
- 作者: B.エヴェリット,石田基広,石田和枝,掛井秀一
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 8人 クリック: 217回
- この商品を含むブログ (2件) を見る
単なる操作解説本ではなく、手法の解説もすごく分かりやすいです。
あとは統計モデルの基本として一般化線形モデル(GLM)の本を読んでおきましょう。Bayesモデル(階層ベイズ統計とか)を焦る気持ちも分かるのですが、基礎を放置して応用はない、というのは強調しておきたいです。階層ベイズの話はまた後日。
『一般化線形モデル入門』
- 作者: Annette J.Dobson,田中豊,森川敏彦,山中竹春,冨田誠
- 出版社/メーカー: 共立出版
- 発売日: 2008/09/08
- メディア: 単行本
- 購入: 15人 クリック: 152回
- この商品を含むブログ (13件) を見る
あと経済系に関わったことないと意外とスルーしがちなのが計量経済学。何かで興味をもって計量経済学で使われるような拡張モデルについて学びたい方は、まずは
『実証分析のための計量経済学』
『「ほとんど無害」な計量経済学』
「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド
- 作者: ヨシュア・アングリスト,ヨーン・シュテファン・ピスケ,大森義明,田中隆一,野口晴子,小原美紀
- 出版社/メーカー: エヌティティ出版
- 発売日: 2013/05/31
- メディア: 単行本
- この商品を含むブログ (1件) を見る
が楽しめると思います。あと理系の人は経済系の実証研究のイメージがつかめるかと。
さらに計量経済を伸ばしていきたいなぁと思ったら、
『計量経済学 (y21)』
Hayashi、Green、Wooldridgeについてはまたどこかで。
【結び】
今回は歴史と多変量解析を中心にテキストを紹介しました。いろいろ読んでると統計モデルだけじゃなくて様々な数理モデルについても興味が出てくると思うので、そこらへんもいつかまとめたいと思います。例えばブラック–ショールズ方程式とか基本的な金融モデルについては知ってて損はないと思いますし、良い感じに関数解析とか偏微分方程式に興味もつきっかけにもなると思うので効用もあるはず。
あと前段でも書いたのですが、全体的に急ぎ過ぎてる感があるので次回あたりいったんこれまでの内容を整理しようかなぁとか考えています。リクエストは随時受付中です!
「データサイエンスのオススメ本 その②」
3回目のエントリーです。
前回からしばらくお薦めテキストの紹介をしていく流れにしています。前回(「データサイエンスのオススメ本 その①」 - DataScientist’s diary)はとりあえずこれからデータサイエンスはじめる人向けに粗々でも良いから全体像をとらえよう、というコンセプトでテキストを紹介しました。今回は、詳細は全然分からないけど、何がデータサイエンスのタスクなのかおぼろげには分かっていて、回帰分析とかkmeansとかCNNとか(適当です)有名所のキーワードについてはある程度耳に馴染んでいる人を対象にしてテキストの紹介をしたいと思います。イメージとしては、ようやく机が必要になる(電車の中の読書だけじゃ完結しない)段階です。なので(しつこいですが)ここから先のテキストは適宜手を動かして学ぶことを推奨します。あと、今回は「いよいよ勉強スタート!」の回なので、ペースメーカーとしての資格についても前段で少し触れたいと思います。
資格について
僕はまったく違うタイプなのですが、いざ勉強をはじめようとするとペースメーカーとして資格取得を利用する人が一定数いるようです。ここで簡単にいくつか紹介しておきます。
統計検定
マークシート式の試験で、3級が記述統計、2級が推測統計の基礎(重回帰と一元配置まで)、準1級と1級は学部上級レベルのアラカルト問題(問題領域を選択)で多変量解析やデータマイニング領域の問題、やや詳しい数理統計の問題まで対象範囲です。3級、2級は6月と11月の年2回試験、準1級は6月のみ、1級は11月の年1回試験です。CBTもあります。内容詳細はWEBページを確認ください。
今が12月末なので次の試験は6月となるわけですが、もし「これから統計学をはじめる」人であれば半年で2級合格を目指すのは丁度良いペースかと思います。ただし(これを読んでくれているほとんどの人は仕事をしながら勉強すると思うので)業務の忙しさによって半年が妥当な期間がどうかは人によります。半年で受からなそうでも落ち込まずに大丈夫。自分のペースで進みましょう。
統計検定は実務直結する資格ではまったくない(と思う)ということは覚えておきましょう(t検定やカイ二乗検定が使えないということではなく、問題の質がやや数理的なかなぁという意味です)。例えば就活の際のスキル要件や、社内で資格補助の適応対象になっているケースはまぁまぁありますが、だからと言って試験内容が実務的かと言えばまったそうではありません(別にディスっているわけではなく、多くの資格はそういうものだと思います。)ですので、持っていないことを卑下する必要もなく、持っていたからと言ってそこまで誇示できるわけでもないです。
受けるのであれば「確率変数や推定・検定の扱いに慣れるトレーニング」としての位置づけが丁度良いと思います。そしてそのトレーニングは(たとえ実務直結しなかったとしても)とても大切だと思います。逆にすでに実務でデータサイエンスしているぜ、という方は数理的勉強のモチベーションとして統計検定1級を目指すのは良いと思います。1年後になってしまいますが…もし演習問題を解く作業から遠く離れているのならちょうど良い期間でしょう。そういう方には知識整理の場として役立つかと。
統計士・データ解析士
実は統計検定よりもずっと古く、歴史が長い通信教育の資格です。内容は統計士が推測統計の基礎まで、データ解析士が多変量解析の基礎まで(重回帰・主成分・ロジスティック回帰あたり)となります。課題は筆記+配布されるExcelファイル上での解析です。正直言うと、問題ずっと変わっていないのでは?と思えるほど参照されているデータが古いので資格運用上の態度としてはアレですが、問題や扱っている項目は割としっかりしていると思います。例えば回帰ならテコ比についてやSTEP WISEのような変数選択のアルゴリズムを扱っています。あと名前が格好良い(笑)のでよく分かっていない人には凄そうに見せれるかも(?)。通信教育なので、自分のペースでまったり学びたい、という方には良いかもしれません。(一応ですが…重回帰はまだしも、主成分やロジスティック回帰をExcel上で行う人はほとんどいないので、あくまで通信教育の課題としての位置づけで捉えてください。)あと、同じ通信教育ならgaccoの講座の方が(こちらも賛否ありますが)扱っている内容・分析環境共に現代的だと思いますので覗いてみてください。
公的データ(e-Stat)の扱い方がカリキュラムに含まれていることが、さすが総務省のでユニークな点です。テキストは書店に置いてあるので気になる人は是非。
データサイエンス協会の「スキルチェックシート」
一般社団法人データサイエンス協会というところが出しているデータサイエンスの「スキルチェックシート」というものがあり、定義定まらない「データサイエンス」のスキルについて、業界標準的なチェックシートを作ろうと頑張っています。2017年10月にv2が公開されたので、資格ではないのですがついでに言及しておきます。内容詳細はリンク先参照なのですが、勉強しながら適宜見返すと勉強の動機付けになるかもしれません。ただ「〇〇分析を使える」というのが一体どの程度のレベルなのかはたぶん永遠に謎なので、あまり表現にこだわり過ぎないのが良いでしょう。時々見返して知らない単語がでてきたらちょっと調べてみる、という使い方がベターかなぁ。ちなみに、データサイエンス協会のWEBには「データサイエンティスト求人情報」というコーナーがあるので、お仕事探している人には便利かもしれません。すぐに応募するわけではない人も、求められているスキルをチェックするのには使えると思います。
G検定
日本ディープラーニング協会(jdla) - 科学・技術・エンジニアリング | Facebook - レビュー4件 - 写真22件
日本ディープラーニング協会(JDLA)が主催する人工知能(AI)関連の知識を問う試験「JDLA Depp Learning for General 2017」です。G検定についてはサンプル問題しか見たことがないので、詳しく言及できないのですが、一応こういうのもあるよ、程度に紹介しておきます。深層学習ブームに乗っかった資格商法なのでは、と思う方もいるかもしれませんが、JDLAの理事長は東大の松尾豊先生(ベストセラーとなった『人工知能は人間を超えるか』を書いた人です)なので、良い検定に育っていくかもしれません。
人工知能は人間を超えるか ディープラーニングの先にあるもの (角川EPUB選書)
- 作者: 松尾豊
- 出版社/メーカー: KADOKAWA/中経出版
- 発売日: 2015/03/11
- メディア: 単行本
- この商品を含むブログ (38件) を見る
時代の流れは高速ですが… 良い本だと思います
アクチュアリー試験(数学)
保険会社や年金会社に勤める専門職用の資格試験です。数学科の「とりあえずとっておく資格」としても有名でした(かつては)。1次試験の数学が結構骨のある「確率・統計」の問題なので、しっかりと問題演習しながら確率・統計を勉強していきたいという方には良いペースメーカーになると思います。大学教養課程の解析・線形代数(の初歩)を思い出すリハビリにもなるかも。「ひねりのある問題を解く」のが好きなソルバータイプの人にはとくにお薦めです。たぶん統計検定の問題よりも何倍も楽しめると思います。過去問は公開されているので気になる方はチェックしてみてください。
ただし、高校数学も曖昧という方、数学の問題演習不足の方にはお薦めできません。おそらく「数学」1科目だけでも年単位で時間がかかります(試験は年1回しかありません。)アクチュアリーに真面目に興味ある方なら良いと思いますが、あくまでデータサイエンスしたい人で、数学に自信ない方は、あえて言えば統計検定の方が無難かと思います(資格を受けたいのであれば。)
有名所はこんな感じでしょうか。なんか(僕が思っている)データサイエンスのイメージとダイレクトにリンクする資格は全然ないようです。あと広義の資格としてMBAや社会人大学院がありますが、大学についてはまた別の機会に。最近はMBAカリキュラムの中にもデータサイエンスなカリキュラムがすごく増えてますね(RやPythonやWeka使う授業も多いです)時代変わったなぁ…。
長いですが、ここまでが前振りです(笑)
【オススメ本 ~統計学入門編~ 】
今回は「これから統計学を学ぶ人」を対象としてテキスト紹介をします。
テキスト紹介の基準として、統計学を学ぶ上で僕が大切だと思っていることと注意すべきと思っていることを箇条書きしました。「学びはじめの人」を想定しているので伝わらないかもしれないのですが、ある程度進んだ段階で読み返してもらえるとありがたいです。今回のテキスト紹介は以下の項目を気にしながら作成しています。
・記述統計を馬鹿にしないこと/図や表を馬鹿にしないこと
ヒストグラムとか箱ヒゲ図とかの初等的項目を学ぶことをスルーしがちな人が多いです。すでに業務している人でも、「まずヒストグラムを見ること」を無視していきなり分析に入ってしまう人たちが本当に沢山います。成果を焦るよりもデータに対する健全な好奇心を養い「データを見る」をどんどん経験して、忘れがちな初手を習慣化してしまいましょう。
・検定コレクターにならないこと
仮説検定を学んだあとだと、「検定すげぇ!」となって沢山の検定手法を学びはじめる人たちが時々います。「自分の業務に使える検定探し」をしてしまうのですが、そんなに都合よい検定はありません。2元配置といくつかのノンパラを学んだあとは、ケースバイケースで学べは十分です。
・とにかく確率変数の扱いに慣れること
分かりやすさ重視で確率変数の概念を曖昧にしたままX(大文字のX)を出さずに議論を進める本が時々あります。著者の苦労には頭が下がりますが、多少大変でも確率変数の扱いははやめに慣れておいた方が圧倒的に良いと僕は思います。式でモデルを読めないといずれ詰みます。
・疫学やデザイン視点を学ぶこと
記述統計や可視化をしっかり学び、確率変数をきちんと使いながら分散分析あたりまで学んだ後は、多変量解析やGLMに進む前に疫学や医療統計、リサーチデザインの本を何冊か読んでおくと良いと思います。検定力やサンプルサイズ、効果量の概念、コホートとケース・コントロール実験について、交絡の概念などをしっかりと学ぶことで仮説検定(というよりは信頼区間)を自信をもって使うことができるようになります。
・回帰分析のマスターをベンチマークとすること
回帰モデルは統計モデルの基礎中の基礎(最もシンプルな予測モデルであり、初等的な仮説検定も沢山表現できる)ですが、Excelでも手軽に出来てしまうためものすごく誤解・誤用されているモデルです。回帰分析だからと言って侮らず、どっしり腰を据えて学びましょう。その先の学びがかなり楽になります。逆に、回帰モデルをなめてかかると(例えば最小二乗法を理解しただけで分かった気になると)あとでしっぺ返しをくらうことになりますよ…。
というわけでまずは可視化についてのテキストから。邦書だとそんなに多くはありませんが1冊目なら以下がお薦めです
『情報を見える形にする技術』
- 作者: Riccardo Mazza,加藤諒,中本浩
- 出版社/メーカー: ボーンデジタル
- 発売日: 2011/04/25
- メディア: 大型本
- 購入: 2人 クリック: 181回
- この商品を含むブログ (1件) を見る
もしプログラミング(javascript)に慣れているなら(苦手意識がないなら)以下の本も。
『インタラクティブ・データビジュアライゼーション』
インタラクティブ・データビジュアライゼーション ―D3.jsによるデータの可視化
- 作者: Scott Murray,長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/02/19
- メディア: 大型本
- この商品を含むブログ (3件) を見る
D3は素晴らしいですね。これからのDataVizはインタラクションが基本です。
上記2冊は準備運動です。統計学から入ると2変量以上の世界(多変量の世界)に戻ってくるまでに時間がかかるので「データは多変量を扱うことの方がふつう」という観点を忘れがちになると思うのですが、ときどき可視化の本を読み返してみるとデータ間関係を考える視点を維持できると思います。
ここから理論書に入ります。まずは以下3冊(東大本)を購入しておくことを強くお薦め。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (83件) を見る
東大他、様々な大学の統計学の講義で教科書・副読本として使われているテキストです(「赤本」と言われたりします。)初学者に読みやすいかと言うと決して読みやすくはないのです(なので大学でも脱落者が多数でます)が、ある程度の段階までいくと評価が反転する名著の定番です。この本が「読みやすい」と思えること自体を最初の目標にしても良いくらいだと僕は思っています。本書からいきなり読められる人は読み進めれば良いし、「読みにくい」「難しい」と感じたら脇に置いていったん違うテキストから始めてみるのが良いでしょう。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08/01
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (21件) を見る
同シリーズの続編2冊です。これらも『統計学入門 (基礎統計学Ⅰ)』が難しい場合は読みこなすのが難しい(すべてではない)ですが、すぐに購入しても損にはならないと思います。データサイエンスの射程の広さや諸科学との関連を実感できます。
東大本が読めない場合のサブテキストですが、東大本が読めない理由としては(1)数学的な基礎体力が不足している場合(2)統計学的な考え方に慣れていない場合 があると思います。そして(1)(2)両方該当する方も結構多いと思います(1)(2)該当者でも無理なく統計学的な世界に入れる本としては、
『完全独習 統計学入門』
- 作者: 小島寛之
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2006/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 215人 クリック: 3,105回
- この商品を含むブログ (115件) を見る
小島寛之先生は経済学の先生なのですが、とにかく数学や統計学の記述がめちゃめちゃうまいです。この本も「中学数学まで」を前提として誰もが仮説検定を理解できるように構成されています。推測統計の発想法がさくっと得られることで、この先の学びがスムーズになるはずです。ただし「中学数学」の知識だけでは先には進めません。もし本書を読んで、小島先生の書き方が好きだなと思えたら、せっかくなので数学の学び直し本も小島先生のシリーズで揃えてしまうのが良いと思います。
『ゼロから学ぶ線形代数 』
数式に慣れないと「木を見て森を見ず」の状態を抜け出せません。上記2冊はとくに大学数学にコンプレックスがある方の解毒剤として効能たっぷりです。微積も線形もきっと楽しめる、というマインドを作っておきましょう。ここに書いてあるような内容は、どの方面に行くにしろ必ず役に立ちます(必須とも言えます。)
ただし、上の2冊では確率変数の扱いについては学べません。確率変数の形式的操作に慣れるためにはやはり「それ用の」演習本も扱う必要があります。その意味で、
『ゼロから学ぶ統計解析 』
をまずはトライして見てください。小島先生の本がよめたのならきっと読めるはず。問題数が足りないならば同著者の
『明解演習 数理統計 (明解演習シリーズ) 』
もお薦め。本書はアクチュアリー数学対策の演習本としても長い間、定番の地位にいたテキストです。
演習本の対抗馬は
『弱点克服 大学生の確率・統計』
あたりでしょうか。僕はいろいろ解きましたが、演習本については大きな違いは感じませんでした。あと全部を解く必要はないと思います。ここではあくまでも『統計学入門 (基礎統計学Ⅰ)』を読むための練習本としての位置づけで紹介しています。
※ ガチな数理統計本については別の機会に。
さて、東大本を読んだ後、数理統計の基礎的な演習本を超えた後ですが、運用本とExcel本を読んでみると良いと思います。手を動かしながら学ぶことの大切さは一貫して強調していきたいです。あと、いきなり数理統計の大学レベルの理論書に入るのではなく、実作業に近い本を読んで「おっ、意外といけるじゃん!」と思うことは動機付けの面で良いです。
手を動かしながら学ぶExcel本の決定版は、最近翻訳された
『データ・スマート Excelではじめるデータサイエンス入門』
が圧倒的にお薦めです。邦訳のamazonレビューが全然盛り上がっていないのですが、心配な人は原著を読みましょう(僕は原著しか読んでいません…。)間違いなしに良い本です。
配列数式(Array Formula)の扱いが心配だと言う方向けにExcelの本も1冊紹介。Excelにも豊かな世界が待っていることを実感できます。
『Excel 2016 Bible』
Excel本は上2冊で十分かと思います(少ないかな)。その後はRかPythonに進みましょう。R本やPython本についてはまた後日。
あと、くどいのですが…理論とか手法に傾く前に、疫学や研究デザインについての本を読んでおいた方が絶対に良いと思います。良い設計なくして良い分析はないです(もちろん業務では「良い設計」に遭遇することはとてもマレです。がその辺りはまた別の機会に。)
デザイン本の1冊目として強くお薦めなのが、
『統計学のセンス』
統計学のセンス―デザインする視点・データを見る目 (医学統計学シリーズ)
- 作者: 丹後俊郎
- 出版社/メーカー: 朝倉書店
- 発売日: 1998/10/01
- メディア: 単行本
- 購入: 4人 クリック: 238回
- この商品を含むブログ (3件) を見る
書店だと医療統計の書棚にしかないかもしれませんが、研究デザインの重要なトピックをこれほどコンパクトに密度高くまとめられている本は見たことがありません。丹後先生は医療統計(メタアナリシス)の大御所(つまり、ビジネス現場よりも分析デザインが何倍もシビアな領域の大御所)です。
この本で疫学的な発想法、楽しいなと思えたら大御所Rothmanの以下の本がお薦め。
『ロスマンの疫学』
ビジネス解析に偏っている人にはなかなか知名度がないのですが、良書は良書なので手にとってみてください(ただし邦訳は若干難あり。)
最後にまとめ本として、以下を紹介します。
『統計的方法のしくみ―正しく理解するための30の急所』
うんうん、と頷きながら楽しく読めたら推測統計の基礎は卒業で良いはず!あとは回帰分析を極めましょう。
回帰分析の歴史的な名著としてはこちら
『回帰分析とその応用』
統計学の文脈でベクトルや行列の扱いに慣れるのにもお薦めです。分散共分散行列の扱い、射影行列の扱い方やイメージを得るのは、はやければはやい程良いと思います。
数学に自信があるのなら(確率変数の扱いを演習本を通してトレーニングしているなら)、こちらもお薦め
『回帰分析』
ちょっと前までは回帰分析と言えばコレというくらい 有名な本です。この本がサクサク読めるなら数学的な準備も十分だと思います(逆に言えば、今の段階で読めなくても全然気にする必要ないです。段階を踏んでいきましょう。)
【結び】
今回は統計学入門編としてテキスト紹介をしました。文章が長いとか、東京大学出版の3冊褒め過ぎとか、Excel押し過ぎとか、いろいろ突込みがあるかと思うのですがご意見いただけたら嬉しいです。今どきの人は1990年代後半以後の機械学習モデルや深層学習からいきなり学ぶのかなぁと思ったりもしたのですが、迷った末にスタンダードな統計学から始めることにしました。
「データサイエンスのオススメ本 その①」
フリーランスのデータサイエンティスト日記
2回目のエントリーです。初回記事を読んでくださった方々、スター(よく分かっていないのですが…)くださった方々ありがとうございます。反応あると嬉しいです。Twitterも同時に始めた(
https://twitter.com/DS67517995
)のですが、沢山の人が日々ふつうにやれているような行為でも僕には結構なハードルだったようで、はじめて「公開」や「ツイート」を押すと時はまぁまぁ緊張しました(笑)
今回からしばらくお薦めテキストの紹介をしていきたいと思います。僕もそうだったのですが「これからはじめる人」「はじめたばかりの人」にとってまずもって必要なのは本の情報(内容・順序・時間・効用)だと思っています。あと、本の紹介ページはいくつあっても良いと思ったので(Amazonの商品レビューとか読むの楽しいですよね)僕なんかでも書いていいだろうと感じた次第です。
そうは言っても散漫に本のタイトルを羅列しただけでは使い勝手が悪いと思うので、まずは僕が大切だと思っている学び方や価値観を少し細かめに書いておきます。あくまでも「こういう人間が選んだ本」だということに注意して読んでいただけるとありがたいです。
ソフトウェア使いながら学ぼう
僕は読書好きで空いた時間があればとりあえず本を読んでいる人間なのでよくわかるのですが、本を読んで理解できた感覚になることは、単純に超気持ちいいですよね。ただ、水泳と同じで「読んで学ぶ」では半分しか身につかないのがデータサイエンスだと思っています。
なので、とくに「これからはじめる人」はExcelでも何でも良いので「コンピュータで出力しながら学ぶ」ということを忘れないでください。「Excelなんかで良いの?(笑)」という声には耳を塞いでOKです。最近はTwitterの見過ぎて自分でよく考えずにExcelをディする人が増えていますが、自分が納得していないのに周りの声に流されるのは学ぶ態度としてはベターではないはず。Excel素晴らしいですよ。僕はMicrosoftのアプリの中では一番好きです。このあたりもいつかちゃんとまとめたいのですが、今回はツールは何でも良いので「使ってみる/やってみる」という姿勢がまずは大切、ということを強調しておきたいと思います。Excel本も順次紹介していきます。
手を動かして計算しながら学ぼう
あと理系本に慣れていない方に多いのですが、数式を手を動かして自分で計算して確かめることと練習問題を解くこともすごく大事です。人文・社会科学系の本に慣れていると数式との付き合い方(式展開をモノにするトレーニングや飛ばし所)がなかなか分からないかもしれないのですが、例えば確率変数の扱いとかは早い段階で身に着けておくほど効用高いです。だからと言って、ルベーグ積分とか確率論とかから始めるのは(大部分の人にとって)NGだと思います。完全準備症候群になるのだけは避けましょう。走りながら学ぶ、が数学の基本だと思います。ただ、中学・高校数学レベルでつまずきがある人は、おそらく数学の学び直しを並走した方が良いです。データサイエンスに特化した学び直しの方法についてはまた別エントリーでまとめたいと思います。
沢山ある統計本・機械学習本・深層学習本・AI本から何を選ぶか
基本的には何でも良いと思います(笑)あなたが学び始めたばかりなら、まずは手当たり次第に手をとって乱読すると良いと思います。気になった本は直感を信じて読んでみた方が良いです。周りの声は半分しか気にしないこと。万が一、本選びに失敗しても大丈夫。
読めない本、読めない箇所(数式)、読めないコードはあなたに必要な技術を教えてくれるヒントになります。楽しくない文章、楽しくない記述、読みにくい数式、なんか鼻につく著者(笑)は、職能定義が定まらない多様なデータサイエンティスト像の中で、あなたが目指すべきイメージを作る手助けになるでしょう。
焦らないこと!教科書大切です
ただし、周りに流されてAIバブルに乗っかる必要はありません。飲み込まれます。例えばヘタなセミナーに騙されてお金と時間を無駄にします。どういうキャリアになっても確実に役立つのは基礎と思想です。あせらないこと。自己啓発的な統計本(このスキルで年収1,000万!)やビジネスマン・ターゲットの広告本(こんなことまで出来るぜ!)にばかり手を出しているのなら、一冊はちゃんとした「教科書」を手にしましょう。末永く使える基礎を身につけましょう。
それでもベストセラーも少しは読んでおこう
例えば2017年現在だとお客さん(つまり発注者)との話題の中で圧倒的によく出てくる統計学関連の本は西内啓さんの『統計学は最強の学問である』や森岡毅さんの『確率思考の戦略論』とかです。これらの本の良し悪しは置いておくとして(僕は結構好きですよ)、大事なことは、大部分のお客さんがこのような本で、統計学やデータ分析のイメージを形成している、ということなんです。間違ってもHintonの論文を読む素人はいません(笑)。だから仕事的には役立つ確率高いのです。お客さんの前提知識や先入観を理解するためのコミュニケーションは必ずしも簡単ではありません。理解するためのヒントがあるならどんどん積極的に利用しましょう。
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/24
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (128件) を見る
確率思考の戦略論 USJでも実証された数学マーケティングの力
- 作者: 森岡毅,今西聖貴
- 出版社/メーカー: KADOKAWA/角川書店
- 発売日: 2016/06/02
- メディア: 単行本
- この商品を含むブログ (1件) を見る
注意!
と、ここまで書いて何なのですが、一番大切なのはもちろん「好奇心」と「楽しむこと」だと思うので、あまり方法論にこだわり過ぎないのが良いと思います。(僕自身も方法論マニアな態度はあまり好きではありません…。)あと、ここで書いている内容はあくまで初学者への僕なりのオススメなので、発展版はまた別の機会に。それと、テーマいつでも募集中です!!何でも良いのでリクエストくれたらめっちゃ喜びます。
開始レベル
一応開始レベルは完全な初学者(高校数学はおぼろげ、統計学は未学習、コンピュータは大学の情報リテラシー的知識と事務アプリとしてExcelを使えるくらい)を仮定しています。
というわけで
ここからデータサイエンスを学び始める人に、現段階でのお薦めの順番でテキスト紹介をしていきたいと思います(たぶん何回も修正・更新します。)ただ、ここでの順番というのは学ぶ順番ではなく、手に取る順番・買う順番です。
本には、まだそれが理解できるレベルになかったとしても持っておくべき本というものがあります。はじめは雰囲気を掴み、言葉に慣れ、憧れと挑戦心を膨らませるために読み、次にはレファランスとして必要個所をつまみ食いし、成長を実感するために読み、時期がきたら通読して体系的に知識を獲得するために読む本。そういう本は通常「基本書」とか「教科書」と呼ばれるのですが、残念ながらデータサイエンスは日が浅い分野なので万人が認める「基本書」「教科書」というのがそんなに多くはありません(たぶん)。なのでここで紹介する本は、現段階で僕が「準基本書」「準教科書」っぽいなと感じる本です。
【オススメ本 ~概論編:粗く全体像を捉えるための「地図本」~ 】
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
- 作者: Foster Provost,Tom Fawcett,竹田正和(監訳),古畠敦,瀬戸山雅人,大木嘉人,藤野賢祐,宗定洋平,西谷雅史,砂子一徳,市川正和,佐藤正士
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/07/19
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
データサイエンスという「仕事」の外観(「現場」「目的」「流れ」)を掴むにすごく良い本です。そして「仕事」としての外観は非常に大切です。企業の成果やサービスをメインで紹介している本だと「手法」や「機能」や「成果」にフォーカスがいきそうになるのですが、まずは「流れ」と「目的(予測・判別・分類・圧縮・検知など)」を「現場」の文脈の中で大雑把でも押さえておくのが、その先の学びを実りよくするためのコツだと思っています。
あと、新しい分野を学び始めたばかりの時はどうしても当該分野に誇大妄想を抱きがちですが(そのおかげでアクセルが効くので良いところもあるのですが)きちんと現実的な目線を獲得する、というのは結構大事だと思います。そういう意味でも本書は有用です。もちろん地道な泥作業についてばかり厚く触れているわけではないです(そんな本、読みたくないですよね…?)他書と比べて実作業のイメージが持ちやすいという意味です。
データサイエンス講義
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
コロンビア大学の講義が元になっている本です。オムニバス形式で様々な企業のエンジニアや研究者がそれぞれの関わった仕事と付随する分野を紹介していて、。データサイエンスの「射程の広さ」を概観することができます。Data VisualizationやMapReduceについてそれなりに厚く語られているのも類書になかなかない良さです。理論書ではないのでテクニカルタームの説明は読み飛ばしてOKだと思います。理論詳細を学ぶべきテキストでありません。
上記2冊を読めば、データサイエンスのコンセプトやプロセス、事例や必要なスキルセットについてのイメージが得られると思います。まずは粗々でも地図をゲットしましょう。
O’REILLYの本は字が細かいし分厚いです。苦手な人もいるかもしれないので、念のため類書も挙げておきます。基本的にはデータサイエンティストをディレクションするマネージャーの立場の人向け手に書かれた本ですが、準用途としては上2冊と同様に「地図本」となります。
真実を見抜く分析力 ビジネスエリートは知っているデータ活用の基礎知識
- 作者: トーマス・H・ダベンポート,キム・ジノ(Jin-ho Kim),河本薫,古川奈々子
- 出版社/メーカー: 日経BP社
- 発売日: 2014/04/10
- メディア: 単行本
- この商品を含むブログ (1件) を見る
- 作者: トーマス・H・ダベンポート,ジェーン・G・ハリス,村井章子
- 出版社/メーカー: 日経BP社
- 発売日: 2008/07/24
- メディア: 単行本
- 購入: 9人 クリック: 121回
- この商品を含むブログ (24件) を見る
今回は概論書2冊紹介しただけで終わりです(笑)まだまだ続きます!!
※ まだ「勉強」の段階にも入っていません…。
※ たぶんこのペースで書いていたら例えばPRMLに辿り着くまでに半年くらいかかってしまいそう(笑)…なのでリクエスト下さった方には個別にどんどん紹介したいと思います。
※ 注意!上にあげた本はすべて最近の機械学習・深層学習の発展については一切記載されていません(出版年を見ていただけると分かるのですが、この業界の進歩の速さを考えると2014年はすでに古すぎます。)理論を学ぶ前に、キーワードだけでも最近の動向にキャッチアップしたいという方は、NIPS関連の記事を読むか、GoogleBrainの人やtwitterやslideshareにいる超絶スペックの人をフォローしておく方のが良いと思います。
【結び】
Blog書くことがこんなに大変だとは思いませんでした…。僕は基本的に編集や校正をほとんど行わずひたすら直列で書いているのですが、それでも結構な時間がかかりました。僕の生産性が低いというだけの話なのですが(笑)、世のBloggerさんへのリスペクトが10倍くらいになったことはBlogはじめてよかったことの1つです。