「データサイエンスのオススメ本 その①」
フリーランスのデータサイエンティスト日記
2回目のエントリーです。初回記事を読んでくださった方々、スター(よく分かっていないのですが…)くださった方々ありがとうございます。反応あると嬉しいです。Twitterも同時に始めた(
https://twitter.com/DS67517995
)のですが、沢山の人が日々ふつうにやれているような行為でも僕には結構なハードルだったようで、はじめて「公開」や「ツイート」を押すと時はまぁまぁ緊張しました(笑)
今回からしばらくお薦めテキストの紹介をしていきたいと思います。僕もそうだったのですが「これからはじめる人」「はじめたばかりの人」にとってまずもって必要なのは本の情報(内容・順序・時間・効用)だと思っています。あと、本の紹介ページはいくつあっても良いと思ったので(Amazonの商品レビューとか読むの楽しいですよね)僕なんかでも書いていいだろうと感じた次第です。
そうは言っても散漫に本のタイトルを羅列しただけでは使い勝手が悪いと思うので、まずは僕が大切だと思っている学び方や価値観を少し細かめに書いておきます。あくまでも「こういう人間が選んだ本」だということに注意して読んでいただけるとありがたいです。
ソフトウェア使いながら学ぼう
僕は読書好きで空いた時間があればとりあえず本を読んでいる人間なのでよくわかるのですが、本を読んで理解できた感覚になることは、単純に超気持ちいいですよね。ただ、水泳と同じで「読んで学ぶ」では半分しか身につかないのがデータサイエンスだと思っています。
なので、とくに「これからはじめる人」はExcelでも何でも良いので「コンピュータで出力しながら学ぶ」ということを忘れないでください。「Excelなんかで良いの?(笑)」という声には耳を塞いでOKです。最近はTwitterの見過ぎて自分でよく考えずにExcelをディする人が増えていますが、自分が納得していないのに周りの声に流されるのは学ぶ態度としてはベターではないはず。Excel素晴らしいですよ。僕はMicrosoftのアプリの中では一番好きです。このあたりもいつかちゃんとまとめたいのですが、今回はツールは何でも良いので「使ってみる/やってみる」という姿勢がまずは大切、ということを強調しておきたいと思います。Excel本も順次紹介していきます。
手を動かして計算しながら学ぼう
あと理系本に慣れていない方に多いのですが、数式を手を動かして自分で計算して確かめることと練習問題を解くこともすごく大事です。人文・社会科学系の本に慣れていると数式との付き合い方(式展開をモノにするトレーニングや飛ばし所)がなかなか分からないかもしれないのですが、例えば確率変数の扱いとかは早い段階で身に着けておくほど効用高いです。だからと言って、ルベーグ積分とか確率論とかから始めるのは(大部分の人にとって)NGだと思います。完全準備症候群になるのだけは避けましょう。走りながら学ぶ、が数学の基本だと思います。ただ、中学・高校数学レベルでつまずきがある人は、おそらく数学の学び直しを並走した方が良いです。データサイエンスに特化した学び直しの方法についてはまた別エントリーでまとめたいと思います。
沢山ある統計本・機械学習本・深層学習本・AI本から何を選ぶか
基本的には何でも良いと思います(笑)あなたが学び始めたばかりなら、まずは手当たり次第に手をとって乱読すると良いと思います。気になった本は直感を信じて読んでみた方が良いです。周りの声は半分しか気にしないこと。万が一、本選びに失敗しても大丈夫。
読めない本、読めない箇所(数式)、読めないコードはあなたに必要な技術を教えてくれるヒントになります。楽しくない文章、楽しくない記述、読みにくい数式、なんか鼻につく著者(笑)は、職能定義が定まらない多様なデータサイエンティスト像の中で、あなたが目指すべきイメージを作る手助けになるでしょう。
焦らないこと!教科書大切です
ただし、周りに流されてAIバブルに乗っかる必要はありません。飲み込まれます。例えばヘタなセミナーに騙されてお金と時間を無駄にします。どういうキャリアになっても確実に役立つのは基礎と思想です。あせらないこと。自己啓発的な統計本(このスキルで年収1,000万!)やビジネスマン・ターゲットの広告本(こんなことまで出来るぜ!)にばかり手を出しているのなら、一冊はちゃんとした「教科書」を手にしましょう。末永く使える基礎を身につけましょう。
それでもベストセラーも少しは読んでおこう
例えば2017年現在だとお客さん(つまり発注者)との話題の中で圧倒的によく出てくる統計学関連の本は西内啓さんの『統計学は最強の学問である』や森岡毅さんの『確率思考の戦略論』とかです。これらの本の良し悪しは置いておくとして(僕は結構好きですよ)、大事なことは、大部分のお客さんがこのような本で、統計学やデータ分析のイメージを形成している、ということなんです。間違ってもHintonの論文を読む素人はいません(笑)。だから仕事的には役立つ確率高いのです。お客さんの前提知識や先入観を理解するためのコミュニケーションは必ずしも簡単ではありません。理解するためのヒントがあるならどんどん積極的に利用しましょう。
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/24
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (128件) を見る
確率思考の戦略論 USJでも実証された数学マーケティングの力
- 作者: 森岡毅,今西聖貴
- 出版社/メーカー: KADOKAWA/角川書店
- 発売日: 2016/06/02
- メディア: 単行本
- この商品を含むブログ (1件) を見る
注意!
と、ここまで書いて何なのですが、一番大切なのはもちろん「好奇心」と「楽しむこと」だと思うので、あまり方法論にこだわり過ぎないのが良いと思います。(僕自身も方法論マニアな態度はあまり好きではありません…。)あと、ここで書いている内容はあくまで初学者への僕なりのオススメなので、発展版はまた別の機会に。それと、テーマいつでも募集中です!!何でも良いのでリクエストくれたらめっちゃ喜びます。
開始レベル
一応開始レベルは完全な初学者(高校数学はおぼろげ、統計学は未学習、コンピュータは大学の情報リテラシー的知識と事務アプリとしてExcelを使えるくらい)を仮定しています。
というわけで
ここからデータサイエンスを学び始める人に、現段階でのお薦めの順番でテキスト紹介をしていきたいと思います(たぶん何回も修正・更新します。)ただ、ここでの順番というのは学ぶ順番ではなく、手に取る順番・買う順番です。
本には、まだそれが理解できるレベルになかったとしても持っておくべき本というものがあります。はじめは雰囲気を掴み、言葉に慣れ、憧れと挑戦心を膨らませるために読み、次にはレファランスとして必要個所をつまみ食いし、成長を実感するために読み、時期がきたら通読して体系的に知識を獲得するために読む本。そういう本は通常「基本書」とか「教科書」と呼ばれるのですが、残念ながらデータサイエンスは日が浅い分野なので万人が認める「基本書」「教科書」というのがそんなに多くはありません(たぶん)。なのでここで紹介する本は、現段階で僕が「準基本書」「準教科書」っぽいなと感じる本です。
【オススメ本 ~概論編:粗く全体像を捉えるための「地図本」~ 】
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
- 作者: Foster Provost,Tom Fawcett,竹田正和(監訳),古畠敦,瀬戸山雅人,大木嘉人,藤野賢祐,宗定洋平,西谷雅史,砂子一徳,市川正和,佐藤正士
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/07/19
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (6件) を見る
データサイエンスという「仕事」の外観(「現場」「目的」「流れ」)を掴むにすごく良い本です。そして「仕事」としての外観は非常に大切です。企業の成果やサービスをメインで紹介している本だと「手法」や「機能」や「成果」にフォーカスがいきそうになるのですが、まずは「流れ」と「目的(予測・判別・分類・圧縮・検知など)」を「現場」の文脈の中で大雑把でも押さえておくのが、その先の学びを実りよくするためのコツだと思っています。
あと、新しい分野を学び始めたばかりの時はどうしても当該分野に誇大妄想を抱きがちですが(そのおかげでアクセルが効くので良いところもあるのですが)きちんと現実的な目線を獲得する、というのは結構大事だと思います。そういう意味でも本書は有用です。もちろん地道な泥作業についてばかり厚く触れているわけではないです(そんな本、読みたくないですよね…?)他書と比べて実作業のイメージが持ちやすいという意味です。
データサイエンス講義
- 作者: Rachel Schutt,Cathy O'Neil,瀬戸山雅人,石井弓美子,河内崇,河内真理子,古畠敦,木下哲也,竹田正和,佐藤正士,望月啓充
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
コロンビア大学の講義が元になっている本です。オムニバス形式で様々な企業のエンジニアや研究者がそれぞれの関わった仕事と付随する分野を紹介していて、。データサイエンスの「射程の広さ」を概観することができます。Data VisualizationやMapReduceについてそれなりに厚く語られているのも類書になかなかない良さです。理論書ではないのでテクニカルタームの説明は読み飛ばしてOKだと思います。理論詳細を学ぶべきテキストでありません。
上記2冊を読めば、データサイエンスのコンセプトやプロセス、事例や必要なスキルセットについてのイメージが得られると思います。まずは粗々でも地図をゲットしましょう。
O’REILLYの本は字が細かいし分厚いです。苦手な人もいるかもしれないので、念のため類書も挙げておきます。基本的にはデータサイエンティストをディレクションするマネージャーの立場の人向け手に書かれた本ですが、準用途としては上2冊と同様に「地図本」となります。
真実を見抜く分析力 ビジネスエリートは知っているデータ活用の基礎知識
- 作者: トーマス・H・ダベンポート,キム・ジノ(Jin-ho Kim),河本薫,古川奈々子
- 出版社/メーカー: 日経BP社
- 発売日: 2014/04/10
- メディア: 単行本
- この商品を含むブログ (1件) を見る
- 作者: トーマス・H・ダベンポート,ジェーン・G・ハリス,村井章子
- 出版社/メーカー: 日経BP社
- 発売日: 2008/07/24
- メディア: 単行本
- 購入: 9人 クリック: 121回
- この商品を含むブログ (24件) を見る
今回は概論書2冊紹介しただけで終わりです(笑)まだまだ続きます!!
※ まだ「勉強」の段階にも入っていません…。
※ たぶんこのペースで書いていたら例えばPRMLに辿り着くまでに半年くらいかかってしまいそう(笑)…なのでリクエスト下さった方には個別にどんどん紹介したいと思います。
※ 注意!上にあげた本はすべて最近の機械学習・深層学習の発展については一切記載されていません(出版年を見ていただけると分かるのですが、この業界の進歩の速さを考えると2014年はすでに古すぎます。)理論を学ぶ前に、キーワードだけでも最近の動向にキャッチアップしたいという方は、NIPS関連の記事を読むか、GoogleBrainの人やtwitterやslideshareにいる超絶スペックの人をフォローしておく方のが良いと思います。
【結び】
Blog書くことがこんなに大変だとは思いませんでした…。僕は基本的に編集や校正をほとんど行わずひたすら直列で書いているのですが、それでも結構な時間がかかりました。僕の生産性が低いというだけの話なのですが(笑)、世のBloggerさんへのリスペクトが10倍くらいになったことはBlogはじめてよかったことの1つです。