「データサイエンスのオススメ本 その②」

3回目のエントリーです。

前回からしばらくお薦めテキストの紹介をしていく流れにしています。前回(「データサイエンスのオススメ本 その①」 - DataScientist’s diary)はとりあえずこれからデータサイエンスはじめる人向けに粗々でも良いから全体像をとらえよう、というコンセプトでテキストを紹介しました。今回は、詳細は全然分からないけど、何がデータサイエンスのタスクなのかおぼろげには分かっていて、回帰分析とかkmeansとかCNNとか(適当です)有名所のキーワードについてはある程度耳に馴染んでいる人を対象にしてテキストの紹介をしたいと思います。イメージとしては、ようやく机が必要になる(電車の中の読書だけじゃ完結しない)段階です。なので(しつこいですが)ここから先のテキストは適宜手を動かして学ぶことを推奨します。あと、今回は「いよいよ勉強スタート!」の回なので、ペースメーカーとしての資格についても前段で少し触れたいと思います。

 

 

資格について

僕はまったく違うタイプなのですが、いざ勉強をはじめようとするとペースメーカーとして資格取得を利用する人が一定数いるようです。ここで簡単にいくつか紹介しておきます。

 

統計検定

マークシート式の試験で、3級が記述統計、2級が推測統計の基礎(重回帰と一元配置まで)、準1級と1級は学部上級レベルのアラカルト問題(問題領域を選択)で多変量解析やデータマイニング領域の問題、やや詳しい数理統計の問題まで対象範囲です。3級、2級は6月と11月の年2回試験、準1級は6月のみ、1級は11月の年1回試験です。CBTもあります。内容詳細はWEBページを確認ください。

www.toukei-kentei.jp

 

今が12月末なので次の試験は6月となるわけですが、もし「これから統計学をはじめる」人であれば半年で2級合格を目指すのは丁度良いペースかと思います。ただし(これを読んでくれているほとんどの人は仕事をしながら勉強すると思うので)業務の忙しさによって半年が妥当な期間がどうかは人によります。半年で受からなそうでも落ち込まずに大丈夫。自分のペースで進みましょう。

 

統計検定は実務直結する資格ではまったくない(と思う)ということは覚えておきましょう(t検定やカイ二乗検定が使えないということではなく、問題の質がやや数理的なかなぁという意味です)。例えば就活の際のスキル要件や、社内で資格補助の適応対象になっているケースはまぁまぁあります、だからと言って試験内容が実務的かと言えばまったそうではありません(別にディスっているわけではなく、多くの資格はそういうものだと思います。)ですので、持っていないことを卑下する必要もなく、持っていたからと言ってそこまで誇示できるわけでもないです。

 

受けるのであれば「確率変数や推定・検定の扱いに慣れるトレーニング」としての位置づけが丁度良いと思います。そしてそのトレーニングは(たとえ実務直結しなかったとしても)とても大切だと思います。逆にすでに実務でデータサイエンスしているぜ、という方は数理的勉強のモチベーションとして統計検定1級を目指すのは良いと思います。1年後になってしまいますが…もし演習問題を解く作業から遠く離れているのならちょうど良い期間でしょう。そういう方には知識整理の場として役立つかと。

 

統計士・データ解析士

www.jitsumu.or.jp

実は統計検定よりもずっと古く、歴史が長い通信教育の資格です。内容は統計士が推測統計の基礎まで、データ解析士が多変量解析の基礎まで(重回帰・主成分・ロジスティック回帰あたり)となります。課題は筆記+配布されるExcelファイル上での解析です。正直言うと、問題ずっと変わっていないのでは?と思えるほど参照されているデータが古いので資格運用上の態度としてはアレですが、問題や扱っている項目は割としっかりしていると思います。例えば回帰ならテコ比についてやSTEP WISEのような変数選択のアルゴリズムを扱っています。あと名前が格好良い(笑)のでよく分かっていない人には凄そうに見せれるかも(?)。通信教育なので、自分のペースでまったり学びたい、という方には良いかもしれません。(一応ですが…重回帰はまだしも、主成分やロジスティック回帰をExcel上で行う人はほとんどいないので、あくまで通信教育の課題としての位置づけで捉えてください。)あと、同じ通信教育ならgaccoの講座の方が(こちらも賛否ありますが)扱っている内容・分析環境共に現代的だと思いますので覗いてみてください。

 

lms.gacco.org

公的データ(e-Stat)の扱い方がカリキュラムに含まれていることが、さすが総務省のでユニークな点です。テキストは書店に置いてあるので気になる人は是非。

 

データサイエンス協会の「スキルチェックシート」

www.datascientist.or.jp

一般社団法人データサイエンス協会というところが出しているデータサイエンスの「スキルチェックシート」というものがあり、定義定まらない「データサイエンス」のスキルについて、業界標準的なチェックシートを作ろうと頑張っています。2017年10月にv2が公開されたので、資格ではないのですがついでに言及しておきます。内容詳細はリンク先参照なのですが、勉強しながら適宜見返すと勉強の動機付けになるかもしれません。ただ「〇〇分析を使える」というのが一体どの程度のレベルなのかはたぶん永遠に謎なので、あまり表現にこだわり過ぎないのが良いでしょう。時々見返して知らない単語がでてきたらちょっと調べてみる、という使い方がベターかなぁ。ちなみに、データサイエンス協会のWEBには「データサイエンティスト求人情報」というコーナーがあるので、お仕事探している人には便利かもしれません。すぐに応募するわけではない人も、求められているスキルをチェックするのには使えると思います。

 

G検定

日本ディープラーニング協会(jdla) - 科学・技術・エンジニアリング | Facebook - レビュー4件 - 写真22件

日本ディープラーニング協会(JDLA)が主催する人工知能(AI)関連の知識を問う試験「JDLA Depp Learning  for  General 2017」です。G検定についてはサンプル問題しか見たことがないので、詳しく言及できないのですが、一応こういうのもあるよ、程度に紹介しておきます。深層学習ブームに乗っかった資格商法なのでは、と思う方もいるかもしれませんが、JDLAの理事長は東大の松尾豊先生(ベストセラーとなった人工知能は人間を超えるか』を書いた人です)なので、良い検定に育っていくかもしれません。

 

時代の流れは高速ですが… 良い本だと思います

 

アクチュアリー試験(数学)

保険会社や年金会社に勤める専門職用の資格試験です。数学科の「とりあえずとっておく資格」としても有名でした(かつては)。1次試験の数学が結構骨のある「確率・統計」の問題なので、しっかりと問題演習しながら確率・統計を勉強していきたいという方には良いペースメーカーになると思います。大学教養課程の解析・線形代数(の初歩)を思い出すリハビリにもなるかも。「ひねりのある問題を解く」のが好きなソルバータイプの人にはとくにお薦めです。たぶん統計検定の問題よりも何倍も楽しめると思います。過去問は公開されているので気になる方はチェックしてみてください。

www.actuaries.jp

 

ただし、高校数学も曖昧という方、数学の問題演習不足の方にはお薦めできません。おそらく「数学」1科目だけでも年単位で時間がかかります(試験は年1回しかありません。)アクチュアリー真面目に興味ある方なら良いと思いますが、あくまでデータサイエンスしたい人で、数学に自信ない方は、あえて言えば統計検定の方が無難かと思います(資格を受けたいのであれば。)

 

有名所はこんな感じでしょうか。なんか(僕が思っている)データサイエンスのイメージとダイレクトにリンクする資格は全然ないようです。あと広義の資格としてMBAや社会人大学院がありますが、大学についてはまた別の機会に。最近はMBAカリキュラムの中にもデータサイエンスなカリキュラムがすごく増えてますね(RやPythonやWeka使う授業も多いです)時代変わったなぁ…

 

 

長いですが、ここまでが前振りです(笑)

 

【オススメ本 ~統計学入門編~ 】

今回は「これから統計学を学ぶ人」を対象としてテキスト紹介をします。

 

テキスト紹介の基準として、統計学を学ぶ上で僕が大切だと思っていることと注意すべきと思っていることを箇条書きしました。「学びはじめの人」を想定しているので伝わらないかもしれないのですが、ある程度進んだ段階で読み返してもらえるとありがたいです。今回のテキスト紹介は以下の項目を気にしながら作成しています。

 

・記述統計を馬鹿にしないこと/図や表を馬鹿にしないこと

ヒストグラムとか箱ヒゲ図とかの初等的項目を学ぶことをスルーしがちな人が多いです。すでに業務している人でも、「まずヒストグラムを見ること」を無視していきなり分析に入ってしまう人たちが本当に沢山います。成果を焦るよりもデータに対する健全な好奇心を養い「データを見る」をどんどん経験して、忘れがちな初手を習慣化してしまいましょう。

 

・検定コレクターにならないこと

仮説検定を学んだあとだと、「検定すげぇ!」となって沢山の検定手法を学びはじめる人たちが時々います。「自分の業務に使える検定探し」をしてしまうのですが、そんなに都合よい検定はありません。2元配置といくつかのノンパラを学んだあとは、ケースバイケースで学べは十分です。

 

・とにかく確率変数の扱いに慣れること

分かりやすさ重視で確率変数の概念を曖昧にしたままX(大文字のX)を出さずに議論を進める本が時々あります。著者の苦労には頭が下がりますが、多少大変でも確率変数の扱いははやめに慣れておいた方が圧倒的に良いと僕は思います。式でモデルを読めないといずれ詰みます。

 

疫学やデザイン視点を学ぶこと

記述統計や可視化をしっかり学び、確率変数をきちんと使いながら分散分析あたりまで学んだ後は、多変量解析やGLMに進む前に疫学医療統計、リサーチデザインの本を何冊か読んでおくと良いと思います。検定力やサンプルサイズ、効果量の概念、コホートとケース・コントロール実験について、交絡の概念などをしっかりと学ぶことで仮説検定(というよりは信頼区間)を自信をもって使うことができるようになります。

 

・回帰分析のマスターをベンチマークとすること

回帰モデルは統計モデルの基礎中の基礎(最もシンプルな予測モデルであり、初等的な仮説検定も沢山表現できる)ですが、Excelでも手軽に出来てしまうためものすごく誤解・誤用されているモデルです。回帰分析だからと言って侮らず、どっしり腰を据えて学びましょう。その先の学びがかなり楽になります。逆に、回帰モデルをなめてかかると(例えば最小二乗法を理解しただけで分かった気になると)あとでしっぺ返しをくらうことになりますよ…。

 

というわけでまずは可視化についてのテキストから。邦書だとそんなに多くはありませんが1冊目なら以下がお薦めです 

 

『情報を見える形にする技術』

情報を見える形にする技術 [情報可視化概論]

情報を見える形にする技術 [情報可視化概論]

 

  

もしプログラミング(javascript)に慣れているなら(苦手意識がないなら)以下の本も。

インタラクティブ・データビジュアライゼーション』 

 D3は素晴らしいですね。これからのDataVizはインタラクションが基本です。

 

上記2冊は準備運動です。統計学から入ると2変量以上の世界(多変量の世界)に戻ってくるまでに時間がかかるので「データは多変量を扱うことの方がふつう」という観点を忘れがちになると思うのですが、ときどき可視化の本を読み返してみるとデータ間関係を考える視点を維持できると思います。

 

 

ここから理論書に入ります。まずは以下3冊(東大本)を購入しておくことを強くお薦め。

 

統計学入門 (基礎統計学Ⅰ)』

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

 

東大他、様々な大学の統計学の講義で教科書・副読本として使われているテキストです(「赤本」と言われたりします。)初学者に読みやすいかと言うと決して読みやすくはないのです(なので大学でも脱落者が多数でます)が、ある程度の段階までいくと評価が反転する名著の定番です。この本が「読みやすい」と思えること自体を最初の目標にしても良いくらいだと僕は思っています。本書からいきなり読められる人は読み進めれば良いし、「読みにくい」「難しい」と感じたら脇に置いていったん違うテキストから始めてみるのが良いでしょう。

 

『人文・社会科学の統計学 (基礎統計学)』

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

 

 

『自然科学の統計学 (基礎統計学) 』

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

 

同シリーズの続編2冊です。これらも『統計学入門 (基礎統計学Ⅰ)』が難しい場合は読みこなすのが難しい(すべてではない)ですが、すぐに購入しても損にはならないと思います。データサイエンスの射程の広さや諸科学との関連を実感できます。

 

東大本が読めない場合のサブテキストですが、東大本が読めない理由としては(1)数学的な基礎体力が不足している場合(2)統計学的な考え方に慣れていない場合 があると思います。そして(1)(2)両方該当する方も結構多いと思います(1)(2)該当者でも無理なく統計学的な世界に入れる本としては、

 

『完全独習 統計学入門』

完全独習 統計学入門

完全独習 統計学入門

 

 小島寛之先生は経済学の先生なのですが、とにかく数学や統計学の記述がめちゃめちゃうまいです。この本も「中学数学まで」を前提として誰もが仮説検定を理解できるように構成されています。推測統計の発想法がさくっと得られることで、この先の学びがスムーズになるはずです。ただし「中学数学」の知識だけでは先には進めません。もし本書を読んで、小島先生の書き方が好きだなと思えたら、せっかくなので数学の学び直し本も小島先生のシリーズで揃えてしまうのが良いと思います。

 

『ゼロから学ぶ微分積分

ゼロから学ぶ微分積分 (KS自然科学書ピ-ス)

ゼロから学ぶ微分積分 (KS自然科学書ピ-ス)

 

 

『ゼロから学ぶ線形代数

ゼロから学ぶ線形代数 (KS自然科学書ピ-ス)

ゼロから学ぶ線形代数 (KS自然科学書ピ-ス)

 

 

数式に慣れないと「木を見て森を見ず」の状態を抜け出せません。上記2冊はとくに大学数学にコンプレックスがある方の解毒剤として効能たっぷりです。微積も線形もきっと楽しめる、というマインドを作っておきましょう。ここに書いてあるような内容は、どの方面に行くにしろ必ず役に立ちます(必須とも言えます。)

ただし、上の2冊では確率変数の扱いについては学べません。確率変数の形式的操作に慣れるためにはやはり「それ用の」演習本も扱う必要があります。その意味で、

 

『ゼロから学ぶ統計解析 』

ゼロから学ぶ統計解析 (KS自然科学書ピ-ス)

ゼロから学ぶ統計解析 (KS自然科学書ピ-ス)

 

をまずはトライして見てください。小島先生の本がよめたのならきっと読めるはず。問題数が足りないならば同著者の

 

『明解演習 数理統計 (明解演習シリーズ) 』

明解演習 数理統計 (明解演習シリーズ)

明解演習 数理統計 (明解演習シリーズ)

 

もお薦め。本書はアクチュアリー数学対策の演習本としても長い間、定番の地位にいたテキストです。

 

演習本の対抗馬は 

『弱点克服 大学生の確率・統計』

弱点克服大学生の確率・統計

弱点克服大学生の確率・統計

 

あたりでしょうか。僕はいろいろ解きましたが、演習本については大きな違いは感じませんでした。あと全部を解く必要はないと思います。ここではあくまでも『統計学入門 (基礎統計学Ⅰ)』を読むための練習本としての位置づけで紹介しています。

 

※    ガチな数理統計本については別の機会に。

 

さて、東大本を読んだ後、数理統計の基礎的な演習本を超えた後ですが、運用本Excelを読んでみると良いと思います。手を動かしながら学ぶことの大切さは一貫して強調していきたいです。あと、いきなり数理統計の大学レベルの理論書に入るのではなく、実作業に近い本を読んで「おっ、意外といけるじゃん!」と思うことは動機付けの面で良いです。

 

手を動かしながら学ぶExcel本の決定版は、最近翻訳された

 

『データ・スマート Excelではじめるデータサイエンス入門』

データ・スマート Excelではじめるデータサイエンス入門

データ・スマート Excelではじめるデータサイエンス入門

 

 が圧倒的にお薦めです。邦訳のamazonレビューが全然盛り上がっていないのですが、心配な人は原著を読みましょう(僕は原著しか読んでいません…。)間違いなしに良い本です。

 

配列数式(Array Formula)の扱いが心配だと言う方向けにExcel本も1冊紹介。Excelにも豊かな世界が待っていることを実感できます。

 

Excel 2016 Bible』

Excel 2016 Bible

Excel 2016 Bible

 

 

Excel本は上2冊で十分かと思います(少ないかな)。その後はRかPythonに進みましょう。R本やPython本についてはまた後日。

 

あと、くどいのですが…理論とか手法に傾く前に疫学研究デザインについての本を読んでおいた方が絶対に良いと思います。良い設計なくして良い分析はないです(もちろん業務では「良い設計」に遭遇することはとてもマレです。がその辺りはまた別の機会に。)

 

デザイン本の1冊目として強くお薦めなのが、

統計学のセンス』

統計学のセンス―デザインする視点・データを見る目 (医学統計学シリーズ)

統計学のセンス―デザインする視点・データを見る目 (医学統計学シリーズ)

 

書店だと医療統計の書棚にしかないかもしれませんが、研究デザインの重要なトピックをこれほどコンパクトに密度高くまとめられている本は見たことがありません。丹後先生は医療統計(メタアナリシス)の大御所(つまり、ビジネス現場よりも分析デザインが何倍もシビアな領域の大御所)です。

 

この本で疫学的な発想法、楽しいなと思えたら大御所Rothmanの以下の本がお薦め。 

『ロスマンの疫学』

ロスマンの疫学―科学的思考への誘い

ロスマンの疫学―科学的思考への誘い

 

 ビジネス解析に偏っている人にはなかなか知名度がないのですが、良書は良書なので手にとってみてください(ただし邦訳は若干難あり。)

 

 最後にまとめ本として、以下を紹介します。

『統計的方法のしくみ―正しく理解するための30の急所』 

統計的方法のしくみ―正しく理解するための30の急所

統計的方法のしくみ―正しく理解するための30の急所

 

うんうん、と頷きながら楽しく読めたら推測統計の基礎は卒業で良いはず!あとは回帰分析を極めましょう。

 

回帰分析の歴史的な名著としてはこちら

『回帰分析とその応用』 

回帰分析とその応用

回帰分析とその応用

 

 統計学の文脈でベクトルや行列の扱いに慣れるのにもお薦めです。分散共分散行列の扱い、射影行列の扱い方やイメージを得るのは、はやければはやい程良いと思います。

 

数学に自信があるのなら(確率変数の扱いを演習本を通してトレーニングしているなら)、こちらもお薦め 

『回帰分析』

回帰分析 (統計ライブラリー)

回帰分析 (統計ライブラリー)

 

ちょっと前までは回帰分析と言えばコレというくらい 有名な本です。この本がサクサク読めるなら数学的な準備も十分だと思います(逆に言えば、今の段階で読めなくても全然気にする必要ないです。段階を踏んでいきましょう。)

 

【結び】

今回は統計学入門編としてテキスト紹介をしました。文章が長いとか、東京大学出版の3冊褒め過ぎとか、Excel押し過ぎとか、いろいろ突込みがあるかと思うのですがご意見いただけたら嬉しいです。今どきの人は1990年代後半以後の機械学習モデルや深層学習からいきなり学ぶのかなぁと思ったりもしたのですが、迷った末にスタンダードな統計学から始めることにしました。