「データサイエンスのオススメ本 その③」
フリーランスのデータサイエンティスト日記
はやいもので4回目のエントリーです。
前回(「データサイエンスのオススメ本 その②」 - DataScientist’s diary)はとりあえず、統計学の基礎~回帰分析までを学ぶテキストをあれこれ紹介しました。通常の流れだと今回から多変量解析の内容に入るかと思いますが、今回も脱線を重ねながらゆるゆる進みたいと思います。正直Blogはじめたばかりなので、あまりすぐにマニアックな領域に入りたくないなぁという気分があります。なるべく広い範囲の方に読んでもらいたいです。そしてフィードバックが欲しいです。
あとやっぱり内容的にも、「実際この通りに学べるのか?」に注意しながらゆっくり時間をかけて書いていかなきゃダメだなぁと感じています。すでに2,3書いた記事の中にも修正・追記したい部分が山ほどあって「あぁ~!」となっているので(笑)
具体的に言えば、ちょっと進みが急過ぎる(一足飛びに難しくなり過ぎている)と感じています。実際どうなのか、は読んでくださっている方からの意見を待ちたいのですが、一応今回から少し進みをゆるやかにしていく予定です。更新頻度というよりも内容の進みの速さの意味で。考えながら、少しでも、少しずつでも、誰かの役に立つ記事にしたいです。
ところで、アメリカではちょっと前に「データサイエンティストの供給問題は解決した」みたいな話もありましたが(@某シンポジウム)、日本のデータサイエンス界隈見ているとまだまだ現場は混乱している感があります。名刺に「データサイエンティスト」と書かれてしまった人がクライアントからのイメージ・ギャップや無茶ぶりで苦しんでいる様子を日々見ているし、発注側は発注側で混乱しまくっています。データサイエンスが「魔法の杖」ではないことは薄々気づかれていますが、今だに回帰分析+αな実装を〇〇AIみたいな名称付けしてしまう例も(信じられないかもしれませんが)普通にあります。
で、いろいろ危なっかしい現状を、勉強不足とか詐欺とか不誠実とか呼ぶのは簡単だと思うのですが(そして真っ当な批判だと思うのですが)現場の混乱を見て常々「大変だなぁ」と思ってきた僕としては、どんな立場にもそうならざるを得ない(単純な悪意ではない)合理性があるものだ、という前提のもとで、文句言わずに少しでも何か貢献したいという自然な思いがあってこのBlogをはじめました。なので使う側にも使われる側にも役立ちたいです。ほんとうに。
そろそろ現実的にデータサイエンスブームが終わり、シビアな成果が問われる中で「なんちゃってな人」が干されていくはずです。データサイエンス(や素朴な統計学)への投資が収束し始め、まだまだトレーニングが必要な人が、ブームの中で勝手に祭り上げられたあげくブームが去ったらポイされるなんていう悲しいストーリーもチラホラ出てきます。
売上ベースで考えてデータ分析への投資がペイしていない現場が本当に沢山あるのは承知していますが、半分は使う側の問題でもあるわけで、ブームが収束していく今の流れを残酷な人材選別期にしてしまうのはあまりにも残酷だと思います。一方現場は現場で、データサイエンスのポテンシャルを理解しないまま、ブーム的なものとして見切りつけてしまうのもどんなもんだろと思うわけです。あと一歩で役立てられるのに、という場面も同様に沢山あります。
僕は世代的にクオンツ・ブームやMBA・経営コンサルブームなどキラキラした職業ブームを沢山見てきたのですが、なんとなくあんな感じになってほしくないなぁとも思っています。
こういう過渡期な状況だとWEBメディアや「〇〇経済」みたいなビジネス雑誌とかの記事がつい気になってしまう人も多くいると思うのですが、あまり右往左往しない方が良いはずです。データサイエンスは役立ちます。役に立つものは役に立つので普通に磨きをかければ良いと思います。でも、データサイエンスの知識を身に付けるのにビジネス雑誌はあまり役にたちません(たぶん)。
個人的には真っ当な教科書をさぼらずに読みながら、日々新しい業務機会をゲットすることがベストだと考えています。とくに学びはじめなら、slideshareもqiitaもtwitterも便利で大切ですが、体系的なテキストの方が大切です。陳腐化しない基礎力は時間がある時に固めてしまいましょう。結局これが言いたかっただけなのですが…地味だけど末永く役立つ知識が得られるテキストをこれからも紹介していきたいです。
というわけで、ここからが本の紹介です。
歴史について
推測統計学の基礎や回帰分析あたりまで学んだ状態(しかも東大本をつまみ食いしているような状態)になったら一度統計学の歴史関連の本を読んでみると良いと思います。散逸しているエッセイをあらためて時系列で学びましょう。骨休めは大切です。それにモチベーションアップにも繋がると思います。、例えばですが、統計学の初等的概念(分散・標準偏差・相関係数・実験計画)などは全て20世紀前半に整備されてきた概念で、それらが最先端の技術として応用された20世紀前半から中盤にかけては戦争の時代であったわけです。つまり統計学を使う側の切迫感が違ったわけです。戦争や国家間競争の文脈の中で命かけて統計学(やオペレーションズ・リサーチや航空工学)に闘志を燃やしてきた状況を知ると、目の前の本を読めばいい立場、失敗しても多少仕事を失う程度の立場が、少し気軽に思えて良い意味で背筋が伸びるかもしれません。
『統計学を拓いた異才たち』
- 作者: デイヴィッド・サルツブルグ,竹内惠行、熊谷悦生
- 出版社/メーカー: 日本経済新聞出版社
- 発売日: 2010/04/01
- メディア: 文庫
- 購入: 16人 クリック: 320回
- この商品を含むブログ (35件) を見る
ゴルトン、フィッシャー、ピアソン、ゴセットなどの推測統計の偉人たちのエピソードが楽しく読めます。1930年代までに彼らが作り上げた諸概念がその後の統計学の土台となり、データ分析を語るアルファベットとなりましたが、出来上がった当時はもちろん混迷を極めていたわけです。新しい学問が出来上がっていく過程は、今の深層学習界隈を考える洞察力を授けてくれるかもしれません(言い過ぎか。)
『多変量解析の歴史』
こんな本あるのか!?とひたすら驚いた本です(笑)多変量解析の歴史的な展開を原論文に即して解説してくれます(数式も原論文通りに展開しているので読みやすくはないです。念のため。)ビジネスシーンでも多用(誤用)されることになった相関という概念の重みと広がりを実感できる本です。
視点を日本に移してみると
『統計学の日本史: 治国経世への願い』
幕末からはじまる政策科学としての統計学について非常に詳しいテキストです。視野を広げたい人は是非。 統計学を築きあげて来た人々では、
『調査の科学』
1940年代、陸軍総軍司令部にて戦闘機の襲来予測等に携わったあと、後に「数量化理論」と呼ばれる体系を築いた林知己夫さんのエッセイ集です。最初の方の話で、陸軍での緊迫感のある経験が語られています。
『デタラメの世界』
原爆調査に関わり、戦後の調査・品質管理をリードしてきた増山元三郎先生のエッセイです。本当はテキストの方がお薦めなのだけれど、やや重いかなと思いまずはエッセイを紹介します。増山先生はタグチメソッドで有名な田口玄一さんの師匠でもあります。
『タグチメソッドわが発想法』
タグチメソッドわが発想法―なぜ私がアメリカを蘇らせた男なのか
- 作者: 田口玄一
- 出版社/メーカー: 経済界
- 発売日: 1999/10
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (12件) を見る
こちらは田口先生の本。ビジネス書っぽいかな。それでも歴史的な流れの中で品質管理(QC)に入門するにはとても良い本だと思います。実験計画や直行法の理論は割と難しくとっつきにくい印象を受ける人が多いと思うのですが、本書はスッキリ読めます(数式はないです。)
『統計科学の三十年 -わが師わが友-』
前統計数理研究所所長の北川源四郎先生(Bayes本でも有名)の父です。黎明期の統計学を独力で作り上げていく気概やマハラノビス(マハラノビス距離の人)との交流の様子など、時代が求めているテーマは違くても、今研究や学びの途中にある人には刺激のあるエッセイだと思います。
なんか統計数理研究所関連の人が多くなってしまったので(そりゃそうか…)最後に赤池先生のテキストを紹介して終わります。
- 作者: 樺島祥介,北川源四郎,甘利俊一,赤池弘次,下平英寿,土谷隆,室田一雄
- 出版社/メーカー: 共立出版
- 発売日: 2007/07/06
- メディア: 単行本
- 購入: 4人 クリック: 74回
- この商品を含むブログ (12件) を見る
AICの応用や発見の経緯、理論的概要(概要です)について興味のある方は是非統計数理研究所の所長の仕事を追いかけていく、というのは良い勉強法かもしれませんね。
例によって、ここまでが前振りです(笑)
【オススメ本 ~多変量解析入門編~ 】
「多変量解析」という括りも今どきではないかもしれないのですが。前段で歴史について触れたのでついでに紹介しておくと多変量解析の標準的なテキスト Anderson "An Introduction to Multivariate Statistical Analysis"が刊行されたのは1958年となります。ネルダーとウェダーバーンによって一般化線形モデルの枠組みが整理されたのが1972年だからここから紹介するテキストの主な内容は50年代~70年代くらいの成果になると思います(たぶん。)
『多変量解析法入門』
「お話(言葉のみによる解説)」ではなくきちんと式を使っているテキストの中でまずオススメなのが本書です。オーソドックスな多変量解析についてロジックの胆の部分を学ぶことができます。本書が厳しい場合は、行列演算や微積のトレーニングがもう少し必要かもしれません。そういう意味で試金石ともなるテキストです。
もし数学のトレーニングがまだまだ必要だと感じたら(そして前回紹介した『ゼロから学ぶ(シリーズ)』を読み終わったあとなら)大学教養レベルの演習本を読むと良いと思います。演習問題が豊富な本がお薦めです。
さて、上記のテキストで一連の多変量解析の基礎を理解したら、行列代数の知識を拡大して「行列分解」という視点で各種多変量を理解することを目指すと良いと思います。行列代数のトレーニング本としてお薦めは、最近邦訳が出た
『統計のための行列代数(上・下)』
がお薦め。タイトル通り(原題も”Matrix Algebra from a Statistician’s Perspective”です)統計学に特化した行列代数の本なので、数学科的な抽象性は少なく読みやすいと思います(ただし、ある人たちにとっては同じ利用で冗長に感じるはずです。)
ハーヴィルの後は、
"Projection Matrices, Generalized Inverse Matrices, and Singular Value Decomposition (Statistics for Social and Behavioral Sciences)"
- 作者: Haruo Yanai,Kei Takeuchi,Yoshio Takane
- 出版社/メーカー: Springer New York
- 発売日: 2011/04/06
- メディア: Kindle版
- この商品を含むブログを見る
が圧倒的にお薦め。多変量解析を幾何的にとらえつつ代数演算も苦労なく行えるだけの十分な知識が身につくと思います。
たぶんしばらくは上記2冊でもしばらく足りると思いますが、ダメ押しでこちらも紹介
"Matrix Differential Calculus with Applications in Statistics and Econometrics (Wiley Series in Probability and Statistics: Texts and References Section)"
ここまで読んでおけば行列代数としては十分かと思います。
ここまで来たら多変量解析の応用系(実例系)のテキストを読みましょう。レベルアップが実感でき、また数式部分で躓きが減っていると思うので(そういう本を選べばですが…)実分析上の注意に集中して読みこむことができるはず。例えば
"Applied Linear Regression Models"
Applied Linear Regression Models
- 作者: John Neter,William Wasserman,Michael H. Kutner
- 出版社/メーカー: Richard d Irwin
- 発売日: 1989/01/01
- メディア: ハードカバー
- この商品を含むブログを見る
と、同時に、やっぱり数学だけ理解していても限界あるなぁと感じるのもこの時期だと思います。確率・統計の知識がちゃんとしてないと読めないんだなぁと思ったら(十分統計量とかフィッシャー情報量とかコクランの定理とか条件付期待値とか積率母関数とか、ちゃんと言える自問してみましょう)まずは東大本を復習した上で、ワンランク上の数理統計学本をゲットしておくと良いと思います。今回は1冊のみ紹介。厳密であるが故のスッキリ感を感じられるでしょう(ただし測度論は使っていません。)
僕は竹村先生の教科書大好きです。 その他沢山ある数理統計の発展本とまとめの話はまた次回以後に(今回はあくまで多変量解析を中心としてテキストを紹介しています。)
さて多変量解析、とくに因子分析や共分散構造分析なんかは、心理学や教育学など人文系でよく使われる分析手法なので当該分野の文脈で学んでおくことも大切です 。そういう趣旨でお薦めなのは、
『多変量データ解析法―心理・教育・社会系のための入門
ただし、東大本の緑を読んでいないならまずそちらから読んでみることをお薦めします。各項目がやや薄いと感じる方向けに実例豊富な大著も紹介。
『多変量解析実例ハンドブック』
とわいえ、今はWEBで簡単に論文検索ができるので適宜調べ学習でも実例(論文)はいくらでも手に入るかと。
因子分析や共分散構造分析などは実運用上の細かい部分(パラメータ選択)が分からん!となりがちですので理論書も紹介しておきます。基礎的な数理統計本と例えば上でお薦めしたような行列代数の本が読めていれば読めると思います。
『因子分析ーその理論と方法』
『共分散構造分析(入門編)』(シリーズ)
共分散構造分析 入門編―構造方程式モデリング (統計ライブラリー)
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 1998/10/01
- メディア: 単行本
- 購入: 2人 クリック: 4回
- この商品を含むブログ (5件) を見る
共分散構造分析―構造方程式モデリング 理論編 (統計ライブラリー)
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2007/10/01
- メディア: 単行本
- クリック: 1回
- この商品を含むブログ (2件) を見る
もし数学的準備がまだなら上記のテキストを追うのは簡単ではありません。が、迷ったら参照する本として座右に携えて記述に慣れていくと良いと思います。
『因子分析 (シリーズ行動計量の科学)
エピソードや事例はいらないから理論だけ追っていきたいというマインドな方には市川先生のテキストもお薦めです(柳井先生の本より良い意味で淡々としています。)
ちなみに因子分析と言えば、非常に有名な運用本(アンチョコ本)があります。
『誰も教えてくれなかった因子分析: 数式が絶対に出てこない因子分析入門』
誰も教えてくれなかった因子分析: 数式が絶対に出てこない因子分析入門
- 作者: 松尾太加志,中村知靖
- 出版社/メーカー: 北大路書房
- 発売日: 2002/05/01
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 5回
- この商品を含むブログ (9件) を見る
とりあえず使わなきゃ、という人にはお勧めです(今はググったら何とかなるかもしれませんが…。)その他、心理統計一般についてはまた後日。
多変量解析全般の話題に戻ると、すでにRを使いながら学んでいるという人にお薦めなのが、
『RとS-PLUSによる多変量解析』
- 作者: B.エヴェリット,石田基広,石田和枝,掛井秀一
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 8人 クリック: 217回
- この商品を含むブログ (2件) を見る
単なる操作解説本ではなく、手法の解説もすごく分かりやすいです。
あとは統計モデルの基本として一般化線形モデル(GLM)の本を読んでおきましょう。Bayesモデル(階層ベイズ統計とか)を焦る気持ちも分かるのですが、基礎を放置して応用はない、というのは強調しておきたいです。階層ベイズの話はまた後日。
『一般化線形モデル入門』
- 作者: Annette J.Dobson,田中豊,森川敏彦,山中竹春,冨田誠
- 出版社/メーカー: 共立出版
- 発売日: 2008/09/08
- メディア: 単行本
- 購入: 15人 クリック: 152回
- この商品を含むブログ (13件) を見る
あと経済系に関わったことないと意外とスルーしがちなのが計量経済学。何かで興味をもって計量経済学で使われるような拡張モデルについて学びたい方は、まずは
『実証分析のための計量経済学』
『「ほとんど無害」な計量経済学』
「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド
- 作者: ヨシュア・アングリスト,ヨーン・シュテファン・ピスケ,大森義明,田中隆一,野口晴子,小原美紀
- 出版社/メーカー: エヌティティ出版
- 発売日: 2013/05/31
- メディア: 単行本
- この商品を含むブログ (1件) を見る
が楽しめると思います。あと理系の人は経済系の実証研究のイメージがつかめるかと。
さらに計量経済を伸ばしていきたいなぁと思ったら、
『計量経済学 (y21)』
Hayashi、Green、Wooldridgeについてはまたどこかで。
【結び】
今回は歴史と多変量解析を中心にテキストを紹介しました。いろいろ読んでると統計モデルだけじゃなくて様々な数理モデルについても興味が出てくると思うので、そこらへんもいつかまとめたいと思います。例えばブラック–ショールズ方程式とか基本的な金融モデルについては知ってて損はないと思いますし、良い感じに関数解析とか偏微分方程式に興味もつきっかけにもなると思うので効用もあるはず。
あと前段でも書いたのですが、全体的に急ぎ過ぎてる感があるので次回あたりいったんこれまでの内容を整理しようかなぁとか考えています。リクエストは随時受付中です!