「データサイエンスのオススメ本 その⓪ 経営学・中学数学・Excel」
フリーランスのデータサイエンティスト日記
8回目のエントリーです。前回はGLM以後の様々な領域のテキスト紹介を五月雨式に行いました。
ちょうどアポ前に書いていて、時間ギリギリのタイミングで「えいやっ!」と公開してしまったので、今日になってあらためていろいろと見直していたのですが、もっと書きたい部分や書き直したい稚拙な部分など文章としての不備は置いておいて、なんか少し違和感を感じたので今回のエントリーです。
いや、前回紹介しているテキストは陰に陽に確かに役立ってきてくれた本たちなのですが、そこで書かれている内容が現場の方、とくに始めたばかりの方々とあまり結びつかず「僕の知ってる現場の人たちってこんな内容求めてたっけ?」と思ったわけです。いや、求めてないな。求めていたとしてもごくごく小数派なはず。
たぶん難しかったと思うのです…自分が数か月から数年かけて読んできたテキストたちを矢継ぎ早に紹介しても窒息しそうになりますよね…僕のブログは全然アクセス数がないのですが、もし読んでくださっている貴重な方々の中で負荷を感じてしまった方、大変申し訳ないです。
データサイエンスを学びはじめようとしている人や今始めたばかりだけど分からな過ぎて困っている人たちの学びの環境をもう少しマイルドにしたいという思いもあったのに、全然マイルドじゃなかったです。もっと言うとGLMまでしっかり理解できるような人ならあとは独学でどうとでも進めるよね…元も子もない感想だけど…なんか急ぎ過ぎました。
ということで、少し掘り下げたテキストの話は後回しにして、もっと僕のリアルなお客さんを想定して細かく刻んだエントリーを挙げたいと思います。テーマの半分はExcelです!いろいろな意味でちょっと怖いけど書きます。WEB世界の片隅で書くのでアンチExcelな人許してください。
【データサイエンスのオススメ本 0(ゼロ)】
★★★
私見ですが、twitterとかはてブの有名な方って、ものすごいハイスペック過ぎる方が多いと思うのですね。読んでいてすごくタメになるし楽しいし日々感謝なのですが、同時に高度過ぎて初学者の心を折るところもある気がするんです。いや、僕のメンタルが弱小なのでそう思うだけかもしれませんが…。
ハッキリ言うと、データ解析に携わっている人も、理系の人も院卒の人も、学業から遠く離れている場合(卒業後すぐの若手は除く)は、たぶん大部分の方は周り見ていただくと状況を納得していただけると思うのですが、皆さんそんなに数学はできないものです。
また、非エンジニアであればExcelやAccessでもちゃんと使える人はすごく稀です。例えば非エンジニアな人がVBA書けるとかって結構誇って良いはずだと思うんですよね。学歴や数学やIT周りで不安やコンプレックスを抱えている方も沢山いると思うのですが、結構な割合で幻想的な超人社会をイメージしてしまっている場合があるので注意です。あとWEB記事はエンジニアバイアスも結構あると思います。エンジニアだけが必要なスキルだとは到底思えないのですが、どうしてもそう見えてしまいがちな傾向もある気がします。WEBな人々がキラキラ輝き過ぎているだけなのだと思います。
自分の仕事と照らして使えそうという感覚があるなら、領域や学歴は無視してどんどん進んでしまっていいと思うのです。
★★★
データサイエンス的な業務を高度なアカデミックキャリアを背景にもつ人だけに限定した方が質的な意味で安定するというような意見もあるかもしれないのですが、それとこれとは別なのです。
ユーザーやお客様のこと、自社サービスの使われ方やイメージ、業界や社会のことについて、データから知りたい、知見を深めたいし確かめたいし発見したい、というのは必要だし自然な欲求なので臆さずどんどんチャレンジすると良いと思います。そしてそれを行うために必要な道具はそんなに高度である必要はないはずです。単に高度化できるというだけのことです。
リコメンドエンジン作ったり、予測や判別のモデル作るというのならちょっと大変そうですが、例えば自分の直感を裏付けたり、今あるデータから誰もが納得するな結果や誰かを動かすような結果を示すとき、大抵の場合は(統計学的な裏付けがあろうとなかろうと)グラフだけでも明らかなような圧倒的な結果が必要なはずです。
だからこそ誰もが納得するわけで。「データで語る」みたいなテキストで、高度な手法使っている書き手なんて全然いませんよね?多くの場合、ただただデータを調べて可視化するという地道な作業のたまものなわけです。さらに、僕の拙い経験から言うと、そういう基本的なデータ操作を得てしかも結果を出してきた人の方が、本格的にデータサイエンスを学びはじめた時に圧倒的に勘所が良いような気がしています。
コア・テキスト 経営統計学
本書はデータ分析を実務で生かしたいという方全員にオススメの名著です。著者は調教大学の高橋伸夫先生。経営学関連を学んでいる方なら知らない人はいないと思うのですが、実は東京大学出版の緑本の共著者の1人でもあります。このテキストも実は緑本の担当ページを少し経営よりにした仕立てとなっています。
このテキストのすごい所、類書にない所は、クロス表(とくに2×2クロス表)の扱い方と大切さがこれでもかというくらいにしっかり書かれている点です。Excelの「ピボットテーブル」をよく使っている人は自然な形で実作業と統計学的発想をリンクさせることができると思います。
統計入門中の方は、推測統計基礎の復習とExcelを用いた解析の入門にも使えるでしょう。「相関」の概念を散布図から少し掘り下げるきっかけにもなるはず。
また理論的な数理統計ばかりを学ばれてきた人にとっては、実務応用する場合に求められる手軽さ(スピード感と単純さと説明力)について実感できます。応用の方向性やシンプルな形に落とす工夫の勘所が理解できると思います。理論書ばかり読まれてきた方、多変量解析や機械学習にまで一足飛びに行けてしまった方にこそ読んで欲しいテキストです。
本書の発想による実際の解析成功例は少し古い本ですが
できる社員は「やり過ごす」
などを参照。基本的にはビジネス書なので統計学的な突込み所はあります。が、するどい洞察と説得力のある分析、それを伝えるための分かりやすくロジックにも心にも響く表現方法など学ぶところが多々あるテキストです。やや古いので現状の環境にどこまでフィットするか分からないのですがサラリーマン(とくに管理職の方)の方には内容的にも役立つ部分があるかもしれません。
あぁ。機械学習だAIだという流れに抗いまくってる。けど、もっとこういう本をサルベージしていきたい。
★★★
数学についても同じ。「いつからでも頑張れる」みたいなありがちな結論になりそうな予感がしながら書いているのですが…結論というよりは、まずは本当にみんな文系とか理系とか気にしすぎ!数学の苦手意識高すぎ!という状況をシェアしたいです。
これも感覚なのですが、少なからず分析とか解析とかに携わっている人でさえ7割くらいそんな感じな気がするのです。気分的にも良くないはずだし、それによって動けなくなっているのが本当に勿体ないといつも思ってきました。「私は文系なのでとか」「一応理系なのですが」とか何度聞いたことか…。
奇しくもこれを書いているのはセンター試験中なのですが、いつも思っていたのだけど(数学に限らず)例えば大学受験の問題ってすっごく難しいと思うんです。あんなに難しい試験で高得点取れる人たちが、社会人になると高校数学やらプログラミングやらでどうしようもなく躓いてしまうのはなぜなのでしょうか。
いろいろな意見があるけれど、一つは不確実性の問題なのではないかと思っています。数学の基礎的な内容ってまだまだ習得するのに時間がかかる上に役立つかどうか分からない(受験生時代の受験勉強や直面する業務直結の勉強に比べて)相対的にすごくリスキーな内容だと思われていて、リスキーな内容という前提が精神を動揺させ集中力を妨げていて、集中力がないから勉強もなかなか身につかず、なかなか身につかないけど時間がないから成果を焦って曖昧な理解で良しとしてしまい、その結果先に続かないし使えない状態でストップするから、数学が苦手という意識も数学の勉強がリスキーという観念も強化される、みたいな構造ではないでしょうか。
高速で大学数学をものにするような天才的な才能の話ではなく高校数学の話なので、難易度の問題でもないと思うのです。だって出来ていたはずですよね、少なくとも数Ⅱ・B(?今の制度が分からないけど要するに文理共通内容)までは。
だから落ち着いて、思い出して、一歩踏み出して欲しいです。健全な自己評価をして欲しいです。暗気力も計算力も落ちたかもしれないけど、高校生で出来たことは段取り力や効率性や(人によっては)技術力を磨いてきた今ならもっと楽にできるはずです。それにもちろん、お金があれば工夫の幅は広がります。リアル・オプションを、ポートフォリオ・マネジメントを、企画力を、健全に「数学の学習」という投資対象に適用してみてください。本当に費用対効果の見積はできないのでしょうか。数学は本当に投資効率が悪い分野なのでしょうか。本当に数学と言う壁を壊す企画はないのでしょうか。
でもって健全な計算結果で万が一投資効率が悪かったとしても、本当にそれだけで諦めてしまってよい分野なのでしょうか。科学の言語の数学が。
オイラーの贈物
本書は中・高校数学の基礎あたりからオイラーの公式までを効率よく学べるテキストです。数学が嫌いではなかった社会人の方が、数学そのものに再入門するテキストとしてオススメです。
同じ著者の虚数の情緒
は上記のテキスト同様オイラーの公式を中心軸としながらも文学や歴史、量子力学や相対論の入り口まで非常に幅広いトピックを扱った大著です。「中学生からの全方位独学法」という副題はウソではなく、学問が有機的につながっている様子を中学生からでも学べるように練りに練って構成されています。(多少説教臭いところがあるのですが…学生くらいならむしろ響くのかもしれません…)
「この商品を含むブログ」が93件もある!いつの間にかそんなに売れたのですね…。著者の熱意勝ちだ。
ついでに素数夜曲
こちらは整数論の入門書であり関数型言語の入門書でもあります。データサイエンスはどうしても解析よりと見られてしまうけれど例えば暗号論の基礎とかは理解していて損はないはずです。λ計算で躓いた方も数学と一緒に再トライできます。いつか学びたくなるコンピュータ・サイエンスの理論方面への備えとしても良いと思います。
あとは、新著で手軽に持ち運びができ、基礎的事項を効率的に(ただしあまり胡麻化さずに)学べる学び直し本として、
数学入門<上>
数学入門<下>
水道方式の世代の方は読んでいない気がするのでちょっと紹介すると著者は数学教育会の巨匠のひとり。最近評伝もでたそうです。
遠山啓 行動する数楽者の思想と仕事
高校から数学が苦手となってしまった方の一定数は極限や虚数などの定義(導入)に違和感を持って立ち止まってしまった人たちがいるのではないでしょうか。そういった方はあえて、高校数学のテキストや工学系テキストを読んでも同じ違和感を抱えたまま進むことになりがちです。あえて大学数学の基礎的テキストから学び、厳密な定義の記載方法と数学的な構造についての理解を進めた方が近道なはずです。
是非オススメなのが、
集合と位相
すごく誤解されていますが、例えば高校数学の問題が難なく解けなければ大学数学のテキストを読めない、というわけではありません。本書を読めばアクセス可能なテキストの幅がぐっと広がるはずです。数学が厳密な土台の上に築き上げられているということを(標語ではなく)集合と位相という概念を経由して理解すると、たいていのことは時間さえかければ理解できるはずだという自信も身に付きます。「距離」という概念の扱いや、同時に距離(計量)を経由しない「近さ」の扱いなど、データサイエンスでも必須の考え方も位相を学ぶことで自然と馴染むことができます。
★★★
Excelについて。データサイエンスや機械学習を本業にしている人のExcelの評判は本当に悪いです。ネ申ExcelやExcel方眼紙、Excel大好きユーザーの弊害はすごくすごく分かるのですが、データ分析をこれから始めるなら手っ取り早さの点でExcel程優れた教材はないと僕は思っています。
一番危惧していることは、Excelではデータ分析は出来ないのか、とデータ分析そのものを手放してしまうことです。プログラミング経験のない方にとってRやPythonの導入がすごく敷居が高い(ググれば誰でも出来ると本人が分かっていてもそれでもインストールする気になれない)ということを知っています。何ならExcel操作も少し不安という方も沢山いますよね。
きっかけ一つだと思うのです。まずはExcelでの分析を覚えて、例えばVBAでプログラミングに馴染み、自然な形でRに入り、余裕があればPythonやSQL(順序適当)という流れで全然良いと思います。Excelである程度成果を出せる人はその他の環境でも成果を出せるはずです。
ただしExcelでやれる(やるべき)ことには限界があるというのは圧倒的に真実だと思います。それでもそんな要求をしてくる「何でもExcelおじさん」に正しく反論するにもExcelの知識は役に立つはずです。Excelユーザーでも大丈夫、Excel好きならむしろチャンスです。
Excelで手作り数学シミュレーション
Excelで遊ぶ手作り数学シミュレーション―グラフ機能とVBAプログラムを自在に操る (ブルーバックス)
- 作者: 田沼晴彦
- 出版社/メーカー: 講談社
- 発売日: 2004/01/21
- メディア: 新書
- 購入: 1人 クリック: 23回
- この商品を含むブログ (7件) を見る
本書はExcel VBAを使いながら数学シミュレーションを行うための入門書です。Excel VBAやユーザーフォームの入門書としても数学学び直し本としてもとても良いテキストだと思います。とくに中学数学あたりから躓きを感じてしまった方には福音の書となるかもしれません。手を動かして、関数を動かして学ぶことで、新鮮な気持ちで数学と向き合い直すことができるはずです。扱っている内容もケプラーの惑星運動までとなかなか高度。ビジネスユースでVBAを学びたいと思っている方には一石二鳥のお得感もあります。
上記のテキストがフィットしたらVBAの世界を少し掘り下げて、かつプログラミング思考の抽象度を上げるのが良いと思います。Excel本はあまり詳しくないのですが、例えば大村あつしさんの一連のテキストは定評があると思います。
Excel VBA 本格入門 ~日常業務の自動化からアプリケーション開発まで~
- 作者: 大村あつし
- 出版社/メーカー: 技術評論社
- 発売日: 2015/05/16
- メディア: 大型本
- この商品を含むブログ (1件) を見る
クラスモジュールまである程度使えるようになったら、古いですが
そこが知りたい!Excel VBAプロの技 Excel97/2000/2002/2003対応!
そこが知りたい!Excel VBAプロの技 Excel97/2000/2002/2003対応!
- 作者: 井川はるき
- 出版社/メーカー: ナツメ社
- 発売日: 2003/11
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (4件) を見る
を読めば、Excel VBAの(ダサさではなく)深さと素晴らしさを実感できると思います。古いか!?
データサイエンスをExcelで行うテキストとしては既出ですが、
データ・スマート
英語版は大ベストセラーとなりました。圧倒的にお薦めな良いテキストです。邦訳のamazonレビューが全然盛り上がっていないのですが、心配な人は原著を読みましょう(僕は原著しか読んでいません…。)ロジスティック回帰やクラスター分析(!)、Naïve BayesまでをExcelで実現しているテキストですが、Excel使いの発想の良さに刺激を受けます。ソルバーアドインやoffset関数・index関数など分析系関数の使い方にも自然に慣れることができるでしょう。多変量解析のロジックを知りたいけれど数式は読みこなせないという方も、手を動かして計算過程を一目で見ながら学ぶことができる本書のようなテキストを間に挟むと理解が進むはずです。
ここも既出ですが、配列数式(Array Formula)の扱いが心配だと言う方向けにExcelの本も1冊紹介。Excelにも豊かな世界が待っていることを実感できます。
Excel 2016 Bible
Excelを用いたグラフの扱いについては、まずはこの1冊
理系のためのExcelグラフ入門
まずはグラフや表を作るということを徹底的に繰り返し行って習慣化する(面倒にならないようにする)ことが本当に大切だと思っています。ソフトウェアの手順や操作に関する簡単なTIPSを一読してストレスフリーな状態にしておきましょう。
★★★
【結び】
迷った末にUターンしました。
好きだからやる、食えそうだからやる、ただそれで良いと思うのだけど何か勿体ないポテンシャルの人がどこでも溢れている気がしています。しかもそれが無自覚なコンプレックスや単なる勘違いであることがすごく多いような。あと一歩で飛躍できるのに踏み止まってしまっている人たちに天才たちの超絶技巧は無用。今ある環境の中から少しでも進めるきっかけが得られればと今回のエントリーを書きました。
本当は新しい本買わなくても本棚や机の隅に積読してあるテキストをもう一度開いて見るというだけで学び直しのすごく良いきっかけになると思います。例えば数学って不思議なところが沢山あって、ずっと分からなかった所や分からないだろうと決めかかっていたところが、数か月後(あるいは数年後)にページ開いてみたらあっという間に分かってしまう、みたいことも多々あって、そんなことが案外モチベーションの復活につながったりするようです。