謹賀新年!これからデータサイエンスやデータ解析に関わるかもしれない人たちへ

フリーランスのデータサイエンティスト日記

 

6回目のエントリーです。なんだか普通にまったりお正月をすごしていたらすっかりブログの更新間隔を空けてしまいました。明けましておめでとうございます。

 

前回は年末だったこともあり、散歩先で立ち寄ったいくつかの本屋さんを参考にしてデータサイエンス関連の「書棚レビュー」を行いました。

datascientist.hatenadiary.com

 

新年から気持ちあらたにデータサイエンスはじめる人に少しでも参考になればと思ったのですが…どうだったのだろう。WEBでの個人発信が多くなると情報が簡単に手に入る分、天才や達人のエントリーばかりが目に入って臆してしまうことも多くなりがちです。だけど、実際は大したことなくても何とか食べれてる僕みたいな人も多くいるわけで、天才や達人だけの業界なんてないという当たり前の事実を自分という存在でアピールしなが今年もゆるく行きたいと思います。

 

今回はここ5年くらいの(プロダクト開発ではなく)データ分析界隈の風景についてつらつらと雑記したいと思います。底辺からの視点だけど、それはそれで貴重なはず!

これからデータサイエンスしたい人や、データ分析で食べていきたいと思っている人に流れを感じてもらい、何かしらのヒントになれば嬉しいです。天才バイアスを吹き飛ばそう!最先端な理論や大規模インフラに支えられた開発に乗れなくても楽しめることがあるはず!

 

★最先端な人々★

といいつつ、押さえる部分は押さえなくてはならないので、年末年始はNIPS採択論文をチラホラ読んだりしていました。なんというか時代の流れは高速ですね。Swish、CapsNet、GANの様々な拡張…当然面白くもあるけれど、僕のポテンシャルの低さでは「ふーん」という感想しか出ないものも多く、深層学習のキャッチアップは今年も大変そうです。

 

nips.cc

 

世の中のデータサイエンティストと呼ばれている人たちは本当にすごいと思います。いつの間に画像認識や生成系の話と業務データ解析の話が同じ文脈に乗るようになり、同じ人によって語られるようになったのでしょうか?

 

つい最近までLassoやElastic Netに対して「え、そんなことして良いの?」とか突っ込んでいた気がするのですが…、つい最近まで何層もスタックしたアンサンブル・モデルにドキドキしたり、カーネル・トリックとか一生懸命勉強したりしていた気がするのですが、いつの間にかAICはWAICになり、ニューラルネットワークは深層学習になってしまっているのはどういうことなのでしょうか(笑)

 

Efron先生か誰かが20世紀統計学最大の問題は説明変数の選択問題である(要出典)と言っていた覚えがあり、何となく数年前までは説明変数選択問題の克服という文脈でAICから階層Bayesモデル、その後の深層学習モデルまでを強引にストーリー付けて見ようとしていた人もチラホラいたと思うのですが、なんだか今や昔になってしまいました

 

統計学を頑張る人々★

だからと言ってデータ解析で食べるならば地味な分析手法を無視できるわけではないし、今ブイブイいわせてるモデルも今後は(数か月先は)どうなるか分からないというのは結構大事な視点だと思っています。だいたいディープラーニングは、多くの企業ではまだまだ画像や生成系の世界のイメージの中にあります。

 

とにかく、誰にとっても時間は有限だし、成果につながらなければ手法の先端さを競っても無意味なわけで、現場はいろいろなバランス感覚が必要とされ大変そうです。「クロス表1000本ノック」していれば良かった時代が懐かしいですね(今もしてるけど…。)

 

バランス感覚が必要と言った一方、理論な人と機械学習エンジニアな人と統計家な人等々、役割分担のメリハリが出てきている流れも感じています。「データサイエンスはチーム戦」という主張も少しずつ一般的になりつつあります。

 

★統計系の老舗企業★

あと、データサイエンス関連のブームの余波の中で昔からあった解析ソフトウェア会社や統計アドバイザリー会社、統計解析の請負会社なんかがサルベージされて盛り上がり、ある程度高止まりしているのも社会的には良い方向なのではと思っています。何もかもデータサイエンスという言葉で一括りにされると外側からは使いにくいという難点もありますが過渡期はそんなものではないでしょうか。

 

フリーランスはどうだったのか(知らない…)★

フリーランスという視点で言えば、僕はほとんど知り合いがいなかったのでよく分かりません。ただ最近はクラウドで統計解析の案件とかも増えているようです。いずれしっかりリサーチしたいのですが、現状ではちょっとリスキーなイメージを僕は持っています(単価安いし…。)

 

そういえばソーシャルの力が誰の目からも明らかになったのもここ5年くらいでした。例えば様々な中心性尺度みたいなネットワークを語る概念なんて、これまでの多くのデータ分析関係者は聞いたこともなかったはずです(情報系出身者以外。)

 

★身近なデータ分析キャンペーン★

研究側の人は概ね無視していますが、企業内のデータ分析担当を盛り上げるために様々なソフトウェア会社が行っているキャンペーンも(肝心のソフトウェアの評価は置いておくとして)頑張っていました。

 

乗っかる気はないのですが、僕も企業内のソフトウェア・ユーザーがもっといろんな意味で気持ちよく働ける環境作りはまだまだ必要だと思います。「Excelまでな人」とか「SPSS止まりな人」とか、現場で頑張っている姿見るとなかなか言えないと思いますが、未だにそういう野次は多いですね。批判も多いですが某社がやっている「みんなのデータサイエンス」というコンセプトとか僕は結構好きです。データ解析はもっと身近なものになっても良いと思っています。

 

学生と転職したい人たち

何だかんだで分析したいって人、結構多いですよね。僕も末端にいながら重め軽めの様々な相談を受けてきました。で、思ったのですが。データサイエンスが少し前まであれだけ盛り上がった理由は、市場の期待もあれば深層学習の華々しい成果ももちろんあるけど、「お金になる数理的職業(業務)が1個増えた!」という素朴な嬉しさもあったのではないでしょうか。

 

頭使いたい数理的な技を捨てたくない仕事の中だってサイエンスしたい、という素直な気持ちは持っていても、研究者はもうイヤ、金融は何かカルチャーがイヤ、コンサルはふわっとしていてもっとイヤ、という人は多かったはずです。データサイエンスというコンセプトにはそんな心を惹きつける要素があったと思います。

 

なのでサイエンスするという視点をすでに持っている人には絶好の機会が到来したことになるわけですが、そもそもサイエンスを真面目に考えてこなかった人がカタチだけ統計学やITを与えられたからと言って何もできることはなく、実際そういう風景も沢山みてきました。

 

研究とビジネス・データ解析は別物だぁみたいな主張はずっとあって、それはそれで言いたいことは分かるのだけれど、言ってる本人が研究について何も分かっていないパターンは今に続くアルアルです。

 

★ビジネスマン★

最近の統計学啓蒙本や、データサイエンスの一般書を見たときの違和感の1つとして、そこで紹介されている手法がことごとく20世紀的なものであり、かつこれまでの環境であっても実現できたような内容が多い、というのがあります。与えられた環境の中で最大限合理的な判断をしようと必死で考えてきた人間ならば、統計ブームが来るまでもなく当然に辿り着いているはずであるような知見や手法が、あたかも「最強の手段」のようにスポットライトを浴びてきたのが2010年以後の統計学ブームだった気がするのです。

 

だから、統計ブームが来るまでもなくビジネスデータの解析を真面目にやりつつ、データ解析との良いつきあい方を自然と身に着けてきた人々の中には「何をいまさら?」という冷ややかな反応をした人も多かったです。

 

一方、ブームの中ではじめて統計学やデータサイエンスと遭遇した人たちの中では、鳴り物入りで導入された手法やツールが思った程の成果を上げない中で、データサイエンスというパッケージがあたかも経営コンサルのフレームワーク的な流行のようなものと捉え、自戒と後悔を持って退出するという流れもありました。

 

総論としては、データサイエンスが単なるブームだったかと言えばそうではなく、分散処理やGPUの進歩、何よりも深層学習というまったく新しい体系が爆発的に発展していくなかで「手を動かせる人」はシンプルな感動と興奮の波の中で技術力を高めていき、もともと現場データ解析していた人たちはローカル環境で出来る分析の幅が圧倒的に広がったことできちんと利益を出しているわけで、時代は確実に変わってきていると思います。どんな風に落ち着くのでしょうか。2018年も楽しみです。

 

セミナーや研修会社について★

データサイエンス系のセミナーや研修も本当に増えました。実感として正直に言えば、短期間の研修やセミナーでは何となくのイメージを授けることはできても、基礎となる数学や細かいパラメータの選択についての知識を伝えるのは本当に難しいです…。

 

ついでに言うと「何となくのイメージ」のレベルさえも、こちらの想定していた10分の1も伝えられなかったなぁと感じることが多いです。研修後のちょっとした会話や、セミナー後のワークの様子、あるいは実務で使ってみたという嬉しい報告の中でさえ、自分の力足らずを実感しないことはなかったと思います。他のあらゆる技能と同じように、十分な知識と経験がある人が現場つきっきりでOJTを施すことに勝る手段はないとかと。

 

といってもデータサイエンスは環境によって機会格差が大きいのも今も変わらぬ事実。データがある、インフラが整っている、ツールがある、理解のある上司がいる、全部が揃った環境は稀だれど、不利な環境にいても経験値積めないのは残酷な事実。どんどん伸びていく人がいる一方で、与えらえた制約の中でモヤモヤとしている人が沢山いました。チャレンジできる環境が増え続けている今は素晴らしいと思います。

 

★これからセミナーとか行く人へ★

セミナー講師や著者の方に「釣り方は教える」し「釣る道具も授ける」けど、自分はまともに釣ったことがない、という方が多いのは(ビックリするけど)これもまた今に続くアルアルでした。職分が違うと言えばそれまでなのですが、身に着けた技を使って(セミナーや著書ではなく)分析そのものによる直球な成果を出したいという欲求って自然だと思っていたのですが、どうやらそんなに自然ではないようです。

 

と言っても、データサイエンスの成果ってそんなに自明じゃないし、よほど質の良い環境にいないと正しく成果を見積ることもできないので、外に喧伝される成果は注意して見た方が良いです。この話はいずれまた。

 

 

★数学が苦手な人々★

あと自分がセミナーをやってて感じたことを、話し手としての技能をいったん脇に置いて無責任に発言するならば、やっぱり数理的な技能やサイエンスという方法への基礎力がどうしてもボトルネックになっている人が多いような気がしています。なんでこんなにみんな数学を忘れてしまうのだろう…、と何度思ったことか。

 

出版の世界では数式の数が増えると読者数が単調減少するという話があり、Σを見るとページを閉じるという人にも実際に何人も会ったことがあります。

 

一方、セミナーや研修の主催側も数式をなるべく使わずに分かりやすく表現できる話し手を評価するような雰囲気もあって、聞き手も話し手も共犯で「なんとなくの知識」を広めることを是とする流れは現実的に結構あります。主催は主催で運営シビアなので、単に顧客アンケート評価の高い講師を厳しく選別していった結果、「なんとなく分かりやすく」な人が残るという構造なだけかもしれませんが。

 

これからデータサイエンスで食べていこうと考えている若手の人に是非言いたい。数学力は絶やさない方が良いです。大学教養程度でも良いので数学本をコンスタントに読むと絶対お得。解析や線形代数だけではなく、多様体微分幾何、できれば代数系とかも少しずつ読んでおくとすごく視野が広がります。深層学習なんて微分線形代数わかっていればいいんでしょ?とか言う人の発言には耳を塞ぎましょう

 

 

★学び直しをする人々★

最近は「大人の学び直し」がまぁまぁ話題になるようになってきましたが、学び手としての大人と、大人のための学び環境には決して軽くない問題が山積みしている気がしてしまいます。大学生や大学院生の方が曖昧なもの、使えないもの、ごまかした知識への感度がよほど高いというのは多くの人が実感として持っているのではないでしょうか。

 

若手やできる人は、WEB上で十分な情報を仕入れつつ発信しつつ前のめりで前進していける一方、やる気はあっても基礎体力が全然ない人たちが陳腐な啓蒙書やセミナーや企業広告にカモられている様子は、ここ2年くらい何度も目にしました。

 

半分自覚的に自らカモられにいく人たちも多かったです。「曖昧な理解でもいいからとにかく人前で話せるようになること」を目的にセミナーに来ているケースなのですが。昨日知った知識をさも何年も前から熟知していたかのごとく見せる技はビジネススキル的に必要なのかもしれませんが、そのために休日を捧げたり半端な知識の人が(半端に見せないように)話すその話し方を学びにくるというのはすごく歪な感じがしてしまいます。学び直しってそういうことだっけ…?。

 

 

★数理的な力で食べていきたい!という人々★

この流れで、数学的なものでで食べていく、ことについても1つコメントを。今、データサイエンスやプロダクトの部品としての深層学習で食べていきたいという人が増えています。年収や、最先端技術に惹かれていることはもちろん、(さっきも書いたけど)基底では、数学や、理数的技術をモロに使って仕事ができるという期待に押されている人が多いようです。

 

けれど開発や研究メインの業務につかない限り、つまり「ビジネスデータ解析より」の業務の場合、実際は数理的な楽しさはそれほど多くはないはずです。ぶっちゃけ数理的な知的好奇心を満足できるのはだいたいの場合は社内外問わず、いわゆる「勉強会」に参加をしたり、情報収集のために論文読んだりしている時ではないでしょうか。

 

日常的に使う分析手法については、それこそルーチンになるほど血肉になっていなければならず、だからこそ知的な意味での面白さは遥か昔に通り過ぎているからです。コーディングしている時間ももた、長時間の集中と達成感を得らえる高度に知的な時間とは思いつつ、理論的(数理的)な意味での知的満足があるかというとちょっと違う気がしています。

 

理論を使うことへの憧れはすごくよく分かります。コンサルタントクオンツがブームだった時代、メディア的には華やかさと収入と頭の良さ(少なくとも良さそうに見えること)ばかりが注目されていましたが、就活中の学生には理論や社会科学も含めたサイエンスの有効性を素朴に信じて、嬉々としてそういう業界に飛び込んでいた人も多かったのです。老若男女問わず人は「頭使って考えたい」生き物なのだなぁと思いました。

 

何を伝えたいかと言うと、知的な興奮ばかり求めて前のめりで学習していくよりも基本的な手法に精通していた方が実際は相手にできる案件は多くなるということです(生産性の問題で)。そして、前のめりな人が実際には基礎の部分ですごく曖昧な理解をしているというケースもすごくすごく良くあります。多重共線性とか大事です。本当に。

 

ついでに言うと、マインドとしても数理マニアな人よりは一般教養に広く興味がある人の方が(データ解析の文脈では)楽しんでいる人が多かったように感じています。ここらへんのメンタリティの話は表現方法間違うとすごく危険な感じがするのですが、"数学がすごく出来る文系" みたいな人が一番楽しんでいるイメージがしました。

 

 

★データ解析に着手しはじめた人々★

これまで統計の「と」の字も話題にならなかった企業の中で、データ解析に着手する人々がどんどん増えています。僕も「データ解析はじめました」な人たちと様々に関わりウォッチしてきたのですが、「とりあえずやってみた」人たちが共通に陥りがちな傾向がありました。

 

例えば、モデルの仮定を顧みずに、出来上がったモデルは何か意味があると無前提に考えてしまう姿勢や、頑張って勉強してツールを使ったのだから意味がある/役立つはずだという思考です。

 

相手がお客さんだと、おもねってその場で良い顔すると後で苦労するのは分かっていても、実際の言葉選びは結構難しかったりします。「重回帰した結果です!ドヤっ!」みたいに迫られると思わず「なるほど」とか言ってしまったり…。

 

これからデータ解析をはじめる方は、ソフトウェア・アウトプットの読み方を学ぶのと同じくらい、モデルの前提を整理した方が良いと思います。

 

何やかんや言いましたが。

 

それでも僕は分析に一歩踏み出した人はそれだけで結構尊敬していました。なんやかんや言って「やってみること」が一番大事だと思っているからです。こんなBlog書いていて壮大な矛盾のような感じもするのですが(笑)、あんまり掛け声とかポエムは気にし過ぎない方が良いと思います。

最近はデータ解析の心得リストみたいなものがちらほらまとまってきたようで、とくに”Garbage in, garbage out”みたいな原則が語られることが多くなってきました。データがあるから分析しようというのは思考停止過ぎるとか、手法云々ではなく良質なデータ確保が大切とか、素晴らしいと思います。ただし、手元のデータがゴミかどうかの判断ができる程度のリテラシーをもった人はまだまだ少ないし、手元のデータがゴミだと人に説明(説得)できることも実は結構な能力だと僕は思っています。まずは気にせず分析してみる!が大事です。ゴミがゴミに見える力は自然に身についていきます。

 

★たくさんの文系出身者★

データサイエンスしている文系出身者、沢山いました!

なので文系選択したという過去の選択をもって「自分が数学やモデリングをそこまで得意/好きじゃないかも」と思いこんでしまうのはNGだと思います。「好き」と人前で言えるということには心理的プレッシャーも大きいし、たとえ実際好きじゃなくても「なんとなく数理的感性から逃れられないという体質」のようなものがある気がしています。数理的な世界から一度は離れてしまったけれど、何となくやっぱり戻ってきてしまったというパターンは意外と多いはずです。文理にこだわるのはいいことなし。読んで、手を動かして、楽しければ前に進んでいきましょう!

 

【結び】

今回は僕がデータ解析な仕事をしながら見て来た風景について記しました。これからデータサイエンスはじめる方へのメッセージをなるべく意識したのですが、機会があれば業界の有名人の話とか、天才の話とか、頻度論vsベイズという不毛な(と僕が思っている)争いの話とか「ビールとおむつ」の時代の話とかいろいろ書きたいです。今年もどうぞよろしくお願いします!!次回からブックレビュー再開します。