「フリーランスのデータサイエンティスト日記」はじめました!!

2017年12月現在、データサイエンティストという肩書で仕事しているフリーランスは非常に少ないので、僕なんかの記録でも少しは役に立つこともあるかもしれないとこのBlogをはじめました。

 

あと所謂ネットで見る「データサイエンティスト」な人って(とくにtwitter界隈)超絶フルスペックな人が多くて、これちょっとハードル上げ過ぎやん、と思ったのも書くきっかけとしては大きいです。建築士と言えば安藤忠雄さんでも、ほとんどの建築士は建て売りの住宅の設計とか設備とかやっているわけで…もっとこう、ただの中小企業のおっさん的なデータサイエンス系記事があっても良いかなと思った次第です。

 

文系とか学卒とかでも気にせず、気軽にこの世界を覗いてみようと思ってくれる人が増えたら嬉しいです。

 

「統計で食っていきたいぜ!」とか「データサイエンティストってなに?(僕も聞きたい)」とか何かあれば僕の限界の範囲でお答えしますのでお気軽にメッセください。都内の方はお茶代出してくれたら時間の限りお茶いきます。もちろんお仕事依頼も絶賛大歓迎です!!仕事ください!

 

初回なので僕のスペックと現状の案件を紹介します。案件詳細はもちろん守秘義務で書けないのでご了承ください。雰囲気が伝わればと。

 

【スペック】

※お客さんの前では言えないけど低スペックです

(でも読み手はその方が安心だと思ったり…)

 

データサイエンス系の実務経験5年くらい(最初はデータサイエンスという言葉すら(日本では)なかったからサバ読みだけど…。)

 

外国語:英語(英語はやってた方が絶対良いです。理系の論文程度なら読めるからいいや、とか思ってなめてると損します。データサイエンスするなら外資で働く選択肢はいつも保持してた方が良いです。あと専門に近い論文は確かにほどほどの英語力があれば読めると思うのですが、ビジネス情報や人文・社会科学的教養を英語圏から求めないというスタンスをとるとデータサイエンス界隈の人は損すると思います。だから普通に英字新聞とか読める程度まで少しずつでも良いので勉強しておいた方が良いです。)

 

言語Python, R , SQL

もしあなたが現在勉強中なら絶対にPythonやRを書きながら学んだ方が絶対に良いです。細かい学び方はいつか書けたら書きますが、「プログラミングできる人は沢山いる」とか「基礎から(例えば測度論から)しっかり理解したい」とか理由付けて理論書を「読んでばかり」いてもとても使いものになりません。とくにggplotみたいな可視化(Data Visualization)をおざなりにする人が多いのですが、区別付けずに基礎的なことは学んでおきましょう。人に納得されてこその分析です。あとは統計学の本や機械学習の本だけでなく、コンピュータサイエンスの入門書も読んでおくと良いと思います。GPUとかHadoopとか先端的なこと(だけ)でなくて、もっとベーシックな教科書です。ネットワークとかメモリとか計算量の概念がないとどこかで止まります。

 

ソフトウェアSPSS, SAS, MATLAB, JMP…

なければ買おう!…うそです(笑)。たぶん書店行くと、統計学のコーナーとかソフトウェアベースのテキストが沢山あって(とくにSPSS)、なんか「こういうソフト使えないと(使ったことがないと)いけないのかな…」とか「余程高級なソフトなのだろう」とか勝手に思ってしまう人がいるようですが、理屈を理解しているか、あるいはPythonやRが普通に使えていればGUI系のソフトウェアはその場の練習で無問題です。誰でも使えるから普及しているんです。時々オプションとかでマニアックなものがあるかもしれませんが気にしない。マニアックなオプションはマニアックな場面でしか使わないので自分の記憶と理論を信じてオーソドックスな手段を選びましょう(そして隙間時間にこっそり調べましょう。)ただし、使える機会があれば積極的に使ってみた方が良いです。ソフトウェア導入の相談とかされること多いです。まったく使ったことがないと対応できません。 

 

統計学:東大本3冊、緑本PRML、とかをちゃんと読んでいます。僕の経験から言うとですが…基本となるこれらのテキストをちゃんと読んでいる人は意外と少ないです。本当に…。だからこんな風に書いたのですが。少なくとも有名所は本棚の飾りにしないでちゃんと(というのは手を動かして行間を補いそこそこ問題も解いて)読んだ方が良いと思います。にわか知識は人事や営業はだませても同業はだませないものです。たぶん。あと、疫学の本や医療統計の本も読んでおくと良いです。リサーチデザイン侮るべからず。交絡とか、無作為割付とか、バイアスの概念をしっかり理解しましょう。ノンパラメトリックも余裕があれば。

 

数学:松坂『集合・位相入門』、杉浦『解析入門(Ⅰ・Ⅱ)』、斎藤『線形代数入門』、伊藤『確率論入門』とかの統計学機械学習関連で必要な数学のテキストをちゃんと読んでいます。

 

これもいつか書きたいのですが、必要な数学的基礎が圧倒的に足りない人が本当に多いです…本当に…が、一応フォローしておくと数学系の人にはプログラミングが全然できない人が意外に多いです。。。)

 

え、「解析?線形代数?そんなレベルで大丈夫なの?」とか思った方はたぶん数学の前提知識としては大丈夫です(むしろチャンスです!!)。大学出たての方とかD進された方は大学教養数学なんて余裕に思えるかもしれませんが、アカデミックな世界あるいは急場しのぎの詰込みではなく基礎からのしっかりした勉強から遠ざかったおっちゃんには教養数学を維持するのはなかなかハードル高いんです(測度論とか待っててもも絶対理解してもらえませんよ?)。あと現状だとデータサイエンスやってる(含 つもり)人は、いろいろな畑から来ているので数学オンチが多いのはそういう事情もあります。現場は頑張っています。

 

これ本当に覚えててください。文系理系も学卒院卒も関係ありません。5年何もやらなかったらあなたもみんなも誰でも忘れます。とくに、へたに数学科卒だけど事業べったりで来た人とかは、いざ数学必要な局面でプライドのせいで苦しんでいたりしますので、そういう時見下してくる若手と、温かくサポートしてくれる若手だと後者の方が圧倒的に好感度高いです。

 

あと機械学習とか深層学習とかのテキスト読む前に行列代数の本を読んでおくのは、メリット大きいです。線形代数くらい普通に分かるという人でも「射影行列」とか「一般逆行列」とか「コクランの定理」とかいうワードに??となる人は、行列代数(Matrix Algebra)というキーワードでテキスト探してみてください(数学科の線形代数よりはずっと簡単なので読みやすいはず。)

 

Blog:初心者です!!mixi世代ですがmixiすら続かなかったくちです。

 

【抱えている案件】

機械学習モデルの実業務実装(メイン。専門ソフトウェア会社やアプリを作っている会社で新機能の開発や企画出し、実装補助を行っています。)

・アドバイザー業務

・研究補助(大学や企業での研究に補助で入っています。)

・個人トレーナー(家庭教師みたいなものです。研究で必要なデータ解析タスク(例えばモデル設計やテスト)を手伝ったり、最新の機械学習論文を読む伴走をしています。)※数学や統計学の家庭教師ご希望の方はいつでもご連絡くださいね!

・企業研修(法人の営業マンやデータサイエンティスト向けにデータサイエンティストの養成研修を行っています。)

・その他(クラウドワークのバイト)

 

【仕事のスタイル】

統計学なのか機械学習なのか情報工学なのか数学なのかデータサイエンスなのか、とかは全く気にしないで仕事しています(ぶっちゃフリーになるとそんな線引きする余裕ないです。)東大本とかちゃんと読んでいる方はご理解いただけるかと思いますが、経済モデルを扱ったシンクタンク的案件や会計モデル、心理学ちっくなマーケ案件や調査案件など社会科学系にもアンテナ張ってるとスキルをいかせる幅は広がると思います。ただしアンテナ張るというのは、twitterで最新動向追いかける(のも大事ですが)とかの話ではなく、あくまでの各分野の基本書をちゃんとと読んでおくということです。「どんな本読めばいいの?」については、これから書いていきたいと思います。あと「どうやって仕事とるの?」という最も興味もたれそうな内容についてはこれから少しずつ書いていきたいと思います(僕も手探りなので…)

 

【結び】

最初なので結構長文書いてしまった…。この勢いは確実に続かないです(笑)。発信第一号なのでレスポンスいただけたらめちゃくちゃ喜びます。それでは!!