データサイエンティストとは?

私は昨年2018年の11月に転職し、役割的には「データサイエンティスト」となった。

しかし、いまだにこの「データサイエンティスト」という名前は自分の中でしっくりきていない。「何をやってるんですか?」と聞かれて、「データサイエンティストです!」と自信を持って答えられない。なんとなくムズムズする。

業界内でも理解して使ってる人が少ない。
なので、余計にその役割です、と言いきれない。

業界内や他人の認識はとりあえず置いといて、自分の中でちゃんと定義していないことが問題だ。なので、転職して約1年経ったこの機会にしっかり考えて、少なくとも自分は「XXXです」と言えるようにしておきたい。

そうすれば、このXXXはこういう役割なんですよ、と自分がその相手に対してどんな手助けができるかを説明できるようにもなるので。

まずは一般的な定義から考えてみる。

データサイエンティストの一般的な定義

データサイエンティストの定義だが、わりとよく知られているのが以下3つの役割だ。

「日本データサイエンス協会」のHPより抜粋

ビジネスドメイン(領域)では、そのビジネスに関する業務知識が当然必要となる。
業務知識はその事業に関する知識だけでなく、会社の法務・経理などの一般知識や、3C/SWOTなどによる現状分析スキル、STP+4Pのマーケティング知識、メンバーの最適配置(フォーメーション)等のマネージメントスキルなど、いわゆるMBA(経営学修士)と呼ばれる資格を取る際に学ぶほぼすべてが必要になる。
なお、コンサル業務であれば、パワポを作るスキルなんかも問われる。

要するに「ビジネスコンサルスキル」である。
ただし、MBA取得のために学ぶほどの深い知識は必要ない。ある程度の浅くて広い知識で良い。

システム(データエンジニアリング)ドメインは、データに関するエンジニアスキルだ。
基本はPythonやRなど分析を行う上でのプログラミングと、データを扱うSQLだが、現在ではAmazonのAWSやGoogleのGCPなどのクラウドサービスを扱う知識も必要となる。分散システムのHadoop/Hive/HBase/Sparkや、Docker/Kubernetesなどのコンテナに関するスキルなど、かなり広範囲で、かつ現在も新技術が開発されているドメインでもある。
なお、TableauなどのBIツールもここに含まれる。

これも、ガチな(フルタイムの)エンジニアレベルのスキルは必要ない。とは言え、それぞれがどういう技術基盤に成り立っているのかという知識や、各ツールを業務を行う上で不都合ないレベル(基礎?)までは扱える必要がある。

最後に(データ)サイエンスドメインだが、ここがまさに「データサイエンティスト」の本業と言えるスキルだ。
最低でも大学1年レベルの数学(線形代数含む)と統計学の基礎知識は必須。単純な基礎分析に加えて、画像・音声などのパターン認識や自然言語処理、機械学習、Deep Learning、時系列分析、異常検知などの知識や分析スキルが問われる。この領域は広く深いので、すべてを扱うのは難しい。人によって得意不得意が分かれる。

このデータサイエンスドメインは、正直どこまでできれば良い、という閾値がない。何年もやってるエース級の人でさえ、すべてを満遍なくできる人はほぼいない。プロジェクトにアサインされてから、足りない知識を学びながら業務をこなしていくことになる。

さらに、この3ドメインにはない知識だが、私はここに「英語」スキルも加えたい。最新の論文は確実に英語だし、機械学習やDeep Learningのサンプルコードなどを調べようと思ったら、英語サイトを読むのが当たり前になる。

つまり、「データサイエンティスト」とは、上記の3ドメイン(+英語)を高い次元でバランスよく装備している人、ということになる。

そんな人いるの?

当然だが、こういう疑問が生まれる。

そんなスーパーマンいるの?

ほぼいない、というのが答えになる。
データサイエンティストは「ユニコーン」、と言われる由縁である。

ただし、Googleなど最先端のIT企業で働いている人材は、間違いなくこのすべてを兼ね備えていると思う(まぁ、入社時にビジネスドメイン知識はほぼないとは思うが。。)。現在Googleは新卒に5,000万円(最低でも2,000万円)の年収を出している、という話もある。やりすぎな気もするが、それくらい貴重な人材だからこそ、この年収を出す価値がある。

問題は、こんな2,000万円もの年収を払えない、その他一般的な企業だ。

当然だが、Googleのような会社へ行く人材は集まらない。
そうなると、上記の3ドメイン(+英語)を兼ね備えた人材はほぼいなくなる。

ではどうするのか?

チーム戦になる。

すべてを兼ね備えた人がいないのであれば、それぞれ得意分野を掛け合わせてチームを組めば良い。1人に2,000万円を払わなくても、3人に700万円払って、3人1チームで同じ役割を果たせば良い。

その際に問題になることがある。
この人たちをなんて呼べば良いのか?

仮に3人で役割分担したとして、上記3ドメインが綺麗に分かれることなどあり得ない。ある人はデータサイエンスとデータエンジニアリングが得意、ある人はビジネスとデータサイエンスが得意、となる。さらに、実業務の中でも3ドメインを綺麗に分けられない。複雑に交差することになる。

で、分けるの面倒だから「全員まとめてデータサイエンティストだ!!」という乱暴な話になる。冒頭の疑問に繋がる。

本来1人で役割を果たせないためにチームを組んでいるのに、外から見たら1人ですべてを兼ね備えた「データサイエンティスト」という役割名の人が3人います、というおかしな話になってしまう。

「データサイエンティスト」の水増しだ。
現在業界内で「データサイエンティスト」が溢れかえっている要因でもある。

データアナリストは?

それでは「データアナリスト」という役割名はどうだろうか?

仕事内容としては、データアナリストで間違いではない。というか、「データサイエンティスト」という名前が生まれるまでは、「データアナリスト」と呼ばれていたわけだし。

しかし、データアナリストと呼ばれていた時代から考えると、かなり職域が広がっている。

単純な基礎分析、売上予測や主成分・因子分析、時系列分析、異常検知など、現在データサイエンティストが行なっている業務は、データアナリストが行なっていた業務と重なる。ここに違いはない。

さらに、最近「AI」という言葉でもてはやされている、画像認識・自然言語・音声認識などのDeep Learning(DNN:Deep Nueral Network)処理が加わると、イコール「データサイエンティスト」となる。ただし、前述したが、これらのDNNを行う際には、SQLだけでは物足りない。BigQueryやSpark、Hadoopなどのビッグデータを扱う分散処理システムを使いこなす必要が出てくる。さらに、画像認識や自然言語などは個々に特有の数学知識も必要になる。

そして、これらの新技術は、今後も間違いなく拡張していくだろう。
そのキャッチアップも必要となってくる。

上記の3ドメインで言えば、「データサイエンス」と「データエンジニアリング」ドメインを、新技術に合わせてバージョンアップする必要がある。

この役割を「データアナリスト」と呼ぶのは、どうもしっくりこない。

さらに広い職域

さらにややこしいのが、実業務ではこの3ドメインに当てはまらない業務が多々あるということだ。

この問題を考える際によく参考にさせてもらっている、以下しんゆうさんのブログに詳しい。

https://analytics-and-intelligence.net/
https://analytics-and-intelligence.net/archives/5879
https://analytics-and-intelligence.net/archives/6009

このブログの中では兵站を担う「データアーキテクト」という名前で呼んでいるが、これはデータエンジニアリングとデータサイエンス・ビジネス両ドメインを「つなぐ人」だ。

さらに、データサイエンスとビジネスを「つなぐ人」の存在も必要だ。数学をビジネス用語に変換する作業は重要だ。この役割に関してはブログ内でも明確な定義づけはない。「ビジネスアナリスト」とでも呼べばよいか?

これらの役割の人には現在名前がない。
しかし、必須の役割だ。
ここを担う人がいないとプロジェクトが回らない。

だが、名前がない=評価されない、ということもあり、さらに地味な上に大変な仕事でもあるので、誰もやりたがらない。
そこで、別の役割の人が兼任することになる。

今はデータサイエンティストやデータアナリストと呼ばれる人が兼任することが多い。ビジネスコンサルタント、マーケッターやディレクター、営業(アカウント)、プロジェクトマネージャー、エンジニアなどが兼任することもあるだろう。

個人的には「データアーキテクト」「ビジネスアナリスト」という役割名で良いと思うが、この役割を別業界の人に説明しても理解してもらえないだろうし、おそらく社内でも評価されないから定着しないだろうな・・。前提として、冒頭の3ドメインを理解してないとこの2つもよくわからないし。。

ちなみに、データ分析のコンサル会社になると、これらの役割に加えて、さらに「プロジェクトマネージャー(PM)」が加わる。分析プロジェクトを主導することになるので。もっとも、この役割はIT系企業では昔からあるし、ある程度共通認識があるので「データサイエンティスト」のように役割で迷うことはない。

結局、なんと呼べば良いか?

ここまでを整理すると、下記のようになる。

「データサイエンティスト」=「ビジネス」+「データサイエンス」+「データエンジニアリング」+「データアーキテクト」+「ビジネスアナリスト」(+英語)

そして、おまけの「プロジェクトマネージャー(PM)」

PM含め、1人で担うのはまず無理だ。
だが、6人1チームで仕事すれば成り立つ。1人2ドメインが担えるなら3人で良いわけだし。

役割の整理としてはこれで良いし、実業務でメンバー編成考える際に上記の役割を意識した上で編成すれば良いとは思うが、やはり「なんと呼べば良いか?」という問題は残る。

役割名は重要だ。

自社や他社で説明する際にも、ある程度共通に認識されている名前を使わないと、あらぬ期待だけが膨らむことになってしまう。「データサイエンティスト」がいれば何でもできるでしょ?・・みたいな。できねーよ。

本来的な意味で言えば、「データサイエンティスト」なのだから、中心となるのは「データサイエンス」だ。それ以外のドメインは付随的なものでしかない。

つまり、中心ドメインとなる「データサイエンス」に業務として集中させ、それ以外のドメインは違うメンバーに任せてしまった方が、組織管理の上では最も効率が良くなるだろう。現にそういう組織体制にしている会社をいくつか知ってる。

しかし、「データサイエンス」だけやってる人を「データサイエンティスト」と呼んで良いのか?

よくよく考えてみると、それが一番正しいように思う。たいていは博士号を持ってる人が多いし、まさに「サイエンティスト」なので。

ということは、冒頭の3ドメインの整理がそもそも間違いの元で、最初から「データサイエンス」だけを担う人を「データサイエンティスト」と呼び、それ以外は別の役割で呼んだ方がわかりやすいんではないだろうか?

データサイエンスだけに集中できる環境は、中小企業では難しい。ある程度大企業にならざるを得ない。しかし、それはそれで良い。現に、GoogleなどのGAFAは十分大企業だし、その中でデータサイエンスに集中している人はデータサイエンティストと呼ばれている。

つまり、大企業でデータサイエンスを中心に業務を行なっている人を「データサイエンティスト」と呼び、企業規模問わず、データサイエンス中心ではないけれど、整理した6ドメインのいくつかを担っている人は、職域が広がったとはいえ、今まで通り「データアナリスト」と呼べば良いのではないだろうか。
(PMだけやってる人は、もちろんPMで良い)

まとめ

とりあえず、現時点での結論は出た。

私は「データアナリスト」だ。

個人的な関心として、私はデータサイエンスを突き詰めようとは思わない。そこに楽しさは感じない。もっと、データ分析をどうビジネス(実社会)に活用するのか?ということの方に、興味も面白さも感じるので。

今後、あなたは何をやっている人ですか?と聞かれたら、そう答えようと思う。

まぁ、今は過渡期なんだろう。
そのうち、これらの役割が整理されることを願う。

しかし、昔「マーケッター」をやってた身としては、役割が生まれて何十年も経っている「マーケッター」ですら明確に定義されていない現状を見ると、この先何十年経っても整理されないのかもな・・とも思う。いまだに単なるメディア運用やプランナーだけしてる人をマーケッターとか呼んでる有様なわけだし。。

今回自分の中で整理できただけでも良しとしよう。
数年経ったら、また見直してみようと思う。

今のところ「データサイエンティストとは?」にコメントは無し

コメントを残す