近年、「データ〇〇」というように、「データ」という単語がつく言葉がよく取り上げられるようになりました。
例えば、「データドリブン経営」や「データ駆動型社会」、「データビジュアライゼーション」といったものなどです。
こうした「データ〇〇」の中でも「データサイエンス」と「データマネジメント」というのは、企業が取り組む「データ戦略」において欠かせないものとなっています。
しかし、「データサイエンスとデータマネジメントはどう違うのか?」といったことや両者の関係性といったことは、今まであまり語られることがなく、しっかりと解説をしている書籍などもほとんど見当たらないため、今回はこうしたタイトルで記事を書いていこうと思います。
私は、「データサイエンス」と「データマネジメント」の関係性を分かりやすく例えるために、「料理と冷蔵庫」、と呼んでいます。
料理に例えると、「データ」は食材そのもの、食材(データ)を冷蔵庫に入れて保存しておくことが「データマネジメント」、食材を使って料理をすることが「データサイエンス」、という感じです。
以下の記事を読んで頂けると「そういうことか!」と感じて頂けると思います。
データサイエンスとは
「データサイエンス」という言葉は、最近では割とよく聞かれるようになりましたし、「データサイエンス」を活用してデータ分析を行う人のことを「データサイエンティスト」と呼んだりしますので、あまりそうしたことに詳しくない方でも、「なんか難しい理論や手法を使ってデータ分析をすることなんだろうな」ということはなんとなく知っているのではないでしょうか。
「データサイエンス」というのは、「サイエンス(科学)」という言葉がついていることから、「データを使って現実の出来事を明らかにしようとする」試みのことです。
つまり、「データから何かしらの意味見出す」ということがデータサイエンスの役割、ということになります。
「データ分析」と「データサイエンス」という関係性で言えば、「データサイエンスはデータ分析の考え方や技術の一部」と言えます。
「データ分析」というものは、従来は「定量分析」や「定性分析」という「扱うデータが数値かどうか」という分け方をされたり、
「目的型データ分析」、「探索型データ分析」というように、「最初から仮説があるのかどうか」という分け方などもされてきました。
また、データ分析の中には「統計学」の考え方や手法を使ってビジネスデータの分析に応用するというやり方もあります。
マーケティング・リサーチやパネル調査といったような、「取れたサンプルのデータを分析して、その結果から全体を予測する」という分析においてはとても有効な手法です。
しかし、「データサイエンス」というものは、これまで行われてきたデータ分析の考え方や手法とは、根本的に異なる概念で成り立っています。
例えば、現在のデータサイエンスでメインとなる手法に「機械学習」というものがあります。
これは文字通り「機械に学習させる」ということで、これまでの統計学では平均や分散、相関と言った観点でデータの特徴を人が把握していましたが(少数派の特徴は切り捨てる)、機械学習では、すべてのデータをアルゴリズムに渡せば、すべての特徴をもったまま計算を実行できるのです。
本記事では機械学習の詳細は述べませんが、これまでとは桁違いの複雑な判断や精度が出せる、というのが「データサイエンス」と言えます。
よって、データサイエンスを活用すれば、これまでのデータ分析手法では発見できなかったデータの特徴や、モデリングなどをすることができるため、ビジネスに活用することができれば非常に大きな「価値」を生みます。
データマネジメントとは
データマネジメントとは、「データをビジネスに活かせる状態を継続的に維持し、さらに進化させていくための組織的な営み」のことです。
簡単に言うと「データをビジネスに活用するために、色々な人が協力しながら取り組んでいきましょう」ということです。
ここでのポイントは3つです。
①データをビジネスに活かせる状態にすること
②その状態を維持し、進化させること
③組織的な営みができること
①については、例えば、「データは最新のものかどうか」「データに抜け漏れはないのか」「データは正確に現実をあらわしているのか」といったことです。
つまり、「そのデータって分析に使って本当に大丈夫?」ということを様々な視点から検証していくことです。
②については主に、
・データ
・システム
・人材
という3つについて、適切な考え方や、やり方、評価の仕方などをしっかりと考え、「データから価値を生み出せる状態」を常に保っておく、ということになります。
③については、データ利活用に関して特定の人材(例えばデータサイエンティストなど)に任せっぱなしにするのではなく、様々な拠点や部署、人材が協力しながら「データを活用できる体制」を作っていきましょう、ということです。
よって「データマネジメント」というものは、「いかに良いデータを良い方法で管理するか」ということが目的になります。
「データマネジメント」の実践の中で中心になることの1つに、「メタデータ」や「マスタデータ」というような、企業活動の根幹になるようなデータの整備ということが挙げられますが、これらは「データ分析」ということに限ったことではなく、「データの参照」や「データの紐づけ」といった「業務効率化」に焦点が当てられています。
お互いの役割は?
これまで、「データサイエンス」と「データマネジメント」について簡単に考え方や特徴を見てきました。
ここから言えることは、
「データサイエンス」は「データを価値に変えるもの」、
「データマネジメント」は「データそのものの価値を維持あるいは高めるもの」
ということです。
冒頭で申し上げたように、「データ」を「食材」と例えると、
「データサイエンス」⇒「データという食材を調理して、料理を作り上げる」
「データマネジメント」⇒「データという食材を、食材に合わせた方法で保存して、いつでも調理ができるようにしておく」
と言えます。
「どちらが大切か」ということを単純に比較することは難しいですが、人間は冷蔵庫がなくても、常温で保存ができる食品や既製品を買ってくれば、食べていくことはできます。
よって、「優先事項」という点では「データサイエンス」に先に取り組んだほうがいいでしょう。
いくら高性能な冷蔵庫を買ってきたとしても、「どんな料理が食べたいのか」という目的もなしにひたすら食材を詰め込んでも、使いきれずに余ったり腐ってしまいます。
「データマネジメント」という考え方が今一つ注目を浴びずに広まらないのは、「データマネジメント」そのものにどれくらいの価値があるのかよく分からない、ということが大きいと感じます。
もちろん、現在の「ビッグデータ社会」においては「データ」という食材が溢れかえっていますので、それを保存できる「冷蔵庫(データマネジメント)」は必ず必要になります。
しかし、メタデータやマスタデータの整備そのものが「価値」を生み出すわけではなく、データが価値を生み出すのはあくまで「データを使った結果がビジネスに活かされた」ときです。
おススメなのは、まずは「データ分析(データサイエンスも含む)」に取り組みつつ、マスタデータの整備など、どうしてもデータ分析に必要になる部分だけに対して少しずつデータマネジメントを導入していくことです。
「データ分析を上手く進めるためには、どのようなデータマネジメントが必要か」という考え方です。
「データ利活用」はデータが価値を生み出すまでに長い時間がかかります。
大企業であるほど、多くの利害調整やプロセスを挟むため、時間がかかります。
よって、なるべくローコストで開始して少しずつ成果を出していくほうが安全です。
まとめ
今回は、「データサイエンスとデータマネジメントの関係性」ということで、それぞれの考え方や特徴を解説致しました。
データサイエンスもデータマネジメントも、データを活用した企業経営をしていくにあたっては非常に重要な取り組みになりますが、データマネジメントは「データ分析」そのものを目的として実施される取り組みではなく、広く言えば「業務効率化」というものを目指すものです。
「売上最大化」といったマーケティング的な要素を重視するのであれば、「データサイエンス」に優先的に取り組み、「データサイエンスをもっと上手くやっていくためには、どのようなデータマネジメントが必要か」という視点で「データマネジメント」も推進していくのがよいでしょう。