今回は「データ活用」に取り組む上でとても大切になる要素である「データサイエンス」と「データマネジメント」について解説していきたいと思います。
私は「データサイエンス」と「データマネジメント」の関係性を分かりやすく例えるために、「料理と冷蔵庫」と呼んでいます。
料理に例えると、「データ」は食材そのもの、食材(データ)を冷蔵庫に入れて保存しておくことが「データマネジメント」、食材を使って料理をすることが「データサイエンス」という感じです。
以下の記事を読んで頂けると「そういうことか!」と感じて頂けると思います。
✔ 「データサイエンス」の概要がわかる
✔ 「データマネジメント」の概要がわかる
✔ 「データサイエンス」と「データマネジメント」の関係性、役割がわかる
データサイエンスとはなにか?
「データサイエンス」という言葉は、最近では割とよく聞かれるようになりましたし、「データサイエンス」を活用してデータ分析を行う人のことを「データサイエンティスト」と呼んだりしますので、そうしたことに詳しくない方でも、「なんか難しい理論や手法を使ってデータ分析をすることなんだろうな」ということはなんとなく知っているのではないでしょうか。
「データサイエンス」というのは、「サイエンス(科学)」という言葉がついていることから、「データを使って現実の出来事を明らかにしようとする」試みのことです。
つまり、「データから何かしらの意味を見出す」ということがデータサイエンスの役割、ということになります。
「データ分析」と「データサイエンス」という関係性で言えば、「データサイエンスはデータ分析の考え方や技術の一部」と言えます。
「データ分析」というものは、従来は「定量分析」や「定性分析」という「扱うデータが数値かどうか」という分け方をされたり、「目的型データ分析」、「探索型データ分析」というように、「最初から仮説があるのかどうか」という分け方などもされてきました。
また、データ分析の中には「統計学」の考え方や手法を使ってビジネスデータの分析に応用するというやり方もあります。
マーケティング・リサーチやパネル調査といったような、「取れたサンプルのデータを分析して、その結果から全体を予測する」という分析においてはとても有効な手法です。
しかし、「データサイエンス」というものは、これまで行われてきたデータ分析の考え方や手法とは、根本的に異なる概念で成り立っています。
例えば、現在のデータサイエンスでメインとなる手法に「機械学習」というものがあります。
これは文字通り「機械に学習させる」ということで、これまでの統計学では平均や分散、相関と言った観点でデータの特徴を人が把握していましたが(少数派の特徴は切り捨てる)、機械学習では、すべてのデータをアルゴリズムに渡せば、すべての特徴をもったまま計算を実行できるのです。
本記事では機械学習の詳細は述べませんが、これまでの分析手法とは桁違いの複雑な判断や精度が出せる、というのが「データサイエンス」と言えます。
よって、データサイエンスを活用すれば、これまでのデータ分析手法では発見できなかったデータの特徴や、モデリングなどをすることができるため、ビジネスに活用することができれば非常に大きな「価値」を生みます。
データマネジメントとは何か?
データマネジメントとは、「データをビジネスに活かせる状態を継続的に維持し、さらに進化させていくための組織的な営み」のことです。
簡単に言うと「データをビジネスに活用するために、活用しやすい形に整えたり、活用しやすい場所に保管しておく」ということです。
ここでのポイントは3つあります。
① データをビジネスに活かせる状態にすること
② その状態を維持し、進化させること
③ 組織的な営みができること
①については、例えば、「データは最新のものかどうか」「データに抜け漏れはないのか」「データは正確に現実をあらわしているのか」といったことです。
つまり、「そのデータって分析に使って本当に大丈夫?」ということを様々な視点から検証していくことです。
②については主に、
- データ
- システム
- 人材
という3つについて、適切な考え方や、やり方、評価の仕方などをしっかりと考え、「データから価値を生み出せる状態」を常に保っておく、ということになります。
③については、データ活用に関して特定の人材(例えばデータサイエンティストなど)に任せっぱなしにするのではなく、様々な拠点や部署、人材が協力しながら「データを活用できる体制」を作っていく、ということです。
よって「データマネジメント」というものは、「いかに良いデータを良い方法で管理するか」ということが目的になります。
「データマネジメント」の実践の中で中心になることの1つに、「メタデータ」や「マスタデータ」というような、企業活動の根幹になるようなデータの整備ということが挙げられますが、これらは「データ分析」ということに限ったことではなく、「データの参照」や「データの紐づけ」といった「業務効率化」に焦点が当てられています。
データサイエンスとデータマネジメントのお互いの役割は?
これまで、「データサイエンス」と「データマネジメント」について簡単に考え方や特徴を見てきました。
ここから言えることは、
データサイエンス → データを価値に変えること
データマネジメント → データそのものの価値を維持あるいは高めるもの
ということです。
冒頭で申し上げたように、「データ」を「食材」と例えると、
データサイエンス ⇒ データという食材を調理して、料理を作り上げる
データマネジメント ⇒ データという食材を、食材に合わせた方法で保存して、いつでも調理ができるようにしておく
と言えます。
「どちらが大切か」「どちらを先にやるべきか」というのは企業の規模や扱うデータの量や種類などにも左右されるため正解はありません。
手持ちのデータの種類や量がそれほど多くなく、データを管理する手間がそれほど必要ないのであれば、「データサイエンス」に力を入れてもよいと思います。
大企業で複数の事業から日々大量のデータが発生しているような状況においては、もちろんデータサイエンスに取り組むのも大事ですが、データが社内の様々な場所にバラバラに存在していたり、重複するデータが存在していたり、どんな意味を持つデータなのかがよくわからない、という場合が多くなるため、データマネジメントの取り組みも非常に大切になります。
「データマネジメント」という考え方が今一つ注目を浴びずに広まらないのは、「データマネジメント」そのものにどれくらいの価値があるのかよく分からない、ということが大きいと感じます。
もちろん、現在の「ビッグデータ社会」においては「データ」という食材が溢れかえっていますので、それを保存できる「冷蔵庫(データマネジメント)」は必ず必要になります。
しかし、メタデータやマスタデータの整備そのものが「価値」を生み出すわけではなく、データが価値を生み出すのはあくまで「データを使った結果がビジネスに活かされた」ときです。
おススメなのは、まずは「データ分析(データサイエンスも含む)」に取り組みつつ、マスタデータの整備など、どうしてもデータ分析に必要になる部分だけに対して少しずつデータマネジメントを導入していくことです。
「データ分析を上手く進めるためには、どのようなデータマネジメントが必要か」という考え方です。
「データ活用」はデータが価値を生み出すまでに長い時間がかかります。会社の規模が大きくなるほど、多くの利害調整やプロセスを挟むため、時間がかかります。
よって、なるべくローコストで開始して少しずつ成果を出していくほうが安全です。
おわりに ~データは扱い方次第で「宝」にも「ゴミ」にもなる~
最後までお読みいただきありがとうございます。
今回は、「データサイエンスとデータマネジメントの違いや関係性を理解しよう」ということで、それぞれの考え方や特徴を解説いたしました。
データサイエンスもデータマネジメントも、データを活用した企業経営をしていくにあたっては非常に重要な取り組みになりますが、データマネジメントは「データ分析」そのものを目的として実施される取り組みではなく、広く言えば「業務効率化」というものを目指すものです。
「売上最大化」といったマーケティング的な要素を重視するのであれば、「データサイエンス」に優先的に取り組み、「データサイエンスをもっと上手くやっていくためには、どのようなデータマネジメントが必要か」という視点で「データマネジメント」も推進していくのがよいと思います!