第13回 星形がデータ分析に最適! データモデリング

前回第12回に引き続き、リレーションシップのお話です。

多様なデータを様々な角度から眺めることで、新たな洞察を得ることが可能となります。

データ相互のリレーションシップ

事実(Fact)の全体像を把握するには、目的に即した多様な次元(Dimension)でデータ分析する必要があります。その前提としてデータ相互のリレーションシップがポイントになります。

リレーションシップを的確に行うには「ファクト」と「ディメンション」という考え方を知っておかねばなりません。別の言い方をすれば、データを「ファクトテーブル」と「ディメンションテーブル」に分けてデータモデリングする必要性があります。

例えば、「販売実績データ」のように日々多数の実績データ(トランザクション)が存在するものが「ファクトテーブル」です。

他方、「担当者マスタ」のように一つの担当者コードに一人の担当者名が存在するという「ユニークデータ」を集約したものが「ディメンションテーブル」です。

データモデル

ここで「データモデリング」とは、データを構造化することを言います。また、データの関係性を含めて構造化されたデータの塊のことを「データモデル」と呼びます。例えるなら、ドラマの登場人物の関係性を表すことをデータモデリング、それを図示した相関図がデータモデルというイメージです。

このデータモデリングあるいはデータモデルは、データ分析の「扇のカナメ」ともいえる重要な役割を担います(図表1)。

第1回で説明しましたETL(抽出・変換・読込)によりデータを取得し、第11回で説明しましたリレーションシップによりデータモデルを構築し、最終的にデータをわかりやすく可視化する、というプロセスに欠かせないもの、それが「データモデル」「データモデリング」です。

図表1 データモデリングの位置づけ

データ分析に欠かせないスタースキーマ

データモデリングの基本となるのが、販売実績データのような“分析対象となるファクトテーブル”を中心に置き、商品マスタや顧客マスタなどの“データの切り口となるディメンションテーブル”を周囲に配置するという「スタースキーマ」というデータモデルです(図表2)。

スタースキーマとは、直訳すると星形の表を意味します。

スタースキーマというデータモデルで、ファクトテーブルからディメンションテーブルに対して原則、多対一(many to one)のリレーションを設定することにより、経営管理に役立つデータ分析を行えるようになります。

ファクトテーブルを「多」、ディメンションテーブルを「1」として、データ相互をリレーションすることを通じ、目的に即した多様なデータ分析が可能となるよ

データモデリングには、スタースキーマのほかにも「スノーフレーク」などいくつかのスキーマモデルがあります。注意しなければならないのは、分析目的に合わないモデリングを採用してしまうとデータ集計や可視化が思うようにできないことがあるという点です。また、一般的にスタースキーマ以外のデータモデリングではデータモデルが複雑になり、データ処理に時間がかかるなどデメリットがあると言われています。

まずはデータ分析の基本「スタースキーマ」を理解しましょう。ポイントは、「ファクトテーブル」を中心に、その周りに「ディメンションテーブル」を配置し、「リレーションシップ」を取るということにあります。

図表2 データ分析の前提となる星形の表「スタースキーマ」

今回のポイント
・リレーションシップを的確に行うには「ファクト」と「ディメンション」に分けて考えよう

・データモデリングの基本は「スタースキーマ」

モダンExcel研究所

フォローお待ちしてます!

error: Content is protected !!