第13回 星形がデータ分析に最適! データモデリング

前回第12回に引き続き、リレーションシップのお話です。

多様なデータを様々な角度から眺めることで、新たな洞察を得ることが可能となります。

データ相互のリレーションシップ

事実(Fact)の全体像を把握するには、目的に即した多様な次元(Dimension)でデータ分析する必要があります。その前提としてデータ相互のリレーションシップがポイントになります。

リレーションシップを的確に行うには「ファクト」と「ディメンション」という考え方を知っておかねばなりません。別の言い方をすれば、データを「ファクトテーブル」と「ディメンションテーブル」に分けてデータモデリングする必要性があります。

例えば、「販売実績データ」のように日々多数の実績データ(トランザクション)が存在するものが「ファクトテーブル」です。

他方、「担当者マスタ」のように一つの担当者コードに一人の担当者名が存在するという「ユニークデータ」を集約したものが「ディメンションテーブル」です。

データモデル

ここで「データモデリング」とは、データを構造化することを言います。また、データの関係性を含めて構造化されたデータの塊のことを「データモデル」と呼びます。例えるなら、ドラマの登場人物の関係性を表すことをデータモデリング、それを図示した相関図がデータモデルというイメージです。

このデータモデリングあるいはデータモデルは、データ分析の「扇のカナメ」ともいえる重要な役割を担います(図表1)。

第1回で説明しましたETL(抽出・変換・読込)によりデータを取得し、第11回で説明しましたリレーションシップによりデータモデルを構築し、最終的にデータをわかりやすく可視化する、というプロセスに欠かせないもの、それが「データモデル」「データモデリング」です。

図表1 データモデリングの位置づけ

データ分析に欠かせないスタースキーマ

データモデリングの基本となるのが、販売実績データのような“分析対象となるファクトテーブル”を中心に置き、商品マスタや顧客マスタなどの“データの切り口となるディメンションテーブル”を周囲に配置するという「スタースキーマ」というデータモデルです(図表2)。

スタースキーマとは、直訳すると「星形の表」を意味します。

スタースキーマというデータモデルで、「ファクトテーブル」から「ディメンションテーブル」に対して原則、「多対一(many to one)のリレーション」を設定することにより、経営管理に役立つデータ分析を行えるようになります。

ファクトテーブルを「多」、ディメンションテーブルを「1」として、データ相互をリレーションすることを通じ、目的に即した多様なデータ分析が可能となるよ

図表2 データ分析の前提となる星形の表「スタースキーマ」

データモデリングには、スタースキーマのほかにも「スノーフレーク」などいくつかのスキーマモデルがあります。
注意しなければならないのは、分析目的に合わないモデリングを採用してしまうとデータ集計や可視化が思うようにできないことがあるという点です。
また、一般的にスタースキーマ以外のデータモデリングではデータモデルが複雑になり、データ処理に時間がかかるなどデメリットがあると言われています。

まずはデータ分析の基本「スタースキーマ」を理解しましょう。
ポイントは、「ファクトテーブル」を中心に、その周りに「ディメンションテーブル」を配置し、「リレーションシップ」を取るということにあります。

スタースキーマ以外のデータモデル

上述のように、星形の表という意味のある「スタースキーマ」が、データモデルの基本形です。
このほかにも、いくつか定番のデータモデルがありますのでご紹介しましょう。

このように、いくつかのデータモデルがあるわけですが、それぞれに「スノーフレーク」「ギャラクシー」「大福帳」と、データベース界隈では「お決まり」のデータモデル名が付されています。
これはデータモデルにおける「業界用語」であり、データベースを扱う専門家たちの間では定番の「言い回し」です。

以前も申し上げましたが、こうした「業界用語」「専門用語」「言い回し」を使っていない文献は、基本的には「間違った2次情報」である可能性が否定できません。
実務での適用にあたっては、細心の注意が必要です。

■■■■■

「正しいモダンExcel」の使い方の基本を学ぶには、Power Query(パワークエリ)とPower Pivot for Excel(パワーピボット)の両者を「一体理解」する必要があります。
ぜひ、拙著「モダンExcel入門」(日経BP)で学んでみて欲しいと思います。
サンプルデータで、実際に手を動かしながら、理解を深めることもできます。参考にしてください。

■■■■■

「モダンExcel研究所」を楽しむ際の【注意事項】

コンテンツコピー、スクレイピングなど【厳禁】 ☚【検知ツール設置済】☚悪質な場合【法的措置】を講じます

(過負荷によるサーバー障害が生じた経験上、ご協力お願いいたします!)

今回のポイント
・リレーションシップを的確に行うには「ファクト」と「ディメンション」に分けて考えよう

・データモデルの基本は「スタースキーマ」、そのほか「スノーフレーク」「ギャラクシー」「大福帳」などのモデルもある
・モデル名に異変があれば、その情報源は「間違った2次情報」である可能性が高いので留意が必要だ

モダンExcel研究所

フォローお待ちしてます!

1件のピンバック

コメントは現在停止中です。

error: Content is protected !!