DWH・BI・データマイニングまとめ|経営判断を支えるデータ活用の仕組みを図解で整理

高頻度難易度 ★★☆
コンビニで「なぜ来店直後に欲しい商品が棚に並んでいるのか」と考えたことはあるでしょうか。あれは偶然ではなく、POSデータの蓄積と分析の積み重ねです。どの店舗で、いつ、誰が、何をどれだけ買ったか——そのデータを整理・分析して経営判断に活かす仕組みが、DWH・BI・データマイニングです。経営情報システムの試験でも近年の出題ウエイトが高まっているテーマですので、全体の流れをひとつの地図として整理してみました。
目次

データ活用の全体像

企業に蓄積されたデータが経営判断につながるまでには、いくつかの層を通過します。業務システムで生まれたデータが整理・統合されてDWHに入り、BIツールで可視化・分析され、意思決定に届く——この流れを先に把握しておくことが、各用語を理解する近道になります。

STEP 01
業務系DB
(OLTP)
POSレジ・受注・
会計・在庫管理
STEP 02
ETL処理
抽出・変換・
格納
STEP 03
DWH
統合・時系列で
蓄積
STEP 04
BIツール
/ データマイニング
OLAP・ダッシュ
ボード・パターン発見
STEP 05
経営判断
品揃え・価格・
人員配置

コンビニのPOSシステムは業務系DB(OLTP)の典型例です。一方、「先月の全店舗売上を曜日・時間帯別に集計したい」という分析は、日々の処理とは性質が異なります。そのための専用の箱がDWHで、分析ツールがBIです。

DWH(データウェアハウス)とは

DWH(Data Warehouse)は、経営判断のために複数の業務システムのデータを統合し、時系列で蓄積する専用のデータベースです。日々の業務処理を担う通常のDBとは目的が異なり、「分析のために最適化された倉庫」とイメージするとわかりやすいでしょう。

Subject-Oriented
主題指向
特定の分析テーマ(売上・顧客・商品など)を中心に構成されます。業務処理の効率化ではなく、意思決定支援が目的です。
Integrated
統合化
複数の業務システムや部門のデータを統一フォーマットに変換して格納します。「店舗Aは”男性”、店舗Bは”M”」という表記ゆれを解消します。
Time-Variant
時系列
データに時刻情報が付与され、過去の履歴を保持します。「去年同月比」「5年間のトレンド」といった時系列分析が可能になります。
Non-Volatile
不揮発性
一度格納されたデータは削除・更新されません。分析の再現性を保証するため、読み取り専用に近い運用が基本です。
比較項目 OLTP(業務系DB) OLAP(DWH系)
主な目的 日々の業務トランザクション処理 多次元データの分析・集計
操作の単位 1件ずつの登録・更新・削除 大量データの一括集計・参照
応答速度 ミリ秒単位(超高速) 秒〜分単位(大量処理)
データ量 比較的少量(直近データ中心) 大量(数年分の履歴)
更新頻度 頻繁(リアルタイム) 定期バッチ(日次・週次など)
典型例 POSレジ・銀行ATM・受注システム 売上分析・購買パターン分析
データマートとの関係
DWH全体から特定の部門・用途向けにデータを切り出した小型倉庫がデータマートです。「マーケティング部門用」「営業部門用」のように目的を絞ることで、BIツールからの検索が高速になります。DWHが百貨店の巨大倉庫なら、データマートは各フロアの在庫棚、というイメージです。

BI(ビジネスインテリジェンス)ツール

BI(Business Intelligence)ツールは、DWHに蓄積されたデータを分析・可視化して意思決定を支援するソフトウェア群です。経営者が「どの地域の売上が落ちているか」を画面一枚で把握できるようにする仕組みが、BIの本質です。

ダッシュボード
複数の指標(KPI)をグラフ・数値で一画面に表示します。「売上・在庫・顧客数をリアルタイムで監視する」といった経営管理の中心機能です。Tableauや Power BI が代表的なツールです。
ドリルダウン
大きなカテゴリから詳細に掘り下げる操作です。「全国売上 → 関東 → 東京 → 新宿店」というように、上位の集計から下位の明細へ深掘りできます。
スライシング
多次元データの特定の一面(スライス)を切り出す操作です。「2025年4月のデータだけ」「東京都のデータだけ」のように、ある次元を固定して断面を見ます。
ダイシング
複数の次元を組み合わせてデータを切り分ける操作です。「2025年4月 × 東京都 × 20代女性」のように、複数条件を掛け合わせてキューブ(立方体)の一部を取り出すイメージです。
U

OLAP操作の4種類は名前が似ていて混乱しやすいです。整理の鍵は「縦横どちらに動くか」。ドリルダウン/ロールアップは深さ方向(詳細⇔集約)、スライシングは一枚切り出し、ダイシングは複数条件の組み合わせ——と区別すると覚えやすくなります。語呂は「ダウンして深く、アップして戻る、スライスは薄切り、ダイスは角切り」で。

ドリルダウン
上位集計から詳細へ掘り下げる。「年→月→日」「全国→都道府県→市区町村」
集約→詳細
ロールアップ
詳細データを集約して上位に戻す。ドリルダウンの逆操作。
詳細→集約
スライシング
特定の次元の値を1つ固定して断面を切り出す。「4月だけ」
1次元固定
ダイシング
複数の次元を組み合わせてデータを絞り込む。「4月×東京×20代」
複数次元

データマイニング

データマイニングとは、大量のデータの中から、人間が気づきにくい法則・パターン・知識を統計的・機械学習的手法で発見することです。「データを掘る(マイニング)」という名のとおり、価値ある情報を地層から掘り出すイメージです。通販サイトの「この商品を買った人はこちらも購入しています」というレコメンドも、アソシエーション分析の応用です。

METHOD 01
クラスター分析
似た特性を持つデータをグループ(クラスター)に分類する手法です。正解ラベルなしで自動的に分類できる教師なし学習の代表例です。
例:顧客を「購買頻度・単価」でセグメント分け
METHOD 02
決定木分析
「YES/NOの質問」を木構造で繰り返して分類・予測する手法です。結果が視覚的に理解しやすく、根拠も説明しやすいのが特徴です。
例:「年収は?→既婚か?→子どもは?」でローン審査
METHOD 03
アソシエーション分析
「Aを買うとBも買う」という同時購買パターンを発見します。支持度・信頼度・リフト値の3指標で評価します。
例:「ビールとおむつが同時購買される」という発見
METHOD 04
回帰分析
変数間の関係を数式で表し、連続値を予測する手法です。最もシンプルな線形回帰から、複数の説明変数を使う重回帰分析まで幅広く使われます。
例:気温と傘の売上の関係から翌日の需要を予測

アソシエーション分析の3指標

支持度(Support)
「AとBが同時に購買されたトランザクションの割合」。ルールがどれだけ広く当てはまるかを示します。
信頼度(Confidence)
「Aを買った人の中でBも買った割合」。ルールの確からしさを示します。
リフト値(Lift)
「Aを買うとBが売れやすくなる度合い」。1より大きければ正の相関があります。1は無関係を意味します。

ETL・データレイク・ビッグデータ

DWHにデータを取り込む前工程がETL、よりカジュアルにデータを蓄える仕組みがデータレイク、そしてそもそもの「扱うデータの規模・性質」を表すのがビッグデータです。近年の試験ではこれらが組み合わせて問われることが増えています。

Extract
E:抽出
複数の業務システム(基幹系DB・POSログ・Webアクセスログ等)からデータを取り出します。
Transform
T:変換
フォーマット統一・クレンジング・コード変換を行います。異なるシステム間の「表記ゆれ」をここで解消します。
Load
L:格納
変換済みのデータをDWHに格納します。通常は夜間バッチで定期的に実行され、日次・週次でDWHを更新します。
比較項目 DWH(データウェアハウス) データレイク
格納するデータ 構造化データ(テーブル形式)に整形済み 構造化・非構造化データをそのまま蓄積
データの形式 スキーマ定義が先(Schema-on-Write) 読み出し時に構造化(Schema-on-Read)
主なユーザー BI担当者・経営者・アナリスト データサイエンティスト・機械学習エンジニア
用途 定型レポート・ダッシュボード 探索的分析・AI/MLモデルの学習データ
費用 比較的高コスト 低コスト(生データを大量保存できる)

ビッグデータの3V

V
Volume(量)
データ量
テラバイト・ペタバイト規模の膨大なデータ量。従来のRDBMSでは処理しきれないほどの規模です。
V
Variety(多様性)
データ種別
テキスト・画像・動画・センサーデータ・SNS投稿など、構造化・非構造化を問わず多様な形式が混在します。
V
Velocity(速度)
発生・処理速度
リアルタイム・ストリーミングデータのように、高速で発生し続けるデータを即時処理する必要があります。
U

DWHとデータレイクは「整理してから入れるか、とりあえず全部入れるか」の違いだと理解すると混乱しにくいです。DWHは目的が決まっている棚付き倉庫、データレイクは何でも放り込める巨大な物置、という感じでしょうか。AIやMLが台頭してから「とりあえず全部保存しておく」というデータレイク思想が広まった背景もセットで覚えておくと、設問の文脈が読めるようになります。

過去問で確認する

令和3年度 第13問(経営情報システム) DWH・OLAP
データウェアハウスの特性に関する記述として、最も適切なものはどれか。
  • ア 日々の業務トランザクションを高速に処理するために最適化されている
  • イ データは頻繁に更新・削除され、最新情報のみが保持される
  • ウ 複数の業務システムのデータを統合し、時系列で蓄積・保存する ← 正解
  • エ 特定の部署のみが使用することを前提に設計されている
解説
DWHの4特性(主題指向・統合化・時系列・不揮発性)から考えます。ア・イは業務系DB(OLTP)の説明です。エはデータマートの説明に近く、DWH自体は全社横断的なデータを扱います。ウが「統合化」と「時系列」の2特性を正しく表しており、正解です。
平成30年度 第14問(経営情報システム) データマイニング・アソシエーション
小売業のPOSデータを用いてアソシエーション分析を行ったところ、「ビールを購入した客の70%がおむつも購入している」という結果が得られた。この70%が表している指標として最も適切なものはどれか。
  • ア 支持度(Support)
  • イ 信頼度(Confidence) ← 正解
  • ウ リフト値(Lift)
  • エ 相関係数
解説
「Aを買った人の中でBも買った割合」が信頼度(Confidence)です。支持度は「全トランザクションの中でAとBが同時購買された割合」、リフト値は「Aがある場合にBが売れやすくなる度合い(信頼度÷Bの支持度)」です。問題文の「ビールを購入した客の中で」という条件付きの割合が信頼度の定義に一致します。
令和4年度 第16問(経営情報システム) ビッグデータ・ETL
ビッグデータの特性を表す「3V」の組み合わせとして、最も適切なものはどれか。
  • ア Volume・Visibility・Validity
  • イ Volume・Variety・Value
  • ウ Volume・Variety・Velocity ← 正解
  • エ Versatility・Velocity・Validity
解説
ビッグデータの3VはVolume(量)・Variety(多様性)・Velocity(速度)です。この3つは提唱者のダグ・レイニー(Doug Laney)が2001年に定義したもので、診断士試験でも繰り返し問われる基本知識です。「Value(価値)」や「Veracity(正確性)」を加えた4V・5Vという整理もありますが、まず3Vを確実に押さえることが重要です。
U のまとめメモ
  • DWHの4特性(主題指向・統合化・時系列・不揮発性)は、OLTP(業務系DB)との対比で覚えると試験で判断しやすくなります
  • OLTP vs OLAP は「1件ずつの処理」vs「大量データの集計分析」という目的の違いが核心です
  • OLAP操作4種は「縦(深さ)方向か、横(断面)方向か」で整理すると混同しにくくなります
  • アソシエーション分析の3指標(支持度・信頼度・リフト値)は定義を言語化できるレベルまで理解しておくと記述問題にも対応できます
  • ETL(抽出→変換→格納)はDWHの入口工程として、近年の設問で問われるようになっています
  • ビッグデータ3V(Volume・Variety・Velocity)は語呂で「量・多様・速度」とセットで確認するのが確実です
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

中小企業診断士試験勉強中のアラフィフシングルマザーです。
大学卒業後から現在まで、数々の失敗をしながらずっと自営業として試行錯誤を重ねてきました。
もっときちんと経営やビジネスの知識を身につけて、将来は他の事業者の方のお役にも立てたらいいな、と思うようになり、中小企業診断士の試験に挑戦中です。

目次