データマイニングとデータウェアハウスの違いとは？

2020年3月15日2023年1月27日

このサイトの運営者

山脇弘成（SSAITS代表）

PMP®有資格者・Webプロジェクトマネージャー。
大手メディアや官公庁のWebプロジェクト実績多数。
「技術」だけでなく「対話」を重視し、御社の「ほんとは、こうしたかった」を形にします。

情報処理技術者試験に出てくるデータマイニングとデータウェアハウス

IPAが運営している情報処理技術者試験にはデータマイニングとデータウェアハウスに関する問題が頻出します。
何となく、同じような内容に感じられますが、試験の中ではこの両者の違いを問う問題も出てきます。
今回は情報処理技術者試験用に、データマイニングとデータウェアハウスの違いを解説していきます。

データマイニングとは何か？

まずはデータマイニングについて、簡単に説明していきます。
データマイニングとは、いわゆるビッグデータ解析で、通常業務などの中で蓄積された大量のデータに対し、ニューラルネットワークや統計解析などの手法を使って、大量に蓄積されているデータから、特徴あるパターンを探し出すことです。
ニューラルネットワークとは、「≒人工知能」と捉えてしまってよいかもしれません。こうした人工知能や統計学の力を用いて、大量のデータから、「特徴的なパターンがないか？」「何か因果関係をもつ現象はないか」というものを探していきます。

データウェアハウスとは何か？

一方、データウェアハウスとは何かを見ていきましょう。
データウェアハウスは意思決定のため、目的別に編成され、統合された時系列で、削除や更新をしないデータの集合体といわれています。これらのデータを分析の目的別に切り出して分析していきます。
OLAP（On-Line Analytical Processing）という手法を用いて、多次元的に分析を行い、意思決定を支援していきます。

データマイニングとデータウェアハウスの違いは「整理」にあり

同じ大量のデータを扱うデータマイニングとデータウェアハウスですが、違いはどこにあるのでしょうか。
両者の違いはデータが整理されているか否かにあります。
データマイニングは「採掘」を意味するマイニング（mining）という言葉を使っているように、整備されていない大量のデータの山から、金となる価値ある特徴や法則を見つけ出そうとする作業です。
一方でデータウェアハウスには、「倉庫」を意味するウェアハウス（warehouse）という言葉を用いているように、データが整理されて保管されています。
情報処理技術者試験でも、両者の違いを問われたら、情報が整理されているかどうかに注目すると、解答がしやすくなるかもしれません。