データマイニングとデータウェアハウスの違いとは?

2020年3月15日

情報処理技術者試験に出てくるデータマイニングとデータウェアハウス

IPAが運営している情報処理技術者試験にはデータマイニングデータウェアハウスに関する問題が頻出します。
何となく、同じような内容に感じられますが、試験の中ではこの両者の違いを問う問題も出てきます。
今回は情報処理技術者試験用に、データマイニングとデータウェアハウスの違いを解説していきます。

データマイニングとは何か?

まずはデータマイニングについて、簡単に説明していきます。
データマイニングとは、いわゆるビッグデータ解析で、通常業務などの中で蓄積された大量のデータに対し、ニューラルネットワークや統計解析などの手法を使って、大量に蓄積されているデータから、特徴あるパターンを探し出すことです。
ニューラルネットワークとは、「≒人工知能」と捉えてしまってよいかもしれません。こうした人工知能や統計学の力を用いて、大量のデータから、「特徴的なパターンがないか?」「何か因果関係をもつ現象はないか」というものを探していきます。

データウェアハウスとは何か?

一方、データウェアハウスとは何かを見ていきましょう。
データウェアハウスは意思決定のため、目的別に編成され、統合された時系列で、削除や更新をしないデータの集合体といわれています。これらのデータを分析の目的別に切り出して分析していきます。
OLAP(On-Line Analytical Processing)という手法を用いて、多次元的に分析を行い、意思決定を支援していきます。

データマイニングとデータウェアハウスの違いは「整理」にあり

同じ大量のデータを扱うデータマイニングとデータウェアハウスですが、違いはどこにあるのでしょうか。
両者の違いはデータが整理されているか否かにあります。
データマイニングは「採掘」を意味するマイニング(mining)という言葉を使っているように、整備されていない大量のデータの山から、金となる価値ある特徴や法則を見つけ出そうとする作業です。
一方でデータウェアハウスには、「倉庫」を意味するウェアハウス(warehouse)という言葉を用いているように、データが整理されて保管されています。
情報処理技術者試験でも、両者の違いを問われたら、情報が整理されているかどうかに注目すると、解答がしやすくなるかもしれません。