クラスター分析とは何か?「階層的クラスター」と「非階層的クラスター」の違い、クラスター分析の手順を解説
クラスター分析とは
クラスター分析とは、異なる要素や傾向を持つ集団の中から類似性を持ったものを集めて分類するマーケティング手法のことです。
クラスター(cluster)は、集団、群れ等を指す言葉であり、様々な特性を持つ個体から類似のものを集めていくつかのグループに分類します。一般的にマーケティングを行う際には人を対象としますが、クラスター分析では商品や地域等も対象にできるといった特徴があります。
クラスター分析の種類
クラスター分析は「階層的クラスター」と「非階層的クラスター」の2種類に分類されます。
ここからは、それら2つのクラスターについて見ていきましょう。
階層的クラスター
階層的クラスターでは、データ群の中でも最も類似の対象を組み合わせて順番にまとめていき、最終的に一つのクラスターにまとめる手法です。デンドログラム(樹形図)を用いて分析を行うため、クラスターを分ける際の判断を行いやすいといったメリットがあります。
階層的クラスターの主な分析手法として以下の種類があります。
代表的な手法 | 内容 |
---|---|
ウォード法 | それぞれのデータの平方和(それぞれのデータと平均値の差を二乗した値の和)を求め、平方和が小さなものからクラスターを作っていく方法です。 |
最短距離法(最近隣法) | クラスター間の距離を「各クラスターのそれぞれ最も近い距離の個体の組み合わせ」とする方法です。 計算量が少なく、クラスターが結合できない「拡散現象」が起こりやすい特徴があります。 |
最長距離法(最遠隣法) | クラスター間の距離を「各クラスターのそれぞれ最も遠い距離の個体の組み合わせ」とする方法です。 計算量が少なく、クラスターが帯状になる「鎖現象」が起こりやすい特徴があります。 |
重心法 | クラスター間の距離を定義する際に、クラスターの重心から測る方法です。 各クラスターの重心間の非類似度からクラスターを形成します。 |
群平均法 | 2つのクラスターに属している対象の間のすべての組み合わせの距離を求め、それらの平均値をクラスター間の距離として定める手法です。 |
メディアン法 | クラスター間の重心の距離を求める際、データ数でクラスターに重みをつけて分類する手法です。 |
非階層的クラスター
非階層的クラスターでは、階層的な構造はないため、類似の対象を集団化するといった分析手法となります。非階層的クラスターは対象数が多い場合に適しているため、100万件といった膨大なデータの分析に活用できます。また、分析を行う際に時間が掛からないといったメリットもあり、作業時間の効率化にも繋げることができます。
非階層的クラスターの主な分析手法として以下の種類があります。
代表的な手法 | 内容 |
---|---|
k平均法(k-means法、最適化法) | 暫定的に決められたクラスター数に分類し、各データとクラスターの重心の距離が、別のクラスターの重心より小さくなるようにデータを再配置していく手法です。 |
超体積法 | 点集合を凸多面体とみなし、体積が最小になるようにクラスターを分割していく手法です。 |
クラスター分析の手順
分析の種類を選択
まず初めに分析を行う個体数に応じて、階層的クラスターと非階層的クラスターのどちらを利用するか判断します。個体数の目安としては以下の通りに使い分けるのが一般的です。
- 100以下:階層クラスター分析を利用する
- 100~300程度:階層クラスター分析と非階層クラスター分析を併用して使用する
- 300以上:非階層クラスター分析を行うことで個体数を分類し、個体数に応じて適切なクラスター分析を行う
分析の基準となる対象の類似度(近さ)の定義を決める
分析の種類を決定した後、類似度(近さ)の定義を決めていきます。基準を明確にし、個体数の類似を定義する必要があるため、類似の定義から選択します。
主な類似度の定義は以下の4つです。
ユークリッド距離(直線距離)
直線的距離とも呼ばれており、分散共分散行列の推定値を使い、相関が強い方向の距離は実際の距離よりも相対的に短くします。
マンハッタン距離(市街地距離)
マンハッタンや京都のような碁盤目状の道を通る距離となり、どこを通っても最短距離が等しくなります。
チェビシェフ距離
同じ次元の変数を、別の次元の変数とみなしたい場合に使用します。正方形状に進んでいく距離のため、ユークリッド距離とは異なる定義となります。
ミンコフスキー距離
ユークリッド距離とマンハッタン距離を一般化した指標であり、離れた距離の重みを増加、減少できる特徴があります。
分析手法を選択する
類似度の定義やクラスターの結合方法に適した手法を選択します。階層クラスターであればウォード法や重心法、非階層クラスターであればk平均法や超体積法等が選択肢として挙げられます。
クラスター分析の注意点
クラスター分析では、クラスターの個体数や分類の基準等、分析を行う者が試行錯誤しながら実施していくため、分析者の主観による判断が多く含まれてしまいます。
そのため、分類したデータを客観的な証拠として用いることには適していません。分析ツールとして相関分析や回帰分析を併せて行うことで客観的な分析結果を導き出すことが重要です。
参考
- https://www.profuture.co.jp/mk/column/45234(2023年3月21日確認)
- https://gmo-research.jp/research-column/cluster-analysis(2023年3月21日確認)
- https://www.onemarketing.jp/contents/cluster-re/(2023年3月21日確認)