Location : Home > Methods > Statistics Title : Cluster Analysis |
![]() |
Cluster Analysis
複数の属性によって特徴つけられた類似性の指標をもって、いくつかのグループに分類する一連の手法である。
通常、以下のような手順で分析が行われる。
個体間距離の計算
距離の指標
個体をグループに分類するためには、類似度を表す指標、またはその逆に遠さを表す距離を定義する必要がある。なお、以下に記述する数式は次の2つのベクトルであらわされる距離を定義するものとする。
最も一般的に用いられる、2点間の最短距離を表す距離である。元データから直接ユークリッド距離を求める場合が多いが、測定項目によって単位系が異なるなど分散や規模が違う場合、標準化を行ったり、特に重視したい項目について重み付けを行うこともある。
2点間の座標の差の絶対値の総和として定義される距離。京都やニューヨークのように碁盤目に仕切られた市街地内で道路に沿ってしか移動するできない場合の距離を思い浮かべればよい。
上記2つの距離を一般化した距離。
以下の式で定義される距離。
ただし、Sは分散共分散行列の推定値である。
また、X は p 個の項目を持つ n 個の個体(観測対象)があることを示している。
類似度の指標
距離は「2つの個体がどれだけ遠いか」を示す指標であるが、逆に「どれだけ似ているか」を示す指標も考えることができる。
通常、相関係数は項目間の関係の分析に用いるが、各項目を正規化して個体間の類似度として用いることも可能である。
各個体における項目の総和をそれぞれの2乗和の平方根で除した値。
各個体の属する集団における項目の平均値からの偏差で表現しようとした値。
クラスターの形成
個体をクラスターに分類するには、まず類似の個体をクラスター化し、逐次的に拡大して集合全体に至るまで続ける手法と、集団全体を分割して個体を分類していく手法がある。前者はいったん形成されたクラスターから個体が離脱したり入れ替えられたりすることはなく、階層的にクラスターへの帰属関係が表現できるので階層的手法と呼ばれ、これに対し後者は非階層的手法と呼ばれる。
階層クラスター化の手法
クラスター化の階層的手法については Lance & Williams が提唱した組み合わせ的手法の中に統合される。
クラスターCiとクラスターCjが統合されてクラスターCijが形成される場合、クラスターCijに属していないクラスターCkとの距離が、統合前の距離との比較でそのクラスターを統合するか否かを決定する指標とするものである。
手法 | α | β | γ | δ |
最近隣法 | 1/2 | 1/2 | 0 | -1/2 |
最近隣法 | 1/2 | 1/2 | 0 | 1/2 |
重心法 | ni / ( ni + nj ) | nj / (ni + nj ) | ninj / ( ni + nj )2 | 0 |
メディアン法 | 1/2 | 1/2 | -1/4 | 0 |
群平均法 | ni / ( ni + nj ) | nj / (ni + nj ) | 0 | 0 |
ウォード法 | ( ni + nk ) / (ni + nj + nk ) | ( nj + nk ) / (ni + nj + nk ) | nk / (ni + nj + nk ) | 0 |
クラスター間の距離を、そのクラスターに属する点のうち、最もクラスター間の距離が小さくなるような点を代表点とする方法。この方法ではクラスターが統合されればされるほど距離が小さくなっていき、必ずしも視覚的に近いクラスターが結合されるとは限らず、鎖状に結合されていく傾向が見られる。
クラスター間の距離を、そのクラスターに属する点のうち、最もクラスター間の距離が大きくなるような点を代表点とする方法。
クラスター間の距離を、そのクラスターに属する点による重心を代表点とする方法。クラスターを統合する際にそれぞれのクラスターに含まれる個体数に配慮した方法と言える。大きなクラスターと小さなクラスターが統合される際には大きなクラスターに近い点が代表点に選ばれるべきだ、という観点に立っている。
非階層クラスター化の手法
これまで述べた方法は、どのように統合すればあらかじめ定義された指標に適しているかという点からクラスター統合の可否を判断するものであり、いったん形成されたクラスターから個々の要素が削除されることはない。しかし事後的に見た場合、ある個体が別のクラスターに分類されるべきであるということも考えられる。以下に述べる方法では、個体の置換え(クラスター間の移動)を認める手法である。
あらかじめ設定された目的関数を最適化するように個体カテゴライズを行う一連の手法を指す。
Updated : 2003/11/26
![]() |
Updated : 2003/11/26 |