Location : Home > Languages > Perl > Package
Title : Statistics::CalinskiHarabasz
Toolbox Logo

名称

 Statistics::CalinskiHarabasz - Calinski-Harabasz指標によるクラスタリング


概要

use Statistics::CalinskiHarabasz;

&ch(InputFile, "agglo", 10);

 入力ファイルは稠密であることが想定されている。サンプル入力ファイルは以下の通り。

6 5
1     1     0     0     1
1     0     0     0     0
1     1     0     0     1
1     1     0     0     1
1     0     0     0     1
1     1     0     0     1

説明

 C&H は所与のデータが自然に入るクラスタの数を推計するために F-統計値に似た分散比指標(Variance Ratio Criterion)を用いる。クラスタ内距離二乗和(WGSS; Within Cluster/Group Sum of Squares)を最小化し、クラスタ間距離二乗和(BGSS; Between Cluster/Group Sum of Squares)を最大化する。

エクスポート

 ch 関数がデフォルトでエクスポートされる。


入力

入力ファイル

 入力データセットは稠密な行列フォーマットであることが期待されている。
 入力稠密行列はプレーンテキストで、第1行はデータセットの次元を表し、それ以降で行列形式でデータセットを指定する。コンテキスト/オブザベーション(contexts / observations)が行で示され、フィーチャ(features)は列で表される。

eg:
6 5
1     1     0     0     1
1     0     0     0     0
1     1     0     0     1
1     1     0     0     1
1     0     0     0     1
1     1     0     0     1

 第1行 (6 5) は、その後に続く行列の行の数(observations の数)と列の数(features の数)を指定する。
 以降のそれぞれの行は、所与のオブザベーションに対しそれぞれのフィーチャの発生頻度を示している。このように、フィーチャ1(第1列)はオブザベーション1において1度発生しており、他のオブザベーションでも全て発生していることを示し、フィーチャ3はどのオブザベーションでも起こっていないことを示す。

クラスタリング法

 利用可能なクラスタリング法は以下の通り。

  1. rb - 反復二分法(Repeated Bisections):デフォルト
  2. rbr - K-way 改良反復二分法(Repeated Bisections for by k-way refinement)
  3. direct - 直接 K-way クラスタリング(Direct k-way clustering)
  4. agglo - 凝集クラスタリング(Agglomerative clustering)
  5. graph - グラフ分割クラスタリング(Graph partitioning-based clustering)
  6. bagglo - 分割バイアス凝集クラスタリング(Partitional biased Agglomerative clustering)

K 値

 これはデータセット内に現れるクラスタの数の上限の推定値である。データセットが3以上のクラスタに分割されると期待しているなら、この値は3より大きい値にしておかねばならない。


出力

 入力データセットに対し計算されるクラスタの数の推定値。


稼動条件

  1. 本モジュールはクラスタリング用に開発された C プログラムの束 CLUTO を利用している。
    CLUTO がこのモジュール用にインストールされていることを想定する。
    CLUTO は http://www-users.cs.umn.edu/~karypis/cluto/ からダウンロードできる。

参考資料

  1. T. Calinski and J. Harabasz. "A dendrite method for cluster analysis. Communications in statistics", 3(1):1--27, 1974.
  2. http://www-users.cs.umn.edu/~karypis/cluto/

著者

 Anagha Kulkarni, University of Minnesota Duluth, kulka020 at d.umn.edu
 Guergana Savova, Mayo Clinic, savova.guergana at mayo.edu


著作権とライセンス

 Copyright (C) 2005-2006, Guergana Savova and Anagha Kulkarni

  本プログラムはフリーソフトウェアであり、Free Software Foundation により公開された GNU General Public License (version 2 またはユーザの考えに基づきそれ以降のバージョン)の条件の下で修正/再配布してもよい。
 本プログラムは有用であると考え配布されているが、 MERCHANTABILITY または FITNESS FOR A PARTICULAR PURPOSE で保証されていたとしても無保証である。詳しくは GNU General Public License を参照のこと。
 本プログラムに関しては GNU General Public License のコピーを入手すべきである。もし手元になければ the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA. まで連絡を。

Toolbox Logo
Updated : 2007/02/13