Statistics::CalinskiHarabasz - Perl extension to the cluster stopping rule proposed by Calinski and Harabasz (C&H)

Location : Home > Languages > Perl > Package
Title : Statistics::CalinskiHarabasz

　Statistics::CalinskiHarabasz - Calinski-Harabasz指標によるクラスタリング

use Statistics::CalinskiHarabasz;

&ch(InputFile, "agglo", 10);

　入力ファイルは稠密であることが想定されている。サンプル入力ファイルは以下の通り。

6 5
1     1     0     0     1
1     0     0     0     0
1     1     0     0     1
1     1     0     0     1
1     0     0     0     1
1     1     0     0     1

説明

　C&H は所与のデータが自然に入るクラスタの数を推計するために F-統計値に似た分散比指標（Variance Ratio Criterion）を用いる。クラスタ内距離二乗和（WGSS; Within Cluster/Group Sum of Squares）を最小化し、クラスタ間距離二乗和（BGSS; Between Cluster/Group Sum of Squares）を最大化する。

エクスポート

　ch 関数がデフォルトでエクスポートされる。

入力

入力ファイル

　入力データセットは稠密な行列フォーマットであることが期待されている。
　入力稠密行列はプレーンテキストで、第１行はデータセットの次元を表し、それ以降で行列形式でデータセットを指定する。コンテキスト／オブザベーション（contexts / observations）が行で示され、フィーチャ（features）は列で表される。

eg:

6 5
1     1     0     0     1
1     0     0     0     0
1     1     0     0     1
1     1     0     0     1
1     0     0     0     1
1     1     0     0     1

　第１行 (6 5) は、その後に続く行列の行の数（observations の数）と列の数（features の数）を指定する。
　以降のそれぞれの行は、所与のオブザベーションに対しそれぞれのフィーチャの発生頻度を示している。このように、フィーチャ１（第１列）はオブザベーション１において１度発生しており、他のオブザベーションでも全て発生していることを示し、フィーチャ３はどのオブザベーションでも起こっていないことを示す。

クラスタリング法

　利用可能なクラスタリング法は以下の通り。

rb - 反復二分法（Repeated Bisections）：デフォルト
rbr - K-way 改良反復二分法（Repeated Bisections for by k-way refinement）
direct - 直接 K-way クラスタリング（Direct k-way clustering）
agglo - 凝集クラスタリング（Agglomerative clustering）
graph - グラフ分割クラスタリング（Graph partitioning-based clustering）
bagglo - 分割バイアス凝集クラスタリング（Partitional biased Agglomerative clustering）

K 値

　これはデータセット内に現れるクラスタの数の上限の推定値である。データセットが３以上のクラスタに分割されると期待しているなら、この値は３より大きい値にしておかねばならない。

出力

　入力データセットに対し計算されるクラスタの数の推定値。

稼動条件

本モジュールはクラスタリング用に開発された C プログラムの束 CLUTO を利用している。
CLUTO がこのモジュール用にインストールされていることを想定する。
CLUTO は http://www-users.cs.umn.edu/~karypis/cluto/ からダウンロードできる。

参考資料

T. Calinski and J. Harabasz. "A dendrite method for cluster analysis. Communications in statistics", 3(1):1--27, 1974.
http://www-users.cs.umn.edu/~karypis/cluto/

著者

　Anagha Kulkarni, University of Minnesota Duluth, kulka020 at d.umn.edu
　Guergana Savova, Mayo Clinic, savova.guergana at mayo.edu

著作権とライセンス

　　本プログラムはフリーソフトウェアであり、Free Software Foundation により公開された GNU General Public License （version 2 またはユーザの考えに基づきそれ以降のバージョン）の条件の下で修正／再配布してもよい。
　本プログラムは有用であると考え配布されているが、 MERCHANTABILITY または FITNESS FOR A PARTICULAR PURPOSE で保証されていたとしても無保証である。詳しくは GNU General Public License を参照のこと。
　本プログラムに関しては GNU General Public License のコピーを入手すべきである。もし手元になければ the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA. まで連絡を。

Updated : 2007/02/13