Location : Home > Languages > Perl > Package Title : Statistics::CalinskiHarabasz |
![]() |
Statistics::CalinskiHarabasz - Calinski-Harabasz指標によるクラスタリング
use Statistics::CalinskiHarabasz; &ch(InputFile, "agglo", 10);
入力ファイルは稠密であることが想定されている。サンプル入力ファイルは以下の通り。
6 5 1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 0 1 1 1 0 0 1
C&H は所与のデータが自然に入るクラスタの数を推計するために F-統計値に似た分散比指標(Variance Ratio Criterion)を用いる。クラスタ内距離二乗和(WGSS; Within Cluster/Group Sum of Squares)を最小化し、クラスタ間距離二乗和(BGSS; Between Cluster/Group Sum of Squares)を最大化する。
ch 関数がデフォルトでエクスポートされる。
入力ファイル
入力データセットは稠密な行列フォーマットであることが期待されている。
入力稠密行列はプレーンテキストで、第1行はデータセットの次元を表し、それ以降で行列形式でデータセットを指定する。コンテキスト/オブザベーション(contexts / observations)が行で示され、フィーチャ(features)は列で表される。
6 5 1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 0 1 1 1 0 0 1
第1行 (6 5) は、その後に続く行列の行の数(observations の数)と列の数(features の数)を指定する。
以降のそれぞれの行は、所与のオブザベーションに対しそれぞれのフィーチャの発生頻度を示している。このように、フィーチャ1(第1列)はオブザベーション1において1度発生しており、他のオブザベーションでも全て発生していることを示し、フィーチャ3はどのオブザベーションでも起こっていないことを示す。
クラスタリング法
利用可能なクラスタリング法は以下の通り。
K 値
これはデータセット内に現れるクラスタの数の上限の推定値である。データセットが3以上のクラスタに分割されると期待しているなら、この値は3より大きい値にしておかねばならない。
入力データセットに対し計算されるクラスタの数の推定値。
Anagha Kulkarni, University of Minnesota Duluth, kulka020 at d.umn.edu
Guergana Savova, Mayo Clinic, savova.guergana at mayo.edu
Copyright (C) 2005-2006, Guergana Savova and Anagha Kulkarni
本プログラムはフリーソフトウェアであり、Free Software Foundation により公開された GNU General Public License (version 2 またはユーザの考えに基づきそれ以降のバージョン)の条件の下で修正/再配布してもよい。
本プログラムは有用であると考え配布されているが、 MERCHANTABILITY または FITNESS FOR A PARTICULAR PURPOSE で保証されていたとしても無保証である。詳しくは GNU General Public License を参照のこと。
本プログラムに関しては GNU General Public License のコピーを入手すべきである。もし手元になければ the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA. まで連絡を。
![]() |
Updated : 2007/02/13 |