Location : Home > Languages > Perl > Package Title : Statistics::Hartigan |
![]() |
Statistics::Hartigan - Hartigan J. により提案された停止ルールの Perl 拡張
Hartigan, J. (1975). Clustering Algorithms. John Wiley and Sons, New York, NY, US.
use Statistics::Hartigan; &hartigan(InputFile, "agglo", 6, 10);
入力ファイルは稠密なフォーマットであることが想定される。サンプルは以下の通り。
6 5 1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 0 1 1 1 0 0 1
Hartigan J. は所与のデータがその中に自然に入るクラスタの数を推定するためにクラスタ内自乗和(WGSS; the Within Cluster/Group Sum of Squares)を用いている。目標は WGSS を最小化することである。
デフォルトでは "hartigan" 関数。
入力ファイル
入力ファイルは稠密な行列フォーマットであることが想定されている。
入力稠密行列はプレーンテキストファイルで、1行目はデータセットの次元が指定されており、それ以降に行列形式でデータセットがあるものとする。 contexts / observations は行(rows)で、features は列(column)そって並んでいること。
例えば
6 5 1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 0 1 1 1 0 0 1
1行目 (6 5) は、後続の行列の行(オブザベーションを示す) の数と列(フィーチャーを示す)の数を表す。
続くそれぞれの行は所与のオブザベーションの対応するフィーチャーの発生頻度を示す。フィーチャー1(1列目)はオブザベーション1に対し1回起きていること及びその他のオブザベーションでも起きていることを示し、一方、フィーチャー3はオブザベーション1では起きていないことを示す。
クラスタリング手法
クラスタリング手法(The Clustering Measures )としては以下の方法が指定できる。
K 値
これはデータセットに現れるクラスタの数のおおよその上限値である。データセットを3以上のクラスタに分割したければこの値を3以上に設定しておく必要がある。
閾値
停止ルールで停止するための閾値。 :)
(経験的に見つけられた)典型的な値は 10 である。
入力データセットに現れるクラスターの数を推定する整数。
Anagha Kulkarni, University of Minnesota Duluth, kulka020 at d.umn.edu
Guergana Savova, Mayo Clinic, savova.guergana at mayo.edu
Copyright (C) 2005-2006, Guergana Savova and Anagha Kulkarni
本プログラムはフリーソフトウェアであり、Free Software Foundation により公開された GNU General Public License (version 2 またはユーザの考えに基づきそれ以降のバージョン)の条件の下で修正/再配布してもよい。
本プログラムは有用であると考え配布されているが、 MERCHANTABILITY または FITNESS FOR A PARTICULAR PURPOSE で保証されていたとしても無保証である。詳しくは GNU General Public License を参照のこと。
本プログラムに関しては GNU General Public License のコピーを入手すべきである。もし手元になければ the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA. まで連絡を。
![]() |
Updated : 2007/01/09 |