Location : Home > Languages > Perl > Package
Title : Statistics::Hartigan
Toolbox Logo

名称

 Statistics::Hartigan - Hartigan J. により提案された停止ルールの Perl 拡張
 Hartigan, J. (1975). Clustering Algorithms. John Wiley and Sons, New York, NY, US.


概要

use Statistics::Hartigan;
&hartigan(InputFile, "agglo", 6, 10);

 入力ファイルは稠密なフォーマットであることが想定される。サンプルは以下の通り。

6 5
1   1   0   0   1
1   0   0   0   0
1   1   0   0   1
1   1   0   0   1
1   0   0   0   1
1   1   0   0   1

説明

 Hartigan J. は所与のデータがその中に自然に入るクラスタの数を推定するためにクラスタ内自乗和(WGSS; the Within Cluster/Group Sum of Squares)を用いている。目標は WGSS を最小化することである。

エクスポート

 デフォルトでは "hartigan" 関数。

入力

入力ファイル

 入力ファイルは稠密な行列フォーマットであることが想定されている。
 入力稠密行列はプレーンテキストファイルで、1行目はデータセットの次元が指定されており、それ以降に行列形式でデータセットがあるものとする。 contexts / observations は行(rows)で、features は列(column)そって並んでいること。
 例えば

6 5
1   1   0   0   1
1   0   0   0   0
1   1   0   0   1
1   1   0   0   1
1   0   0   0   1
1   1   0   0   1

 1行目 (6 5) は、後続の行列の行(オブザベーションを示す) の数と列(フィーチャーを示す)の数を表す。
 続くそれぞれの行は所与のオブザベーションの対応するフィーチャーの発生頻度を示す。フィーチャー1(1列目)はオブザベーション1に対し1回起きていること及びその他のオブザベーションでも起きていることを示し、一方、フィーチャー3はオブザベーション1では起きていないことを示す。

クラスタリング手法

 クラスタリング手法(The Clustering Measures )としては以下の方法が指定できる。

  1. rb - Repeated Bisections (デフォルト)
  2. rbr - Repeated Bisections for by k-way refinement
  3. direct - Direct k-way clustering
  4. agglo - 凝集型クラスタリング(Agglomerative clustering)
  5. graph - Graph partitioning-based clustering
  6. bagglo - Partitional biased Agglomerative clustering

K 値

 これはデータセットに現れるクラスタの数のおおよその上限値である。データセットを3以上のクラスタに分割したければこの値を3以上に設定しておく必要がある。

閾値

 停止ルールで停止するための閾値。 :)
 (経験的に見つけられた)典型的な値は 10 である。

出力

 入力データセットに現れるクラスターの数を推定する整数。

要請

  1. 本モジュールはクラスタリングのためにCLUTO と呼ばれる C プログラムを必要とする。
    CLUTO は本モジュールを機能させるために必要である。CLUTO は http://www-users.cs.umn.edu/~karypis/cluto/ からダウンロード可能である。

参考資料

  1. Hartigan, J. (1975). Clustering Algorithms. John Wiley and Sons, New York, NY, US.
  2. http://www-users.cs.umn.edu/~karypis/cluto/

著者

 Anagha Kulkarni, University of Minnesota Duluth, kulka020 at d.umn.edu
 Guergana Savova, Mayo Clinic, savova.guergana at mayo.edu


著作権とライセンス

 Copyright (C) 2005-2006, Guergana Savova and Anagha Kulkarni

 本プログラムはフリーソフトウェアであり、Free Software Foundation により公開された GNU General Public License (version 2 またはユーザの考えに基づきそれ以降のバージョン)の条件の下で修正/再配布してもよい。
 本プログラムは有用であると考え配布されているが、 MERCHANTABILITY または FITNESS FOR A PARTICULAR PURPOSE で保証されていたとしても無保証である。詳しくは GNU General Public License を参照のこと。
 本プログラムに関しては GNU General Public License のコピーを入手すべきである。もし手元になければ the Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA. まで連絡を。

Toolbox Logo
Updated : 2007/01/09