AI::NeuralNet::Kohonen - Kohonen's Self-organising Maps

Location : Home > Languages > Perl > Package
Title : AI::NeuralNet::Kohonen

　AI::NeuralNet::Kohonen - Kohonen の自己組織化マップ

$_ = AI::NeuralNet::Kohonen->new(
   map_dim_x => 39,
   map_dim_y => 19,
   epochs    => 100,
   table     =>
"3
1 0 0 red
0 1 0 yellow
0 0 1 blue
0 1 1 cyan
1 1 0 yellow
1 .5 0 orange
1 .5 1 pink"
);

$_->train;
$_->save_file('mydata.txt');
exit;

説明

　コホーネンの自己組織化マップ（Kohonen's Self-organising Feature Maps）の Perl における実装である。高速ではないが有用である。実際、遅い。。。でも役に立つから。。
　マップの可視化の例については AI::NeuralNet::Kohonen::Demo::RGB を見よ。
　いずれここに文書を追加するかも。

依存関係

AI::NeuralNet::Kohonen::Node
AI::NeuralNet::Kohonen::Input

エクスポート

　なし

CONSTRUCTOR new

　以下のオブジェクトフィールドを初期化する。

input_file

　SOM_PAK はロードされるべき学習ファイルである。これは進行中の他の入力メソッド（input, table）を阻害しないがコンストラクタに明示的に渡されるべき特性（weight_dim）を上書きする。
　ファイルフォーマット及び METHOD load_input を見よ。

input

　学習ベクトルの配列への参照で、各ベクトルは以下の配列によって表される。

[ [v1a, v1b, v1c], [v2a,v2b,v2c], ..., [vNa,vNb,vNc] ]

　table も参照のこと。

table

　input_file フィールドに供給されるフォーマットを持ったファイルの内容。

input_names

　input ベクトルの各次元の名称。

map_dim_x map_dim_y

　生成すべき特徴マップの次元－デフォルトは19。（これは Perl の添え字付けで０から始まることに注意。）

epochs

　実行時のエポック（epoch）数。（METHOD train を見よ。）最小値は1。

learning_rate

　学習率の初期値。

train_start

　学習開始時において呼び出されるコードへの参照。

epoch_start

　各エポック開始時において呼び出されるべきコードへの参照（カラーキャリブレーションルーチンなど）。

epoch_end

　各エポック終了時において呼び出されるべきコードへの参照（ディスプレールーチンなど）。

train_end

　学習終了時において呼び出されるべきコードへの参照。

targeting

　未定義であればランダムに目標が選択される。そうでなければ到達するまで繰り返し実行される。現実的な目的のためである。

smoothing

　smooth が適用されたときはデフォルトで適用されるスムージングの回数。（METHOD smoothを見よ。）

neighbour_factor

　影響の近傍サイズが終了した後は、指数関数が適用される前にマップの次元の平均はこの変数で除される。デフォルト値は 2.5 であるが 2 か 4 がよいだろう。

missing_mask

　入力ベクトルにおいて欠損値を示すために用いられる。デフォルトは x である。

プライベートフィールド：

time_constant: 　終了すべき繰り返し（エポック）の数。マップ半径の対数以上であること。
t: 　現在のエポックまたはモーメント。
l: 　現在の学習率。
map_dim_a: 　マップ次元の平均。

METHOD randomise_map

　実数の乱数を含むノードを map に投入する。
　AI::NerualNet::Kohonen::Node/CONSTRUCTOR new を見よ。

METHOD clear_map

　METHOD randomise_map と同様であるが、あらゆる map のノードにパラメータにより提供された値または undef を設定する。

METHOD train

　学習されるべきエポックの数であるパラメータをオプションで受け取る。デフォルト値はepochs フィールドの値である。エポックは生成の数・入力ベクトルの全数から構成される。全ての生成で以下の処理を繰り返す。

入力配列から目標を選択する。（PRIVATE METHOD _select_target を見よ。）
最適適合単位を探索する。（METHOD find_bmu を見よ。）
BMU の近傍を調整する。（PRIVATE METHOD _adjust_neighbours_of を見よ。）

　各生成の終了時に学習率は減衰する。（PRIVATE METHOD _decay_learning_rate を見よ。）
　また適用可能なコールバックの詳細については CONSTRUCTOR new を見よ。
　真値を返す。

METHOD find_bmu

　特定の目標に対し、マップ内から最適適合単位（BMU; Best Matching Unit）を探索し、 x/y のインデクスを返す。
入力：目標となる配列への参照
返り値： BMU となる配列への参照（それ自体オブジェクトとして抽出されているものとする）で、以下のようにインデクスが付けられている。

0 :
提供された目標からのユークリッド距離
1, 2 :
マップにおける x 及び y の座標

METHOD get_weight_at, AI::NeuralNet::Kohonen::Node/distance_from を見よ。

METHOD get_weight_at

　提供された x, y 座標における重み配列への参照を返す。
入力：x, y 座標（スカラー）
返り値：ノードの重みである配列への参照。失敗時には undef を返す。

METHOD get_results

　提供された配列の配列への参照におけるあらゆり入力ベクトルに対する結果を探索し、result フィールド（配列参照）を更新して返す。呼び出し時のコンテキストによって配列またはそれ自体を返す。
　入力ベクトルが指定されなければ input フィールドの値を用いる。
　個々の結果値は METHOD find_bmu で記述された配列フォーマットである。
　METHOD find_bmu, METHOD get_weight_at を見よ。

METHOD map_results

　map をクリアし結果で埋める。
　パラメータのみが METHOD clear_map に渡される。
　METHOD get_results が呼び出され、結果がオブジェクトフィールド map に渡されて返される。
. 　フィールドの再使用に関する誤解のためにこれは変更されるかも知れない。

METHOD dump

　現在の重み値をスクリーンに表示する。

METHOD smooth

　マップに対しガウス平滑化を適用する。
　入力：適用する正方ガウスマスクの横幅。もし指定されなければフィールド smoothing の値を使用する。空であればマップ次元 map_dim_a の平均の平方根を用いる。
　返り値：真値。

METHOD load_input

　入力ベクトルの SOM_PAKformat フォーマットファイルを呼び出す。本メソッドは、コンストラクタが input_file フィールドを指定した場合、自動的にアクセスされる。
　必要：ファイルへのパス。
　返り値：失敗時には undef を返す。
　ファイルフォーマットを見よ。

METHOD save_file

　第１引数で特定されたパスに SOM_PAK フォーマットでマップファイルを保存する。（METHOD load_input を見よ。）失敗時には undef を、成功時には true を返す。

PRIVATE METHOD _select_target

　フィールドが定義されていない限り目標を繰り返し探索する際に input フィールドにおいて設定された学習集合から目標をランダムに返す。

PRIVATE METHOD _adjust_neighbours_of

入力：目標から BMU までの距離を含む配列への参照。マップにおける BMU の x座標と y座標及び AI::NeuralNet::Kohonen::Input オブジェクトである目標への参照。
返り値：真値

FINDING THE NEIGHBOURS OF THE BMU

                        (      t   )
sigma(t) = sigma(0) exp ( - ------ )
                        (   lambda )

ただし sigma は time (t) における任意のステージのマップの幅であり、lambda は時定数である。Lambda は time_constant フィールドである。
　マップハ半径はマップ幅の半分である。

ADJUSTING THE NEIGHBOURS OF THE BMU

W(t+1) = W(t) + THETA(t) L(t)( V(t)-W(t) )

ただし、L は学習率、V は目標ベクトル、W は重みである。THETA(t) はノードでの学習における BMU からの距離の影響を示す。これは Node クラスにより計算される。AI::NeuralNet::Kohonen::Node/distance_effect を見よ。

PRIVATE METHOD _decay_learning_rate

　学習率におけるガウス減衰を計算する。（ l フィールド）

              (       t   )
L(t) = L  exp ( -  ------ )
        0     (    lambda )

PRIVATE FUNCTION _make_gaussian_mask

入力：マスクのサイズ
返り値：マスクである２次元配列への参照

PRIVATE FUNCTION _gauss_weight

入力：２つのパラメータがあり、１つめはマスク中心からの距離を与える r であり、２つめはマスクの幅を示す sigma である。
返り値：ガウスの重み
　_decay_learning_rate を見よ。

PUBLIC METHOD quantise_error

　提供された点またはそれらの input フィールドにおける量子化誤差を返す。

PRIVATE METHOD _add_input_from_str

　input フィールドに SOM_PAK フォーマットの空白で区切られた ASCII 文字列の入力ベクトルを追加する。
　追加に失敗したときには undef を返し（おそらくコメントが渡された場合や weight_dim フラグが設定されていないため）、成功時には真値を返す。

ファイルフォーマット

　本モジュールはヘルシンキ工科大学の制定した SOM_PAK フォーマット：SOM_PAK file format version 3.1 (April 7, 1995) に適合するように作成されている。すなわち
　入力データは ASCII データで格納され、１行にそれぞれベクトルが格納されている。

　ファイルの最初の行はエントリーの状態に関する記述のために確保されている。以前のバージョンでは以下の項目の定義のために用いられていた。（これらはインデクス化さえた順に格納されねばならない。）

ベクトルの次元（整数；必須）
トポロジーの型；六角形（hexa）または四角形（rect）（文字列；オプション；大文字小文字を区別）
x 方向のマップの次元（整数；オプション）
y 方向のマップの次元（整数；オプション）
近傍の型；バブル（bubble）またはガウシアン（gaussian）（文字列；オプション；大文字小文字を区別）

...
　続く行はオプションのクラスラベル（文字列）及び学習プログラムにおける対応するデータエントリーの使用方法を定義する２つのオプションの識別子（後述）が続く固定点の数字からなる。データファイルは # から始まる任意の行数のコメントを含むことができる。（ただし各コメント行の冒頭には # が必要。）
　ベクトルの要素に欠損があれば（何かの理由でデータ収集に失敗していれば）、それは x で表現されていなければならない。その場合は処理上無視される。

...
　各データ行は学習プログラムにおける対応するデータエントリーの使用方法を定義する２つのオプションの識別子を含むことができる。識別子は codeword=value という形式であり、識別子内に空白は許されない。オプションの識別子は以下の通り。

強化因子（Enhancement factor）
例えば weight=3 のように指定する。対応する入力パターンベクトルに対する学習率にこのパラメータを乗じる。これにより学習中にこの入力ベクトルを３回繰り返すかのように参照ベクトルを更新するすることができる。（すなわち、データファイルに同じベクトルが特別に２回格納されるかのように振る舞う。）
固定点識別子（Fixed-point qualifier）
例えば fixed=2,5 のように指定する。固定点座標 (x = 2; y = 5) で定義されたマップユニットは学習のための最良適合点の替わりに用いられる。（マップ全体にわたる座標の定義については下記参照。）
　入力が既知の位置に指定されていればマップ内の望む方向を結果として返す。

（まだ）ファイルフォーマットでは実装されていないもの

hexa/rect iは視覚的なものであり、 ::Demo::RGB パッケージの要素によるものである。
近傍の型はガウシアンのみである。
欠損値に対する x
２つのオプションの識別子

参考資料

　AI::NeuralNet::Kohonen::Node/distance_from; AI::NeuralNet::Kohonen::Demo::RGB を見よ。
　利用する／しないにかかわらず、マップ構築の際の多くの助言に満ちている SOM_PAK 用ドキュメントftp://cochlea.hut.fi/pub/som_pak を見よ。
　Kohonen のアルゴリズムに関する非常に良い説明としては AI-Junkie SOM tutorial part 1 を見よ。

著者と著作権

　Perl 本体と同等の条件で利用可能である。

Updated : 2007/09/12