Statistics::Descriptive::Discrete - Compute descriptive statistics for discrete data sets.

Location : Home > Languages > Perl > Package
Title : Statistics::Descriptive::Discrete

　Statistics::Descriptive::Discrete - 離散集合に対する記述統計処理

use Statistics::Descriptive::Discrete;

my $stats = new Statistics::Descriptive::Discrete;
$stats->add_data(1,10,2,0,1,4,5,1,10,8,7);
print "count = ",$stats->count(),"\n";
print "uniq  = ",$stats->uniq(),"\n";
print "sum = ",$stats->sum(),"\n";
print "min = ",$stats->min(),"\n";
print "max = ",$stats->max(),"\n";
print "mean = ",$stats->mean(),"\n";
print "standard_deviation = ",$stats->standard_deviation(),"\n";
print "variance = ",$stats->variance(),"\n";
print "sample_range = ",$stats->sample_range(),"\n";
print "mode = ",$stats->mode(),"\n";
print "median = ",$stats->median(),"\n";

説明

　本モジュールは離散統計における基本的な関数を提供する。
　ある１点を除いてほとんどを Statistics::Descriptive::Full（Statistics::Descriptive に含まれている）に依っている。本モジュールは、例えば正の値の離散集合からなる A/D 変換を行った離散データに最適化されている。もしデータが 8 ビット A/D により生成されていれば、データセットには256個の値だけしかない。たとえ100万個のデータ点があったとしても、それぞれには256個の値しかとりえない。Statistics::Descriptive がするように全データを保持する代わりに、本モジュールは値とその個数しか保持しない。

　非常に大きなデータセットに対してはこの格納方法は処理速度とメモリ利用量において大きな改善点となる。現実のアプリケーションにおける260万データ点に対しテストした場合、Statistics::Descriptive::Full で計算すれば561秒かかるところを、Statistics::Descriptive::Discrete では40秒で処理を終える。また同じデータセットに対し Statistics::Descriptive::Full では400MBのRAMを必要としたが、Statistics::Descriptive::Discrete では4MBしか使用しない。

メソッド

$stat = Statistics::Descriptive::Discrete->new();: 　新しい statistics オブジェクトを生成する。
$stat->add_data(1,2,3,4,5);: 　statistics オブジェクトにデータを追加する。統計量が必要時に再計算されるようにフラグを設定する。
$stat->add_data_tuple(1,2,42,3);: 　２つの要素が値と要素数であるような（その値が何回発生するかを示す） statistics オブジェクトにデータを追加する。
　上記の式は $stat->add_data(1,1,42,42,42); と同じである。データが ($value, $occurrence) と同型である場合、これを用いればよい。
$stat->max();: 　データセットの最大値を返す。
$stat->min();: 　データセットの最小値を返す。
$stat->count();: 　データセットのデータ数を返す。
$stat->uniq();: 　データセットにおける互いに異なるデータ数を返す。例えばデータセットが (1,2,2,3,3,3) なら 3 を返す。
$stat->sum();: 　データセットの要素の総和を返す。
$stat->mean();: 　データの平均値を返す。
$stat->median();: 　データの中央値を返す。
$stat->mode();: 　データのモードを返す。
$stat->variance();: 　データの分散を返す。
$stat->standard_deviation();: 　データの標準偏差を返す。
$stat->sample_range();: 　データセットの標本範囲（最大値－最小値）を返す。
$stat->get_data();: 　データ配列のコピーを返す。
　注意：この配列はとても大きく、このモジュールを用いる目的に反するかも知れない。利用する前に本当に必要か確かめること。

注意

　本モジュールのインタフェースはほとんど Statistics::Descriptive と一致している。まだ十分にテストが済んでいない。

バグ

calculating mode のコードが頑強ではない。
他のバグも潜んでいるに違いない。

To Do

テストをもっと頑強にする。
Statistics::Descriptive の残りのメソッドを追加する。（少なくとも元データの順序に依存しないようにする。）

著者

　Rhet Turnbull, RhetTbull on perlmonks.org, rhettbull at hotmail.com

　もしこのコードが役に立ったのならメールで知らせてくれるとありがたい。

謝辞

　バグの発見、フィードバック、変更等を知らせてくれた以下の人たちに感謝する。

分散の計算におけるバグを発見し、修正してくれた Peter Dienes
add_data_tuple メソッドを示唆してくれた Bill Dueber

著作権

参考資料

　Statistics::Descriptive

Updated : 2007/04/13