Location : Home > Methods > Statistics
Title : Sampling
Toolbox Logo

Sampling

 何かを解析する際、特に人工的な環境から取得したものではないデータを解析する際には、全数を対象とすることはまず不可能と言ってよい。したがって何らかの標本抽出作業が必要となる。

標本抽出の方法

 調査の対象となるすべての要素の集合を母集団と言う。
 これに対し、母集団の中から実際に調査するために選ばれた一部の要素の集合を標本(sample)、標本を選ぶ作業をことを標本抽出(sampling)と言う。標本を抽出して行う調査のことを標本調査と言う。
 標本調査を行う際には可能な限り抽出された標本が母集団の特性を反映していることが望ましい。しかしながら完全には全体の縮図とはならず、仮に全数調査をした場合との間に誤差が生じる。これを標本誤差(sampling error)と言う。この標本誤差をできるだけ小さくするために様々な標本抽出方法が提唱されている。

単純無作為抽出法(任意無作為抽出法)

 確率的事象に基づいて無作為に標本を抽出する方法を単純無作為抽出法と言う。この方法では母集団の全ての要素が同じ確率で抽出される。要するにくじ引きやさいころを振って選ぶことと同じであるが、通常は母集団の全要素に通し番号を振り、無作為になるよう乱数表を利用して該当する番号を抽出すると言う方法を用いる。

系統抽出法

 前述の単純無作為抽出法は原理的には正しいが、実際の作業としては(特に標本数が多くなった場合には)面倒なものである。これを容易sにするために、抽出の方法に規則性を持たせる方法を系統抽出法と言う。
 よく行われる系統抽出法は等間隔抽出法と呼ばれるもので、通常は母集団の全要素に通し番号を振り、1つめの標本抽出は無作為に行い、残りの要素の抽出は一定間隔あいた番号のものを順に選んでいくというものである。

層別抽出法(層化抽出法)

 母集団が性格の異なる複数の小集団に分かれており、その分布が結果に影響を与えると考えられる場合、その小集団ごとに抽出を行うことで母集団の構成を再現することが望ましい。このような小集団ごとの抽出を層別抽出法と言う。
 例えば母集団の人数が1,000人で、そのうち700人が男性で残り300人が女性であり、そこから10人だけ抽出するとする。もし無作為に10人抽出すると、全員が男性になるかも知れないし、男性1人・女性9人などと偏った(と見なされる)構成になる恐れがある。扱う問題によってはそれでよいかも知れないが、男性700人から7名、女性300人から3名を選ぶようにしたほうが全体の縮図となるであろう。

二段無作為抽出

 データが全て手許にあるなら問題とならないが、例えば日本全国からデータを収集するとき、全対象に番号を振って無作為に抽出すると、それぞれの対象にアクセスしてデータを集める作業自体が大変なことになってしまうことになる。このようなとき、町や丁目、字と言った単位をいくつか抽出し、その中で標本を抽出するという作業を踏む場合がある。このような方法を二段無作為抽出と言う。
 最初の地域の選択を第1次抽出と言い、その抽出単位内の個別の対象の抽出を第2次抽出と言う。この方法では収集対象が地域的に近接することになるため、便利である。
 しかしこの第1次抽出の結果が母集団をうまく反映していないと意味がない結果をもたらすことになる危険がある。

二相抽出法

 前述の層別抽出を行うには、層別にみた母集団での分布がわかっているとともに、その各要素がどの層に属するか予めわかっていなければならない。「予めわかっている」ということは実はかなり大変なことで、必ずしもこの条件が満たされているとは限らない。そのような時は母集団からまず多数の標本を抽出しておき、この標本について層別に必要な事項を調査して、その予備統計処理の結果に基づいて層別した上で、標本抽出を行うことになる。この方法を二相抽出法(標本層別抽出法)と言う。

標本誤差・標本数の決定

標本誤差

 単純無作為抽出法による標本誤差は、標本数がある程度大きければ、信頼水準95%で、(N:母集団の要素数、n:標本数、P:母集団における比率、p:標本における比率 として)おおよそ

標本誤差

と示すことができる。N が (N - n)/(N - 1) ≒ 1 と見なせることと、n もある程度大きく、Pが 0 や 1 に近くない時には p を P の代わりに用いてもよいことがわかっている。したがって信頼水準95%で比率の標本誤差は、

標本誤差の推計値

と示すことができる。すると、この値がどの水準に収まればよいかで、標本数 n を決定することができる。

標本数の決定

 上の式を n について解くと、必要な標本数を求めることができる。

標本数

 実際には回収率は100%でないことが多いので、その分をさらに割り増した標本数が必要である。

 なお、この計算はあくまで単純無作為抽出法によるもので、他の抽出方法にはそのまま適用できるものではないが、おおよその目安として利用することができる。

Toolbox Logo
Updated : 2007/04/17