2008年05月31日

比率の検定と角変換

中心極限定理によれば

平均μ、分散σ2である何らかの分布からサンプリングされたデータの平均値は、平均μ、 分散σ2/(サンプリング数)の正規分布に従う。

とされる。だから、サンプリングされたデータの平均値について、「もとの集団の平均値は○○% の確率でサンプルの平均値±△△の間にある」とか言える。が、 平均値の分布が正規分布に従うために必要なサンプル数というのはかなり多いので、 多くの場合はサンプルが少なくても使えるt分布というものを使う。 t分布はサンプル数が少ないときに若干すそが広いという特徴があるが、サンプル数が多くなればほとんど正規分布と同じになる。

いずれにせよ、平均値の分布する幅を推定するには元となる集団の分散、母分散(t分布の場合は推定された分散である不偏分散) が必要となる。そして、平均値の差についての検定では、比較するサンプルの母分散が等しいという場合において、 2つのサンプルの差がこれだけになる確率はどれだけなのか?ということを問うのである。

要は、平均値の分布の仕方に基づいた「平均値の差の検定」を使うためには、 母集団の分散が等しい必要がある、ということである。

「母集団の分散」なんてものは実際には推定するしかないわけで、本当に等しいかどうかはわからない。それに、 平均値に依存してばらつきの仕方が変わるかもしれない。たとえば、小さいものの大きさよりも大きいものの大きさの方がばらつきが大きい、 というようなことは大いにありそうである。ありそうだが、差の検定をする場合はそんなことは無視する。無視しても大して問題はない、 と前向きに考える。

しかしながら、「平均値」というものが二項分布に従う「比率」である場合(たとえば、コインを10枚投げたときの表が出た枚数で、 このような試行はベルヌーイ試行と呼ぶ)は、そんな風に前向きに考えていてはいけない。なぜなら、「比率」の分散は「ありそう」ではなくて 「明らかに」比率に依存している。比率の分散の計算に試行が成功する確率が入ってくるのが原因だが、直感的には 「ほとんど成功する、ほとんど失敗するような試行ほどばらつきが少なく、成功と失敗が半々となるような試行でもっともばらつきやすい」 と考えると理解しやすい。上限と下限があるものだから、ばらつきが押さえ込まれるのだ。 天井効果とかフロアー効果とか言うらしい。

そのため、二項分布に従うようなデータについてt分布や正規分布を利用して平均値とそのばらつきを推定、差の検定をしてみても、 比率によってばらつきの仕方が異なるので検定の妥当性が問題になることがある。

実際に、成功と失敗の割合を0〜100%まで変化させて行ったベルヌーイ試行(試行回数20)において、 その平均値のばらつきを次に示す。

 Rplot001

50%付近でばらつきがもっとも大きくなる。平均のばらつき方そのものが実際にこのような変化をしているので、 t分布や正規分布を用いて平均値の分布を正しく予想できたとしても、それを差の検定に使うのが難しいのだ。

では、平均値から計算できるもので、比率によらず分散が同じになるようなものはないだろうか。そういうものがあるならば、 それの値を比較することで平均値の差の比較の代替とすることができるはずだ。

で、そういうものは実際にある。それは成功した回数の比率をpとして、次のような変換によって得られる値だ。

temp1

arcsinというのはsinの逆関数で、0〜1までの値を与えるとそれをsinとして持つ角度を返してくれる。そこで、 この変換は角変換、または逆正弦変換、アークサイン変換などと呼ばれる。

角変換後の値のばらつきを次に示す。

Rplot003

まあおおよそ同じになっていることがわかるだろう。変換前に比べれば大分マシだ。

ところでこの値のばらつきの大きさがわからないと検定に使えないが、 この値はサンプル数をnとして分散が1/4nとなることが知られている。よってこれらの情報を用いて統計処理をすればいいということになる。 なお、比率が0の場合と1の場合は当然分散が0となるのだが、0の場合は1/4nを、 1の場合は1-1/4nを分散の値として用いるという決まりになっている。

これにてめでたしめでたし。

なのだが、もう一度この図を見てほしい。

Rplot001

「別に中央付近だったら値はそれほど変わらないじゃないか。」

そのとーり。30〜70%くらいまでの範囲だったら別に角変換をしてもしなくても結果が変わることはまずない。

そもそも分散が等しくないことが問題なのだから、等分散という仮定をおかない(ノンパラメトリックな) 統計処理を行えばそれで事足りる。

しかしながら、等分散を前提条件として必要とする多重比較や分散分析を行いたいという場合もあるかもしれない。 そういうときには角変換をしたほうが良いような気がするが、別に無視して普通に統計処理した結果を参考にしても問題はないと思う。ただ、 誰かに発表するような場合には「比率の統計=角変換」 といった断片的な情報だけを持っている人間を黙らせるために効果を発揮するかもしれないので角変換をしておくといいかもしれない。

重要なのはその「差」にどんな意味があるのか、ということだろう。「成功率が1%違った。統計的に有意な差があった。」 と言ってみても、「1%の差」に統計的以外の意味がなければ、「そんな小さな差がなんだ」という話になってしまう。そして、「1%の差」 が統計的に有意となるか否かは、サンプル数次第なのである。 完全にidenticalな処理などというものは存在し得ないという立場に立てば、ほとんど同一に見える2集団から得られたデータでも、 サンプル数次第でほぼ確実に「有意な差」が検出される。大量のサンプルにより導かれた「統計的な差」というのは大した意味をもたない。

角変換は重要で有用な手法なのだが、統計的な結果に対する説得力をわずかに増す以上の効果はない、ということは忘れないようにしたい。

グラフも見ずに「比率の検定?角変換しないと!」みたいな条件反射はよくない。まずは標準誤差を付けたグラフの観察からすべき。 値次第では、手元の道具(Excelとか)を使って普通の平均値の差の検定をしたっていい。

最後に今回使ったRのスクリプトを。

Xvar <- numeric(101)
Xarcvar <- numeric(101)
Xmean <- numeric(101)
X <- numeric(200)
Xtheta <- numeric(200)
for(j in 0:101){
 x <- c(rep(1,j),rep(0,101-j))
 for(i in 1:200){
a <- sample(x,20,replace=T)
X[i] <- mean(a)
Xtheta[i] <- acos(sqrt(mean(a)))
}
 Xmean[j+1] <- mean(X)
 Xvar[j+1] <- var(X)
 Xarcvar[j+1] <- var(Xtheta)
 }
plot(Xvar)
plot(Xmean)
plot(Xarcvar)

説明は省略。まー動かしてみてください。

参考

posted by Rion778 at 23:46 | Comment(0) | TrackBack(1) | 勉強ノート | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス: [必須入力]

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL(言及がない、関連がないと判断した場合削除することがあります)
http://blog.seesaa.jp/tb/98740363
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック

アークサイン
Excerpt: 渡米から11日経過、なんてブログパーツに表示されていますね。分母は270の予定なので、逆算で259日ということですね。時間の感覚はこっちに来て...
Weblog: Faux camaieu
Tracked: 2008-09-05 09:57
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。