二乗検定・理論編
普段ExcelやらSPSSやらでやっている統計操作を、オープンソースの統計ソフト「R」でできるようになろう!というこのコーナー。[R言語]カテゴリをクリックすれば過去記事が読めるよ。
さて、今日は「卒論まとめてかかってこいや」特集。この時期、修論やら卒論やらのかけこみ相談が増えます。議論をひっくり返さなくていいので量的調査の論文のほうが気が楽なんですが、統計の知識が欠如してるので、こっちも勉強しながら相談に答えなきゃならんので、その点は大変です。でもテクニカルにクリアすればいいので、やはり楽です。
id:shenaapple:20050114さんの相談。
頭足描画の児童80人を4群に分け、それぞれに課題を与える(頭足描画についてはid:hidex7777:20041129#p1参照)。課題後、頭足描画のままであったのか、脱したか、のカテゴリーに分ける。4群のうち1群は統制群(折り紙を折ってもらう、という課題)。
刺激課題を行った後の描画変化(表1) | |||
頭足画でなくなった人数 | 頭足画のままだった人数 | 計 | |
パズル群 | 4 | 16 | 20 |
模写群 | 8 | 12 | 20 |
ボディイメージ群 | 10 | 10 | 20 |
統制群 | 0 | 20 | 20 |
計 | 22 | 58 | 80 |
ここでは「統制群」という用語を用いたが、「対照群(contrast group)」といったり、「制御群(control group)」といったりする。
制御群は、次のような検定に使われる。新しい治療法の効果を調べたりするときに、新しい治療を施したグループとそうでないグループとを比較しなければならない(これを「2標本検定(two-sample test)」という)。新しい治療を行なったグループを「処理群(treatment group)」といい、行なわずに比較対照の基準としての、実験を管理するためのグループを対照群、あるいは制御群という。
ここでの2標本検定の仮説はこうだ:
- :課題をこなしたことと脱頭足画は関係がない
- :課題をこなしたことと脱頭足画に関係がないとは言えない
表をみればわかるように、「脱頭足画/頭足画」という2種のカテゴリーに、データが分類された。統制群は*1すべてのデータが頭足画のまま、である。表を見たところ、「ボディイメージ群」が脱頭足画の傾向が強いようだ。
さしあたって、
- :ボディイメージ群は『有意に』脱頭足画の傾向を示していないとは言えない。
という仮説を、対立仮説(alternative hypothesis)としよう。
むろん帰無仮説(null hypothesis)は
- :ボディイメージ群は『有意に』脱頭足画の傾向を示していない。
である。
この帰無仮説をもっと積極的な言い方に直せば、
- :ボディイメージ群の観測値は、理論的な期待値に適合している(つまり独立していない)
となる。用語は以下解説する。
観測値・観測度数(Observed frequency)はここでは、のよっつで、。
理論度数・期待度数(Expected frequency)は、各カテゴリーの理論確率…が正しければ生じるであろう度数のこと。計算式は後述。
ここで変量はカテゴリー変量、すなわち質的変量であり、名義変量といってよいので、検定による適合度の検定を行なうことになる。
つまり、ここで行うのは、帰無仮説は棄却できるか、という検定であるので、「独立性への適合度の検定」だ。
ようは、ぶっちゃけたハナシ、
ボディイメージ群は(理論的)期待値に従っていない(適合していない)=ボディイメージ群には課題の効果があった、ということを結論としたい
わけだから(つまり対立仮説を採択したいわけであるから)、期待値からの「独立性への適合の検定」を行なう必要がある。
*「適合度検定」という用語解説はid:hidex7777:19320103をみてください。
ところで、「適合度の検定」で用いる検定統計量は、
で求められる。Oは観測値、Eは期待値、シグマは総和を意味する。
まずはボディイメージ群と統制群のみをあつかい、エクセルで計算。
いま、ここでやっていることを整理してみる。
ボディイメージ群と統制群の2標本検定(表2) | |||
脱頭足画 | 頭足画 | 計 | |
ボディイメージ群 | 10 | 10 | 20 |
統制群 | 0 | 20 | 20 |
計 | 10 | 30 | 40 |
帰無仮説は、「適合度の統計量を計算したとき、有意に適合的である」だった。これが棄却されないと、課題をしてもしなくても、脱頭足画するか否かが言えなくなってしまう(もちろん棄却されたからといって「脱頭足画する」と積極的に言えるわけではない)。
期待値の計算
期待値とは、2つの質的変数間にまったく関係がないと仮定したときの、行列のセルの度数のことである。
1 | 2 | 計 | |
1 | 18(0.3) | 42(0.7) | 60 |
2 | 12(0.3) | 28(0.7) | 40 |
計 | 30(0.3) | 70(0.7) | 100(1.0) |
「計」行は30、70で(合計100)、0.3:0.7の比率である。「計」列は60、40で(合計100)、0.6:0.4の比率である。すべての行列がこの比率に近ければ、変数による影響がないということだ。
第1行は18、42で(合計60)、0.3:0.7の比率。
第2行は12、28で(合計40)、0.3:0.7の比率。
第1列は18、12で(合計30)、0.6:0.4の比率。
第2列は42、28で(合計70)、0.6:0.4の比率。
つまり、「各列の周辺度数(計)の比と、各行における各列の度数の比」および「各行の周辺度数(計)の比と、各列における各列の度数の比」が一致している。
このことを数式であらわすと、
となる(は総度数、は行の周辺度数)。
表2に関して、期待値を計算する。
この数式をエクセルの各セルに記入すればよい。
5 | 15 |
5 | 15 |
まず統計量を計算しよう。
もし観測値が期待値に近い値ならばは0に近い値が出るはずで、大きい値は出ない。「大きい」かどうかを判断するためにはの分布表を使う→http://econom01.cc.sophia.ac.jp/stat/m020.htm
これによると、自由度1のとき、5%水準で上側確率(棄却域)は3.84となっている。この棄却域に入れば、対立仮説は棄却できない!(ややこしい!)
棄却域とは、「帰無仮説が棄却できる域」という意味で、対立仮説を採択できる域、という意味である(ややこしい!)。
この域に検定統計量が入らないと、帰無仮説を棄却できず(棄却域なのにネ!)、めでたく対立仮説を採択、というわけにはいかなくなる。
ハナシをもどすと、ボディイメージ群の適合度(BIと統制のカイ二乗値)は13.333だった。これは3.84を超えている。したがって帰無仮説を棄却できる(1%でも棄却できる)。[p=0.000261]
他の群でも同様の計算をしてみよう。
脱頭足画 | 頭足画 | 計 | |
パズル群 | 4 | 16 | 20 |
模写群 | 8 | 12 | 20 |
統制群 | 0 | 20 | 20 |
計 | 12 | 48 | 60 |
- パズル群:
- 模写群:
すべて3.84を超えるので、すべてのケースで帰無仮説は5%水準で棄却できます。パズル群は1%水準では棄却できない。
以上で「理論編」は終わり。次回は、これをRをつかってやってみます。
「理論編」はっきりいって自信がないので、ここがまちがっているとか、ご指摘下さい。
あと、期待値に5以下の数値が含まれる場合、イェーツ補正が必要らしいのですが、なんのことやらわかりません(数式だけわかる)。教えて。