独立性の検定2(クロス表)。
今日もだらだらと。
昨日の続き。昔のPCを検索していたら、「社会調査データ解析システム」というExcelのアドインがみつかったのでそれをためしてみることにした。これは放送大学教材の『改訂版 社会調査の基礎 (放送大学教材)』(リンクは2003年版。ぼくが持ってるのは2001年版)向けに開発されたシェアウェア(?)で、2500円もする(高!)。CD-ROMで買ったんだけど、どっかに行ってしまった。
これは非常に使いやすい。Excelの分析ツールが使いづらいうえに関数にもいろいろと問題があるので、統計処理はExcel単体ではほとんど役にたたない。このアドインはVBAで開発されているので、たぶん問題は解決済みでありましょう。このアドインを組み込んだExcelとRを同時に立ち上げておけば、自宅のPCで、統計処理はほぼ完璧に行なえる。
ためしに、
- Q50「同性間の性的関係について、あなたの考えは以下のどれですか。」(4値の場合)
と
- 性別
- 年代
のクロス表を作ってカイ二乗検定までやってみる。
性別 | ||||
---|---|---|---|---|
カイ二乗値 | 自由度 | P値 | 判定 | |
20.42610802 | 3 | 0.000138498 | ** | **:1%有意,*:5%有意 |
というわけで性別に関しては1%水準で帰無仮説が棄却される。
年代 | ||||
---|---|---|---|---|
カイ二乗値 | 自由度 | P値 | 判定 | |
617.5321395 | 18 | 1.6884E-119 | ** | **:1%有意,*:5%有意 |
年代に関しても1%水準で帰無仮説は棄却。
では、昨日やったみたいに、4値を2値化してやってみよう。「同性愛は良いのか悪いのか?」ってシンプルな回答にしてしまうのだ。
性別 | ||||
---|---|---|---|---|
カイ二乗値 | 自由度 | P値 | 判定 | |
20.38269723 | 1 | 6.34005E-06 | ** | **:1%有意,*:5%有意 |
むむむ?カイ二乗値もP値も、昨日Rで求めた値と違うではないか。どういうこった。
なんでこんな事態になるのか後で調べることにしよう。いや、ていうか、自分で調べてもたぶんわかりません。教えてください。すみません。(ひょっとしてイェーツ補正?Rでは自由度が1だとイェーツ補正を行なう)
年代 | ||||
---|---|---|---|---|
カイ二乗値 | 自由度 | P値 | 判定 | |
471.7260635 | 6 | 1.03266E-98 | ** | **:1%有意,*:5%有意 |
う、こっちはカイ二乗値が同じだ。P値は計算が面倒なのでやめておくけれど。自由度6だからRではイェーツ補正が行なわれず、同じになったということなのかなあ。
さて、相関係数も求めてみよう。この「データ解析システム」ではデータが質的データか量的データかをあらかじめ定義しなければならない。で、このばあい質的データをむりやり量的データとして計算するので、まったく同じデータ列(変数)を量的データとして定義した新しい変数を作って、それから回帰分析にかける。
性別 | |
---|---|
重相関係数 | 0.087111966 |
決定係数 | 0.007588495 |
自由度調整済み決定係数 | 0.007218744 |
標準誤差 | 0.490662938 |
データ数 | 2686 |
重相関係数はRで計算した値と同じだった。寄与率(決定係数)がとても低いけど、目的は独立性の検定なので、これはオマケです。
年代 | |
---|---|
重相関係数 | 0.40764876 |
決定係数 | 0.166177512 |
自由度調整済み決定係数 | 0.165866847 |
標準誤差 | 0.449753096 |
データ数 | 2686 |
こちらはピアソンの積率相関係数はいっしょで、クラメール係数とはちょっと違いましたね。(つまりこのアドインの「重回帰分析」はピアソンの積率相関係数を計算している、という、それだけのことだけど)
まあ、これもおまけです。
グラフも作ってみた。
Excelの100%積み上げ捧では%表示できないのだけれど、http://book.mycom.co.jp/support/e1/xlsgokui4/からダウンロードできる「データラベル追加アドイン」を使えばツールバーから簡単に%表示できるようになる。
白黒なのは論文に使いまわしできるようにするため。