独立性の検定2(クロス表)。

今日もだらだらと。
昨日の続き。昔のPCを検索していたら、「社会調査データ解析システム」というExcelのアドインがみつかったのでそれをためしてみることにした。これは放送大学教材の『改訂版 社会調査の基礎 (放送大学教材)』(リンクは2003年版。ぼくが持ってるのは2001年版)向けに開発されたシェアウェア(?)で、2500円もする(高!)。CD-ROMで買ったんだけど、どっかに行ってしまった。

これは非常に使いやすい。Excelの分析ツールが使いづらいうえに関数にもいろいろと問題があるので、統計処理はExcel単体ではほとんど役にたたない。このアドインはVBAで開発されているので、たぶん問題は解決済みでありましょう。このアドインを組み込んだExcelとRを同時に立ち上げておけば、自宅のPCで、統計処理はほぼ完璧に行なえる。

ためしに、

  • Q50「同性間の性的関係について、あなたの考えは以下のどれですか。」(4値の場合)

  • 性別
  • 年代

のクロス表を作ってカイ二乗検定までやってみる。

性別
カイ二乗 自由度 P値 判定  
20.42610802 3 0.000138498 ** **:1%有意,*:5%有意

というわけで性別に関しては1%水準で帰無仮説が棄却される。

年代
カイ二乗 自由度 P値 判定  
617.5321395 18 1.6884E-119 ** **:1%有意,*:5%有意

年代に関しても1%水準で帰無仮説は棄却。

では、昨日やったみたいに、4値を2値化してやってみよう。「同性愛は良いのか悪いのか?」ってシンプルな回答にしてしまうのだ。

性別
カイ二乗 自由度 P値 判定  
20.38269723 1 6.34005E-06 ** **:1%有意,*:5%有意

むむむ?カイ二乗値もP値も、昨日Rで求めた値と違うではないか。どういうこった。
なんでこんな事態になるのか後で調べることにしよう。いや、ていうか、自分で調べてもたぶんわかりません。教えてください。すみません。(ひょっとしてイェーツ補正?Rでは自由度が1だとイェーツ補正を行なう)

年代
カイ二乗 自由度 P値 判定  
471.7260635 6 1.03266E-98 ** **:1%有意,*:5%有意

う、こっちはカイ二乗値が同じだ。P値は計算が面倒なのでやめておくけれど。自由度6だからRではイェーツ補正が行なわれず、同じになったということなのかなあ。



さて、相関係数も求めてみよう。この「データ解析システム」ではデータが質的データか量的データかをあらかじめ定義しなければならない。で、このばあい質的データをむりやり量的データとして計算するので、まったく同じデータ列(変数)を量的データとして定義した新しい変数を作って、それから回帰分析にかける。

性別
相関係数 0.087111966
決定係数 0.007588495
自由度調整済み決定係数 0.007218744
標準誤差 0.490662938
データ数 2686

相関係数はRで計算した値と同じだった。寄与率(決定係数)がとても低いけど、目的は独立性の検定なので、これはオマケです。

年代
相関係数 0.40764876
決定係数 0.166177512
自由度調整済み決定係数 0.165866847
標準誤差 0.449753096
データ数 2686

こちらはピアソンの積率相関係数はいっしょで、クラメール係数とはちょっと違いましたね。(つまりこのアドインの「重回帰分析」はピアソンの積率相関係数を計算している、という、それだけのことだけど)
まあ、これもおまけです。






グラフも作ってみた。
Excelの100%積み上げ捧では%表示できないのだけれど、http://book.mycom.co.jp/support/e1/xlsgokui4/からダウンロードできる「データラベル追加アドイン」を使えばツールバーから簡単に%表示できるようになる。
白黒なのは論文に使いまわしできるようにするため。