重回帰分析に向うよ2

後回しにしていた「教育年数」変数について検討するよ。
JGSS-2001では面接票の問28で本人・配偶者・父親・母親の最終学歴を聞いている。で、コーディングは「旧制尋常小学校」とか「旧制師範学校」とかでなされていて、ようするにカテゴリカルデータ(なのはいいのだけど、教育年数がこのままではわからない)。
これを「何年教育を受けたか」という「教育年数」に数値化しなければならない。どう数値化するかは「情報メディアとしてのインターネット――HP利用層の分析」という論文の数値化を借用した。

こうだね:

旧制尋常小学 6
旧制高等小学 8
旧制中学校・高等女学院 11
旧制実業高校 11
旧制師範学校 13
旧制高校旧制専門学校高等師範学校 14
旧制大学旧制大学 17
新制中学校 9
新制高校 12
新制短大・高専 14
新制大学 16
新制大学 18

これ、Excelのif式つかうとダメだ。関数のネストが7までだ!(see:http://www.hirokiazuma.com/archives/000135.html
VBAでselect case!
で、既卒か在学中か中退かは問わないことにした(簡便のため)。

……とここまで書いて、いろいろデータを出力したりして素晴らしいことに気づいた!

旧制と新制で、教育年数がかぶるのが「14年」のときだけなのだ!(ううう)
ヒストグラム書くのには、もともとのカテゴリカルデータの方がうってつけだ!


まず目を引くのは、「年代」効果が強すぎて、「教育年数」が変数として使えそうもない、ということ(こういう場合どうしたらいいのですか?)。
なにしろ旧制師範学校を出ている5人は、なんのためらいもなく(「非該当」なし)、全員「同性愛悪い」と答えている。旧制大学を出ている16人は、「非該当」(無回答)を除くと全員が「同性愛悪い」と答えている。
しかしまあ、ここだけサンプルとして取り出すと、こんなに少ないサンプルではなにも言えやしないけれど……

新制では、短大・高専がもっとも寛容だ。たしかに学歴効果はあるのだけれど(アメリカでは学歴の効果が高く、学歴が高いほど寛容)、大学、大学院になると(短大・高専よりも)非寛容になる。これはちょっと興味深い。

また、これもサンプル数はとても少ないのでなんとも言えないけど、自分の学歴が「わからない」と答えた6人は寛容で、学歴の質問に答えなかった(非該当)18人は非寛容だった。

アメリカとの比較のためにも「教育年数」はぜひとも回帰式に加えたかったのだけど、これじゃ無理なのかな?どうですか?