Theoretical Sociology

太郎丸博のブログです。研究ノートや雑感などを掲載しています。(このページは太郎丸が自主的に運営しています。京都大学の公式ページではありません。)
<< December 2017 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 >>
 
RECOMMEND
後期近代と価値意識の変容: 日本人の意識 1973-2008
後期近代と価値意識の変容: 日本人の意識 1973-2008 (JUGEMレビュー »)

NHKの日本人の意識調査のデータをつっこんで分析した本です。
RECOMMEND
Labor Markets, Gender and Social Stratification in East Asia: A Global Perspective (The Intimate and the Public in Asian and Global Perspectives)
Labor Markets, Gender and Social Stratification in East Asia: A Global Perspective (The Intimate and the Public in Asian and Global Perspectives) (JUGEMレビュー »)

直下の和書の英語版です。審査を通過するためにレフェリーのコメントに従って若干修正してあります。
RECOMMEND
東アジアの労働市場と社会階層 (変容する親密圏/公共圏)
東アジアの労働市場と社会階層 (変容する親密圏/公共圏) (JUGEMレビュー »)

GCOEの成果をまとめた本です。日本を中心に韓国、台湾(中国も少し)との比較研究をしてます。
RECOMMEND
若年非正規雇用の社会学‐階層・ジェンダー・グローバル化 (大阪大学新世紀レクチャー)
若年非正規雇用の社会学‐階層・ジェンダー・グローバル化 (大阪大学新世紀レクチャー) (JUGEMレビュー »)
太郎丸 博
拙著です。非正規雇用に関する本はたくさんありますが、「なぜ正規雇用と非正規雇用では賃金格差があるのか」など当たり前と思われがちな問題を突き詰めて考えてみました。
RECOMMEND
フリーターとニートの社会学
フリーターとニートの社会学 (JUGEMレビュー »)

拙編です。オーソドックスな計量社会学の手法で、若年非正規雇用や無職にアプローチした本です。白い装丁なので、輪郭がわからないですね...
RECOMMEND
人文・社会科学のためのカテゴリカル・データ解析入門
人文・社会科学のためのカテゴリカル・データ解析入門 (JUGEMレビュー »)
太郎丸 博
拙著です。軽く読み流すのは難しいですが、まじめに一歩一歩勉強するために作りました。
ARCHIVES
RECENT COMMENT
  • アマチュア社会学の可能性
    読者 (02/20)
  • 社会システム理論の野望、あるいは全体性へのオブセッション
    宮国 (12/19)
  • 片山他 2015「図書館は格差解消に役立っているのか?」
    オカベ (12/09)
  • ランダム効果の意味、マルチレベル・モデル、全数調査データ分析
    YZ (12/07)
  • 学歴社会から「学習資本」社会へ:日本の教育と社会における階級形成の再編
    赤尾勝己 (02/11)
  • グラフィカル・モデリングとは?
    anonymous (11/30)
  • Rスクリプト覚書き:vglm関数で平行性の仮定を置かずに順序ロジット
    ほっくー (08/05)
  • 台湾の経済: 典型NIESの光と影
    おーまきちまき (07/19)
  • ペルー移民は日本でどのように社会移動を経験するのか
    佐藤悟 (03/21)
  • ペルー移民は日本でどのように社会移動を経験するのか
    佐藤悟 (03/21)
RECENT TRACKBACK
 
ランダム効果の意味、マルチレベル・モデル、全数調査データ分析

1 マルチレベル・モデルとランダム効果

最近マルチレベル・モデルに関して話をしていて、三度同じタイプの誤解に遭遇したので、この誤解を正しておきたい。マルチレベル・モデルで個人レベルとグループ・レベルという二つのレベルを持つモデルを立てるとする。このときグループは母集団から無作為に抽出されていなければならず、データは多段抽出の形を必ず取らなければならない、と主張する人がいる。もしも、あなたが抽出されていないグループにまでマルチレベル・モデルの分析結果を一般化しようとするのならば、この主張はまったく正しい。例えば近所の学校を30校手当たりしだいに(つまり無作為にではなく)選んで、その高校の生徒をさらにサンプリングして、成績を出身階層で予測するような場合、この近所の30校以外に分析結果を一般化することはできない。例えば、仮にこのデータセットでは出身階層が成績に及ぼす効果が有意にならなかったとしても、その結果を日本全国には一般化できない。これは分析結果をサンプリング・フレームの外に一般化できないと言っているだけのことで、マルチレベル・モデルに限らずあらゆる統計的推測に関して同じことが言えよう。

しかし、このようなデータセットに関して、マルチレベル・モデルを用いることそのものは問題にならない(ただし30校なのでグループの数が少ない点には注意が必要)。分析結果が30校の範囲を越えて一般化できないことを明確にしているならば、なんら問題はない。また ISSP や WVS のような国際比較調査データをマルチレベル・モデルで分析したい場合がある。この場合、国がグループ・レベルで個人が個人レベルとする。この種の国際比較調査で国をランダム・サンプリングした調査など聞いたことがないし、調査していない国にまで分析結果を一般化しようとした研究など見たことがないが、とにかくこのような国際比較データをマルチレベル・モデルで分析することは統計的に何ら問題はない。実際、こういった分析は多くの学術雑誌に掲載されているように思う。要するにサンプリング・フレームの外には分析結果を一般化できないというごく初歩的な原則を守っていさえすればマルチレベル・モデルを用いることはまったく問題にならない。

さらにいえば、グループは、別に多段抽出における抽出単位になっている必要すらない。例えば JGSS2008 のデータで、職業小分類をグループ・レベル、個人を個人レベルとしてマルチレベル・モデルで分析することも可能である。Gelman and Hill (2007) では、同年齢グループや人種をグループ・レベルとした分析例も掲載されている。

ところが、グループ・レベルに無作為抽出されていないものを指定しようとすると、「それはランダムに選ばれていないからグループ・レベルには指定できない」といった誤った批判がなされることがある。このような誤解が生じる理由の一つとして、ランダム性の源泉として、社会学ではランダム・サンプリングばかりを強調してきたことが考えられる。すなわち、マルチレベル・モデルでは、個人レベルとグループレベルで複数のランダム効果を仮定するが、このランダム効果が発生する源泉として、ランダム・サンプリングを想定していることが、この種の誤解の理由なのではないかと思われる。

私自身もそうなのだが、確かに社会学ではランダム性はランダム・サンプリングによって生じると教えることが多い。しかし、ランダムネスとはランダム・サンプリングだけでなく、測定誤差によって生じると考えることもできるし、何らかの未知の要因によって生じていると考えることもできるかもしれない。特に回帰分析におけるランダム効果は、サンプリングによって生じていると考えるよりは、測定誤差や未知の要因によって生じていると考えるほうがわかりやすい(というか、そうとしか考えられない)。単純な単回帰モデル Yi = a + bXi + ei を考えてみよう。このモデルでは残差 (ei) がランダム効果であり、平均 = 0 の正規分布をすると仮定されている。このような ei はランダム・サンプリングによって生じているのではない。次のような極端な例を考えればこのことはよくわかるだろう。下の図の左側のように X と Y が相関係数 = 1 であるような母集団を考える。
母集団とサンプルの回帰直線
この母集団では X と Y が完全に相関しているから、すべての i に関して ei = 0 である。この集団から、どのような個人をサンプリングしても、サンプルにおいても X と Y は相関係数 = 1 になることは明らかである。すなわちサンプルにおいてもすべての i に関して ei = 0 である。つまり、サンプリングによってランダム効果は生じていない。ei が 0 ではない場合、ランダム効果は母集団においてはじめから存在しているか、測定誤差によって生じたとしか考えられないのである。

同様に、マルチレベル・モデルにおけるグループ・レベルのランダム効果も、サンプリングによって生じるのではない。回帰分析やマルチレベル・モデルにおけるランダム効果とは、測定誤差や未知の要因によって生じたと考えられるのである。それゆえ、ランダム・サンプリングされていないグループをグループ・レベルに指定してはいけない、という考えは誤りである。むしろ問題なのは、このランダム効果が説明変数とは無相関だという仮定のほうであり、そちらに気を使ったほうがずっと生産的といえよう。

2 全数調査・ランダム効果・検定

似たような問題で、全数調査のデータで推定や検定をしても意味がないという批判もしばしば誤りである。全数調査であっても、ランダム効果によってたまたま生じた効果と、真の効果を区別して考えることはしばしば有益である。例えば、ある10人のグループに関して身長と幸福感の関係を調べたとしよう。これはこの10人が母集団であり、それ以上の一般化は必要ないとする。仮に身長は幸福感には何の効果も持たないが、幸福感は身長とは相関しない未知の要因(例えば前の晩よく眠れたか、とか、その日の天気)によって毎日変化するとしよう。ある日、この10人の身長と幸福感を調べたところ、以下の図の1日目(左上)のような結果が得られたとしよう。
本当は相関していない二変数の散布図
相関係数は -0.52 である。このデータをもとにこの10人の集団においては身長が高いほど幸福感が低い傾向があると言っていいだろうか。答えは NO である。翌日もう一度調べると、今度は逆にプラスの相関がみられ、その後も、日々大きく変化するのがわかるだろう。このデータは、実際には身長とは関係なくランダムに毎日幸福感が変化するようになっているだけであり、観察された相関は、たまたま生じただけなのである。 われわれが扱うデータには、常にこういったランダム効果が働いている可能性を疑うべきである。それは全数調査であっても同じことである。われわれは実際には毎日調査することはできないことが多いし、ランダム効果だからと言って毎日変化するとは限らない。都道府県を 1ケースと見なしたような分析や時系列分析では、しばしば高い変数間の相関が見られるが、これらもランダム効果によって生じている可能性があり、そのような可能性を検討するのに、推定や検定などの推測統計学の知識は非常に有効である。ちなみに、上の6つの散布図で、5% 水準で傾きが有意になっているものは一つもない(が、3日目だけは 10% 水準で有意)。つまり、検定とは母集団に対する一般化だけでなく、傾きがランダム効果によって生じた見かけだけのものかどうかを確認するためにも有効な手段となるのである。

スポンサーサイト
- | 16:33 | - | -
コメント
from: YZ   2014/12/07 3:34 AM
統計学を独習しているYZと申します。全数調査を用いた分析について解説している文献が少なく、この記事は大変勉強になりました。もし可能であればご教示いただきたいのですが、時系列データ、パネルデータについて母集団というものを観念することはできるのでしょうか。時間は無限に区切ることができるため、クロスセクションのように母集団、全数というのもが厳密には考えられないのではないかと思料しています。もちろん、経済データであれば1か月おきのデータを母集団、全数をみなすことも妥協として可能であるとは思うのですが。ご意見を伺えますと幸いです。
コメントする









 
トラックバック
この記事のトラックバックURL
http://sociology.jugem.jp/trackback/550
 

Copyright (C) 2004 paperboy&co. All Rights Reserved.

Powered by "JUGEM"