Theoretical Sociology

太郎丸博のブログです。研究ノートや雑感などを掲載しています。(このページは太郎丸が自主的に運営しています。京都大学の公式ページではありません。)
<< December 2019 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 >>
 
RECOMMEND
後期近代と価値意識の変容: 日本人の意識 1973-2008
後期近代と価値意識の変容: 日本人の意識 1973-2008 (JUGEMレビュー »)

NHKの日本人の意識調査のデータをつっこんで分析した本です。
RECOMMEND
Labor Markets, Gender and Social Stratification in East Asia: A Global Perspective (The Intimate and the Public in Asian and Global Perspectives)
Labor Markets, Gender and Social Stratification in East Asia: A Global Perspective (The Intimate and the Public in Asian and Global Perspectives) (JUGEMレビュー »)

直下の和書の英語版です。審査を通過するためにレフェリーのコメントに従って若干修正してあります。
RECOMMEND
東アジアの労働市場と社会階層 (変容する親密圏/公共圏)
東アジアの労働市場と社会階層 (変容する親密圏/公共圏) (JUGEMレビュー »)

GCOEの成果をまとめた本です。日本を中心に韓国、台湾(中国も少し)との比較研究をしてます。
RECOMMEND
若年非正規雇用の社会学‐階層・ジェンダー・グローバル化 (大阪大学新世紀レクチャー)
若年非正規雇用の社会学‐階層・ジェンダー・グローバル化 (大阪大学新世紀レクチャー) (JUGEMレビュー »)
太郎丸 博
拙著です。非正規雇用に関する本はたくさんありますが、「なぜ正規雇用と非正規雇用では賃金格差があるのか」など当たり前と思われがちな問題を突き詰めて考えてみました。
RECOMMEND
フリーターとニートの社会学
フリーターとニートの社会学 (JUGEMレビュー »)

拙編です。オーソドックスな計量社会学の手法で、若年非正規雇用や無職にアプローチした本です。白い装丁なので、輪郭がわからないですね...
RECOMMEND
人文・社会科学のためのカテゴリカル・データ解析入門
人文・社会科学のためのカテゴリカル・データ解析入門 (JUGEMレビュー »)
太郎丸 博
拙著です。軽く読み流すのは難しいですが、まじめに一歩一歩勉強するために作りました。
ARCHIVES
RECENT COMMENT
  • 阪大を去るにあたって: 社会学の危機と希望
    charlestonblue (10/08)
  • Cohen et. al 2011 「フェミニズムの方法論的インパクト: 社会学のやっかいな問題?」
    abe daijyu (10/05)
  • アマチュア社会学の可能性
    読者 (02/20)
  • 社会システム理論の野望、あるいは全体性へのオブセッション
    宮国 (12/19)
  • 片山他 2015「図書館は格差解消に役立っているのか?」
    オカベ (12/09)
  • ランダム効果の意味、マルチレベル・モデル、全数調査データ分析
    YZ (12/07)
  • 学歴社会から「学習資本」社会へ:日本の教育と社会における階級形成の再編
    赤尾勝己 (02/11)
  • グラフィカル・モデリングとは?
    anonymous (11/30)
  • Rスクリプト覚書き:vglm関数で平行性の仮定を置かずに順序ロジット
    ほっくー (08/05)
  • 台湾の経済: 典型NIESの光と影
    おーまきちまき (07/19)
RECENT TRACKBACK
 
『多重時系列モデル』 (Brandt and Williams 2006)

Patrick T. Brandt and John T. Williams, 2006, Multiple Time Series Models, SAGE.
Vector Auto Regression (VAR) の概説書。回帰分析では、一方が独立変数で他方が従属変数といった具合に因果の向きが明確であればよいのだが、実際にはそうではない場合もけっこうある。時系列データを使った回帰分析の場合も事情は同様なので、双方向の因果も想定した分析が必要な場合も多い。構造方程式モデリング (Structural Equation Modeling: SEM) の応用もなされているようだが、誤差の系列相関など通常の SEM のソフトウェアでは簡単に扱えない問題も多い(M-Plus なら扱えるのかもしれないが)。

VAR はこのような時系列データの双方向の因果関係を扱うためのアプローチである。モデルは単純で、例えば Xt, Yt, Ztという三つの変数の間に因果関係が想定される場合、すべての変数のラグ変数を何時点か前まで遡ってとって、それらを独立変数として回帰分析する。すなわち、



である。何時点前までラグ変数をとるのかは、データへのフィッティングによって決める。ただし、残差 dt, et, ft は互いに相関しているが、系列相関の類はないと仮定して同時推定する。係数は通常の最小二乗法 (Ordinary Least Square: OLS) で推定しても一致推定量が得られるそうである(ただし、自由度や標準誤差は同時推定したほうが正確なのだろう)。要するに互いのラグ変数に回帰させているだけである。そして、モデルからある変数を取り除いた時(ある変数のパラメータをゼロに固定した場合)、フィッティングが低下するならば、その取り除いた変数は従属変数にたいして、効果があると考える。このような考え方をグランジャー因果性 (Granger Causality) という。さらに、ある変数の値の変化が、他の変数の値の将来の値にどの程度の影響をおよぼすかを計算する。これを インパルス応答分析 (Impulse Response Analysis) という。他にもモデルからの予測値と実測値の差の分散を、3つの内生変数の成分として分割して、相対的な影響力を計るというやりかたもある。これは Decomposition of the Forecast Error Variance (予測誤差分散分解?)と呼ばれる。こういった一連の分析を VAR (Vector Auto Regression) と呼ぶようである。

VAR の特徴は、真の因果メカニズムの特定をしようとするのではなく、互いが互いの予測にどの程度役立つかで因果関係を判定しようとする点(Granger Causality をの採用)であると Brandt と Williams は言う。通常の回帰分析ではモデルが真のメカニズムに合致しているかどうかが問題になるが、VAR は最初からそれをあきらめている。予測に役立つからといって因果的な効果があるとは限らないので、Granger Causality にはとうぜん批判があるわけだが、実際にはデータだけから真のメカニズムを特定するのは非常に困難なので、こういう考え方が現実的であるという主張にも説得力はある。

ただ、この本は入門書としてはまったくダメで、初学者が読んでもさっぱりわからないと思う。すでに VAR をある程度知っている人ならば、それなりに学ぶ点はあるのかもしれないが、記述は抽象的で 全 84 ページ中、最初の 58 ページはまったく具体的な数値例など出てこない。59ページから応用例になるのだが、これも教科書に記載する例にしては微妙すぎるものだし、誤植も多い。明らかにこの緑本シリーズの趣旨から逸脱したテキストで、残念。

逸脱の拡散:フィールド実験による割れ窓理論の検証 Keiser et al. 2008

Kees Keizer, Siegwart Lindenberg and Linda Steg, 2008, "The Spreading of Disorder," Science, Vol.322 No.5908, pp.1681-1685.
割れ窓理論をフィールド実験で検証した論文。割れ窓理論とは、割れた窓や道に散乱したゴミ、落書きのような無秩序の兆候が、別タイプの逸脱や軽犯罪の増加を促す、という仮説。しかし、割れ窓理論に対しては経験的な批判がかなりあり、証拠は不十分 (mixed) であると Keiser, Lindenberg and Steg は言う。

オリジナルの割れ窓理論がどのようなメカニズムを想定しているのは知らないが、Keiser らは次のようなメカニズムを想定している。彼らによると、規範には指令的規範 (injunctive norm) と記述的規範 (descriptive norm) があるという。指令的規範とは、「ゴミを捨てるな」「落書きするな」といった指令を指し、社会学でふつう規範と呼んでいるものとほぼ同じである。いっぽう記述的規範とは、ある状況下で共通に行われている行動や行動パターンを指す(これは社会学者なら「規範」とは呼ばない)。例えば「誰もゴミを捨てていない」「誰も落書きをしていない」といった状況が記述的規範となる。これはタルコット・パーソンズのいう規範的秩序 vs 事実的秩序とほぼ一致する概念セットといえる。Cialdini という心理学者によれば、指令的規範は、記述的規範と一致している方が、一致していない場合よりも、よく順守される。例えば、「ゴミを捨てるな」という指令的規範は、実際に誰もゴミを捨てていないという記述的規範のもとのほうが、ゴミが散乱している(ゴミを捨ている人が多数いる)という記述的規範のもとよりも、よく順守されるだろう。このような効果を Keiser らは Ciardini 効果と呼んでいる。 Ciardini 効果は単なる模倣や同調行動として説明できるし、「多くの人がやっている行為はきっと合理的なのだろう」といったヒューリスティックでも説明可能である。

割れ窓理論は、単にゴミの散乱がさらなるゴミの投棄を引き起こす(Ciardini 効果)だけでなく、もっと大きな逸脱(窃盗などの犯罪)を生むことを主張しているのだが、これは Ciardini 効果だけでは説明できない。なぜならゴミの投棄と窃盗はまったく別の行為であり、単なる模倣や上記のようなヒューリスティックでは説明がつかないからである。そこで Keiser らは以下のような心理的メカニズムを想定することで、割れ窓理論を擁護しようとしている。人間は指令的な規範を守り、ちゃんと振る舞いたい (behave appropriately)、という目標 (goal) を持っているが、それだけでなく、気持ちよさ (feeling better) や快楽を求めたり (hedonic)、自分の持つ資源 (resources) を守ったり、増やしたりしたいという目標も持っている(資源については説明がないが、金銭や財産、権力などだろう)。これらの目標は対立することもあるが、指令的規範からの逸脱(つまり指令的規範と記述的規範の食い違い)を観察すると、一般に指令的規範を順守したいという目標は弱まり、快楽や資源を得ようという目標が強まる。これが逸脱を引き起こすという理屈である。このような心理的メカニズムが働くならば、ゴミの投棄も窃盗の増加につながるはずである。

Keiser らは以上のような仮説を検証するために、6種類のフィールド実験を行い、すべてにおいて仮説を支持するような結果を得ている。一つだけ紹介すると、郵便ポストに 5 ユーロ入った封筒を引っ掛けておく(下の写真 [p. 1684 より転載] を参照)。封筒には透明の窓があり、お金が入っていることがわかるようにしてある。

KeizerLindenbergSteg2008
実験群では、ポストの周りにゴミを散乱させておく。この状況に一人で通りがかった人がこの封筒の中の 5 ユーロを盗むかどうかを調べる。いっぽう対照群では、ポストの周りはきれいにしておく。そしてやはりこの状況で一人で通りがかった人がこの封筒の中の 5 ユーロを盗むかどうかを調べる。ゴミがあると 72 人中の 24% が盗んだが、ゴミがない状況では 71 人中の 13% が盗んだ。5% 水準で有意差がある。

こんな実験、どうやってやるんだろう、というところが一番気になったが(警察の許可とかどうするんだろう? 被験者は罪に問われないだろうが、お金は返してもらうのだろうか? あとで事情を説明するのだろうか?)、割れ窓理論を支持する結果になっており、おもしろかった。合理的選択理論風に言うと、状況によって効用関数が変化する(あるいは効用関数は通常、行為の結果に対して効用を割り当てるが、行為の結果だけでなくよりおおきな文脈や状況を定義域とする関数だと考えることになる)ということだろうか。ありそうな話ではあるが、きっちり実験したことによって面白い研究になっていると思う。フィールド実験、ちょっと勉強してみたくなった。

Allison 2002 『欠損データ』

欠損値処理法の入門書。重回帰分析や因子分析のような多変量解析では、すべての変数の値がデータとして得られているということが前提になっていることが多い。しかし、実際には無回答など幾つかの理由から、幾つかの変数に関して、データが得られないケースが生じることがしばしばある。このような欠損値が生じた場合、リストワイズ法とペアワイズ法が伝統的な処理法として知られている。しかし、近年では最尤法や多重代入法といった方法が発展しており、これらの解説が本書の中心になっている。

興味深いのは、Allison がリストワイズ法の利点をかなり強調している点である。リストワイズ法は、かなり広範な条件下で、一致推定量を得られるそうで、欠損値がそれほど多くなければしばしば正しいデータ処理法であるとされている。ただし、リストワイズ法では半分以上のサンプルが分析から除外されてしまうような場合、最尤法や多重代入法が有効かもしれない。リストワイズ法では、一つでも欠損値のあるケースは分析から除外されてしまうので、大半の変数の値がわかっていても、それらの情報をすべて捨ててしまうことになるのであるが、最尤法や多重代入法は、それらの情報を活用することで標準誤差を小さくすることが期待できる。

ただし、最尤法や多重代入法は Missing at Random (MAR) を仮定した分析法であり、それが成り立たなければやはり幾つかの条件下でバイアスを完全に補正することはできない。 MAR とは、ある変数 Y が欠損値になる確率は Y の値には依存していない、という意味である。ただし、別の変数 X の値によって Y の欠損値になる確率が影響を受けてもよい(それでも MAR になりうる)。例えば、性役割意識を尋ねる質問項目が欠損値になる確率が、その人の性役割意識の強さに依存していないならば、別の変数(例えば、性格の真面目さや忙しさ)に依存していても MAR は成り立つ。それゆえ、難しい価値判断を迫る質問項目では欠損値が多く生じるが、それはその人の価値判断に依存しているというよりも、性格や忙しさなど別の要因に依存していると考えられるので、こういう場合は、MAR が成り立っており、最尤法や多重代入法が有効であると期待できる。いっぽう収入や資産は、収入や資産の多い人ほど欠損値になりやすいと考えられるので、MAR は成り立っておらず、最尤法や多重代入法でもバイアスを除去できるとは限らない。

以下、思ったことをメモ。

  1. 回帰分析では説明変数に関して MAR が成り立っていなくても、被説明変数が MAR ならばやはり一致推定量が得られる。ただし、被説明変数が欠損値になるかどうかに影響する変数が説明変数として投入されているか、説明変数とは独立というのが大前提である。またロジスティック回帰分析の場合、被説明変数が MAR でなくても一致推定量が得られるそうで、それは当然そうだろうと思うが、カテゴリカル変数の場合、連続変数よりも欠損値によるバイアスに対してロバストという印象を受けた。しかし、どの程度一般的なのかは不明。
  2. またある変数が欠損値になるかどうかを決定するメカニズムが交互作用項等を含む複雑なものである場合、一般的にどのようなバイアスが生じるか、など考えだすと夜も眠れなくなりそう。
  3. 正規分布を仮定できる場合、最尤法が簡単で、ややこしい価値判断を迫る質問はだいたい連続変数で正規分布を仮定できることもけっこうあるので、そういう場合は最尤法が有効だろう。Allison もだいたいそんな感じの意見を述べている。
  4. MAR が成り立たない場合の欠損値処理法も2,3触れられているが、どれも仮定が強すぎて、本当にバイアスを補正できているのかまったく確信が持てない。Heckman の二段階推定も触れられていたが、バイアスが大きくなりやすいことが強調されていた。

Finite Mixture Models の誤用に注意
Finite Mixture Models の誤用に注意という記事を書いたのでよろしければご笑覧下さい。この種の記事はこのブログに書いてきたのだが、いま R Markdown を試しに使っているところで、この文書も R Markdown で HTML 形式に書き出している。ブログには貼り付けにくそうなので、ふつうのサーバー上にファイルをおいている。ブログに統合する方法をご存じの方はお教え下さい。
構造方程式モデルでパネル・データの因果分析 Finkel 1995

Steven Eric Finkel, 1995, Causal Analysis with Panel Data, SAGE.
構造方程式モデル (Structural Equation Models: SEM) でパネル・データを分析する方法について概説した本。近年、日本でもパネル・データの蓄積が進み、パネル・データの分析法もかなり普及してきた。そのような文脈では計量経済学のテキストが参照されることが多く、固定効果モデルのような方法がよく用いられている印象がある。しかし、そういった分析法の多くは SEM の枠組みでも扱えることが知られている。両者の違いや長短などについてはよくわからないが、この本は、SEM を使ったパネル・データの分析、特に内生性の扱いについて論じてある。内生性については、前回の Paxton et al. 2011 の記事で紹介したので、そちらを参照されたい。なお、最近は「因果分析」という言葉を、傾向スコア分析のような方法に限定して使うような用法が出てきているようであるが、ここではもっと広い意味合いで用いられている。

双方向の因果関係や誤差項と説明変数のあいだの相関がパラメータの推定に歪みを生むことはよく知られている(Paxton et al. 2011 の記事を参照)。この問題を解消する方法の一つとして操作変数 (Instrumental Variable: IV) のモデルへの投入があるわけだが、これは二段階最小二乗法でも SEM でも同じである。ただ社会学であつかうような横断データでは、適当な IV が見つからないことも多い。しかし、パネルデータの場合、一時点前の変数が IV として使えることも多いし、因果関係にタイムラグを仮定することで、内生性を回避することも可能である。このようないくつかのモデルの特徴や分析の際の注意などが論じられており、役に立つ内容になっていると思う。 SEM なので確証的因子分析や測定誤差の問題も論じられており、さらに観察されない多様性を統制する方法もいくつか紹介されている。ただ、SEM のモデル・フィッティングの評価にはカイ二乗値と p 値しか用いられておらず、CFI や RMSEA のような最近よく使われている指標にはまったく言及がなかった。

内生性の処理に関しては、すでに Paxton et al. 2011 を読んでいたので、特に目新しいとは感じなかったが、パネルデータの強みをどう活かすかという点、そして、観察されない多様性を SEM で統制する方法は、よく知らなかったので興味深い内容だった。特に興味があったのは、観察されない多様性を統制しつつ、内生性によるバイアスも除去するにはどうしたらいいか、という点であったが、これについてもいちおう解答がえられたので、よかった。このモデルを識別するためには、最低 3 wave のパネル、できれば 4 wave ぐらいあると識別できるはずである。

統計モデルのユーザーの観点から言うと、SEM は固定効果モデルや2段階最小二乗法とちがって、モデル・フィッティングを気にしなければならない、というのが面倒という印象はある。しかし、2段階最小二乗法などでもフィッティングの問題は隠蔽されているだけで実際には存在するのだし、モデルの診断を真面目にやればすぐに問題が発覚するはずなので、けっきょくは同じことのようにも思う。

『非逐次モデル:内生性、双方向関係、フィードバック・ループ』 Paxton, et. al. 2011

Pamela M. Paxton, John R. Hipp and Sandra Marquart-Pyatt, 2011, Nonrecursive Models: Endogeneity, Reciprocal Relationships, and Feedback Loops, SAGE.
非逐次モデルの概説書。社会学では双方向の因果関係が考えられるような場合がしばしばある。例えば、ジェンダー平等主義的な価値観を持つ女性はフルタイムの仕事をしやすいかもしれないが、逆にフルタイムの仕事をすることでジェンダー平等主義的な価値観が強まる(あるいは逆に弱まる)かもしれない。このような双方向の因果関係を通常の回帰分析やロジスティック回帰分析で推定すると、バイアスが生じることが知られている。これは回帰分析の用語でいえば、誤差項と説明変数のあいだに相関が生じてしまうことに起因する。例えば、ジェンダー平等主義的な価値観 (Y) を、職業威信スコア (X) で予測するようなモデルを考えてみよう。このような線形回帰モデルは、
Y = a + b X + E
と書ける。ただし E は誤差項。通常の最小二乗法 (OLS) では、X と E が独立であるという条件のもとで、バイアスのないパラメータ推定値が得られる(正確にはパラメータの推定値の期待値が真のパラメータの値と一致する)のであるが、X が Y から影響を受けている場合、X と E は相関してしまう。直感的にいえば、E は Y に影響を与えているが、Y は X に影響を与えているので、E は Y を媒介にして X に間接的な影響をあたえるのである。とうぜん E から Y、Y から X への影響力が強いほど、OLS の推定値はバイアスを含んだものになる(正確にはパラメータ推定値の期待値と真のパラメータの値の乖離が大きくなる)。

このように説明変数と誤差項のあいだに相関が生じている状態を内生性 (endogeneity) という。内生性の原因は双方向の因果関係だけではないし、書名になっている「非逐次モデル」という後も、因果のループだけでなく、誤差相関つきのモデルも含む概念であるが、本書で扱われているのは、双方向の因果関係、および3つ以上の変数の間の因果のループ (例えば A → B → C → A → .... のような)だけであり、例として扱われているのは2変数のあいだの双方向の因果関係だけである。具体的には、2段階最小二乗法 (2SLS) と3段階最小二乗法 (3SLS)、および最尤法による構造方程式モデル (SEM) が扱われているが、これらは推定法が違うだけで、モデルそのものに違いがあるわけではない。著者たちは一貫して理論の重要性を強調しており、それは特に操作変数 (instrumental variable) の選定においてそうである。これは SEM の標準的なテキストと同様といえよう。プログラム例は主に Stata 、SAS も少し紹介してある。

記述は決してわかりやすいとはいえず、何を言っているかわからない部分もけっこうあったが、わかる部分もそこそこあった。内生性があるかどうかの検定や操作変数の適切性に関する検定など、事後的な診断のための方法がいろいろ紹介してあるのは勉強になった。また、変数の間接効果の検定/区間推定についても触れてある(Sobel のデルタ法とブートストラップ)。わからない部分はさっさとあきらめて原典にあたればいいわけで、それなりに役に立つ本だと思う。惜しむらくは、カテゴリカル変数が内生変数の場合の対応法についてまったく触れられていない点である。SEM でポリコリック相関係数を使えばカテゴリカル変数が内生変数の場合にも対応できるはずだが、本当に連続変数の場合と同じように理解していいのか、など知りたいところである。

SAS University Edition インストールの備忘録

SAS University Edition をインストールしました。インストールの仕方は各所に書いてある通りなので、それらを見てください。

virtual box 版のインストール(動画)
SAS University Edition インストール・ガイド
以下では、私が遭遇した困難を書いておきます。

まず、Virtual Box と sas university edition をダウンロード。sas university edition は 1.7GB という鬼のような容量で、ダウンロードに時間がかかりました。その後、Virtual Box を開いて、マニュアル通りに設定。sas university edition を起動したが、エラーメッセージが出て動かない。上のインストール・ガイドのトラブル・シューティングを見ると、

ハードウェア仮想化(VT, VT-x, または AMD-Vと省略される場合もあります)がシステム BIOS で無効になっている可能性があります。詳細は SAS Installation Note 46250 を参照してください。 http://support.sas.com/kb/46/250.html
とあるので、このページを見ると、懇切丁寧に対処法が書いてある。要は、PC が 仮想化に対応しているかどうか確認し、対応していれば BIOS の設定をチェックし、仮想化が unable になっていたら enable に変更しろ、という話であった。私の PC は仮想化には対応していたので、再起動して BIOS の設定を見に行った。このやり方は、下記を参考に。
Windows 8.1 にて BIOS(UEFI)に入れないときは・・・
ほんで、BIOS の設定を見てみると仮想化が enable になっていなかったので、enable に変更したら、これまで出ていたエラーメッセージは消えたが、もうちょっとさきまで進んでさらにエラーが生じた。

「SAS University Edition は 64bit 環境で動くけど、この PC は 32bit だから動かない」といった趣旨のエラーメッセージだったと記憶している。これは Virtual Box でエミュレートしている環境が 32bit になっているという話だと直感した私は、virtual box の「設定」をクリック。「一般」「基本」の「ヴァージョン」を「ubuntu (32 bit)」から「Ubuntu (64 bit) に変更した。これでうまく動くようになった。

SAS University Edition の外観は以下のような感じ。
Virtual Box によって生成された仮想サーバ上にある SAS にブラウザで接続して作業する、と理解すればいいのだろうか。ファイルの入出力も問題なくでき、日本語も使える。「タスク」というカテゴリの下には、スクリプトを書かなくても、GUI でマウス操作で分析が実行できるようなメニューがある。しかし、これは包括的なものではなく、一部のプロシージャが GUI 化されているだけである。

起動に多少時間がかかることをのぞけばけっこう使いやすいのではないかと感じた。プログラミングのスキルは当然必須だが、R に比べれば簡単な部分も多く、フリーで SPSS よりも高度な統計手法やデータの処理が可能だと思うので、R と SPSS の中間あたりのニッチに位置することになるのではないだろうか。

収入カテゴリを数値に変換するときに「XXXX万円以上」にどんな値を割り振るべきか
ちょっとした事情で勉強したことをメモします。社会調査で収入などをたずねるときは、「200〜299万円台」といったカテゴリを用意しておいて選んでもらうことが多い。連続変数として分析するためには、カテゴリのままではなく、適当な数値を割りふってやる必要がある。その場合、カテゴリの上限と下限の真ん中の値を割り振ることが多い。例えば「200〜299万円台」なら 250万円という値が割り振られる。しかし、収入の場合、最高のカテゴリは「2300万円以上」といった形になっており、上限の値がないので、上限と下限の間の値を割り振ることができない。そこで、適当な値を割り振ってやる必要がある。やり方はいくつかあるようだが、今回勉強したのが、下記のレポートに記載されている方法である。
Ethan Ligon, 1989, The Development and Use of a Consistent Income Measure for the General Social Survey, GSS Methodological Report No. 64.
収入はいわゆるパレート分布におおむね近似するといわれている。その性質を利用してざっくりとある値以上をとる人の平均値を計算しようというわけである。 Ligon が勧めているのが、quantile method と呼ばれるもので、最高のカテゴリである「x 万円以上」に該当する人の平均収入の推定値 m(x) は、以下のように計算される。
m(x) = x * v / (v - 1)   (1)
v = (c - d) / (b - a)   (2)
ただし、
  • x: 一番上の収入カテゴリの下限値
  • v: パレート分布のカタチを決めるパラメータの一つ。(2) 式で推定できる
  • a: 二番目に高い収入カテゴリの下限値の log10 (10を底とする対数)
  • b: 一番上の収入カテゴリの下限値 (x) の log10
  • c: 一番上と二番目の収入カテゴリに該当する人数の総和の log10
  • d: 一番上の収入カテゴリに該当する人数の log10
である。JGSS 2010 の世帯収入で計算してみよう。JGSS 2010 の世帯収入は、最高が「2300万円以上」、その次が「1850〜2300万円未満」である。「2300万円以上」に該当するのが 29人、「1850〜2300万円未満」が 26人である。それゆえ、
  • x = 2300
  • a = log10 1850 = 3.27
  • b = log10 2300 = 3.36
  • c = log10 (29+26) = log10 55 = 1.74
  • d = log10 29 = 1.46
  • v = (1.74 - 1.46) / (3.36 - 3.27) = 2.94
  • m(x) = 2300 * 2.94 / (2.94 - 1) = 3486
なので、 3486万円を割り振ればよいというわけである。平均値で代表すべきなのか、とか、ほかのカテゴリは上限値と下限値の中点をとっているのに一番上のカテゴリだけ平均値を使うのは一貫性がない、とか批判はできようが、実用性とコストパフォーマンスを考えると、悪くない方法だと感じた。 R で計算した際のスクリプトは下記の通り。
x <- 2300
a <- log10(1850)
b <- log10(x)
c <- log10(29 + 26)
d <- log10(29)

v <- (c - d) /(b - a)

round(c(x, a, b, c, d, v), 2) # 値をまとめて確認

x * v/ (v - 1)
『ブートストラップ入門 (Rで学ぶデータサイエンス 4)』汪・桜井 2011

汪 金芳 and 桜井 裕仁, 2011, 『ブートストラップ入門 (Rで学ぶデータサイエンス 4)』共立出版.
数理統計学の専門家が書いたブートストラップの入門書。入門書と言っても数理統計学者が主な読者として想定されているらしく、応用的なユーザーにはよくわからない/どうでもいい議論が中心で、私には、あまり役に立たなかった。ただ統計学の専門家がどんなことを考えているのかその一端が覗けたのはよかった。また、R のスクリプトもあまり複雑な関数を使わずにブートストラップの計算をしているので、どのように計算がなされているのか、よくわかるのも良い点。回帰分析への応用や効率的なリサンプリング法も重点的に解説してある。しかしやはり、社会学者は読まないほうがいいと思う。英語の社会科学者向けのわかりやすいテキストを読んだほうが、ずっと早く要点がわかると思う。

『ブートストラップ: ノンパラメトリックな統計的推測』 Mooney and Duval 1993

Christopher Z. Mooney and Robert D. Duval, 1993, Bootstarapping: A Nonparametric Approach to Statistical Inference, Sage.
ブートストラップ法の概説書。統計的なデータ分析をやっていると、パラメトリックな推測ができない場合がときどきある。パラメトリックな推測とは、ある統計量が既知の分布に従っていることを利用して、推定や検定を行うことである。例えば、平均値の差は、サンプル・サイズが十分に大きければ正規分布に従うので、この性質を利用して検定や推定を行う。しかし、サンプルサイズがあまり大きくなく、変数が正規分布していない場合、平均値の差は、正規分布にも t 分布にも従うとは言えないので、パラメトリックな検定はできない(少なくとも私の知識ではそのはず)。また、平均値ではなく中央値の差を検定したい場合も、パラメトリックな推測法は知られていない。平均値の比を推測したい場合も同様の問題が起きる。さらに、回帰分析で残差が一定の分散で正規分布しない場合も同様である。このような場合、ブートストラップが有効な方法となりうる。ブートストラップとは、以下の様なプロセスで行う。中央値の差の区間推定/検定(帰無仮説:中央値の差=0)を例に述べよう。
  1. サンプルからサンプルを、サンプル・サイズと同じだけ復元抽出する。この復元抽出したサンプルをリサンプルと呼んでおく。
  2. リサンプルから知りたい統計量(この場合は中央値の差)を計算する。
  3. 上の2つのステップを数百から数千回(必要な回数はケースバイケースで異なる)繰り返す。
  4. リサンプルから得られた数百から数千の統計量の分布を、真の統計量の標本分布とみなし、2.5パーセンタイルと97.5パーセンタイルを求める。これを、95% 信頼区間とみなし、この区間に 0 が含まれていれば、帰無仮説を棄却する。
ポイントは、3番目の「リサンプルから得られた1000〜2000の統計量の分布を、真の統計量の分布とみなし」という点で、この仮定がどの程度正しいかによって、ブートストラップの妥当性は決まる。とうぜんサンプル・サイズが大きいほどブートストラップの妥当性は高まる。この本では N = 25 とか 30 ぐらいで数回シミュレーションがなされていて、これぐらいだと無理やりパラメトリックな推測を行った場合と違いはあまり無いため、あまりメリットを感じないが、ある程度サンプルサイズが大きければ、メリットがあるのかもしれない。特にまったくパラメトリックな推測が無理な場合や、無理にパラメトリックに推測すると誤差が著しく大きくなってしまう場合には重要な手法と思われる。個人的には、対数線形モデルで期待度数が非常に小さいセルが多い場合に応用できると助かるので、機会があったらもっと勉強してみたい。

Copyright (C) 2004 paperboy&co. All Rights Reserved.

Powered by "JUGEM"