心理学で血液型の差が出ない理由は統計学的に説明できる《続》
前回の続きです。
今回は少なからず専門的な話を備忘録として記録しているので、多少わかりにくいのはご容赦を。
さて、心理学の性格検査は、回答者の「バラつき」(統計学的に言うと「分散」)を最大にするように設計されています。
これはどういうことかというと、回答の差が(血液型だけではなく)年齢や性別によっても生じるとすると、統計学の原則からして、血液型の差が検出できにくくなるということです。
少々専門的な言葉でいうと、年齢や性別を固定した場合の血液型による分散と、ランダムサンプリングをした場合の血液型による分散を比べると、単純に数学的に後者の方が大きくなるということです。
分散が倍になると、t-検定で同じ検定力を確保するためには、サンプルも倍必要となります。
通常、血液型による差が「統計的に有意」となるためには、最低でも数百人のサンプルが必要ですが、ランダムサンプリングをした場合は(分散が倍になると仮定すると)、軽く千人以上は必要となることになります。
これが、大学生のような比較的同質のサンプルでは差が有意となりやすく、ランダムサンプリングでは差が出にくい理由です。
実際にも、世論調査のデータでは、そういう結果が得られています。
そして、前回は具体的なデータを分析して、回答の差が(血液型だけではなく)年齢や性別によっても生じることを示しました。
これで、理論的な考察と、マクロ的な分析、そしてまたミクロ的な分析が全て一致しました。
結論だけ言うと、ランダムサンプリングでは血液型による差が小さいという結果は、あくまで見かけ上のことだということです。
なぜこんな簡単ことに誰も気が付かなかったのでしょうか?
今回は少なからず専門的な話を備忘録として記録しているので、多少わかりにくいのはご容赦を。
さて、心理学の性格検査は、回答者の「バラつき」(統計学的に言うと「分散」)を最大にするように設計されています。
これはどういうことかというと、回答の差が(血液型だけではなく)年齢や性別によっても生じるとすると、統計学の原則からして、血液型の差が検出できにくくなるということです。
少々専門的な言葉でいうと、年齢や性別を固定した場合の血液型による分散と、ランダムサンプリングをした場合の血液型による分散を比べると、単純に数学的に後者の方が大きくなるということです。
分散が倍になると、t-検定で同じ検定力を確保するためには、サンプルも倍必要となります。
通常、血液型による差が「統計的に有意」となるためには、最低でも数百人のサンプルが必要ですが、ランダムサンプリングをした場合は(分散が倍になると仮定すると)、軽く千人以上は必要となることになります。
これが、大学生のような比較的同質のサンプルでは差が有意となりやすく、ランダムサンプリングでは差が出にくい理由です。
実際にも、世論調査のデータでは、そういう結果が得られています。
そして、前回は具体的なデータを分析して、回答の差が(血液型だけではなく)年齢や性別によっても生じることを示しました。
これで、理論的な考察と、マクロ的な分析、そしてまたミクロ的な分析が全て一致しました。
結論だけ言うと、ランダムサンプリングでは血液型による差が小さいという結果は、あくまで見かけ上のことだということです。
なぜこんな簡単ことに誰も気が付かなかったのでしょうか?
2017-11-01 22:02
コメント(0)
コメント 0