シンプソンのパラドックス Simpson's
paradox
分割して統合すると答えが変わる統計学
2つの統計を足し合わせると、合計の結果が逆になることがあります。
具体的な例でいうと、
同じ共通テストをA校とB校で行った場合に、
A校の男女の平均値がB校よりも5点も高かったにも関わらず、
全体で見るとB校のほうがA校よりも平均値が高いケースがあります。
数値は以下のようです
A校は男女ともにB校よりも平均が5点も高いのに、全体でみるとB校の方が平均点が高くなります。
|
男子人数 |
男子平均点 |
女子人数 |
女子平均点 |
合計平均点 |
A |
60 |
55 |
40 |
85 |
67 |
B |
40 |
50 |
60 |
80 |
68 |
60×55+40×85=6700
40×50+60×80=6800
男女の割合を変えると順当どおり、A校はB校よりも11点も平均値が高くなります。
|
男子人数 |
男子平均点 |
女子人数 |
女子平均点 |
合計平均点 |
A |
40 |
55 |
60 |
85 |
73 |
B |
60 |
50 |
40 |
80 |
62 |
40×55+60×85=7300
60×50+40×80=6200
極端な例では男女ともにA校の平均値がB校よりも5点も高いのに、
合計の平均値はB校が4.4倍も平均点が高くなります。
|
男子人数 |
男子平均点 |
女子人数 |
女子平均点 |
合計平均点 |
A |
90 |
10 |
10 |
95 |
18.5 |
B |
10 |
5 |
90 |
90 |
81.5 |
D.ジーターとD.ジャスティスの打率の比較(出典:Ken
Ross ”Mathematician
at the ballpark”)
母集団での相関と、母集団を分割した集団での相関は、異なっている場合があり、
集団を分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがあります。
「サンプル全体における相関とサンプルを部分的に切り出した時の部分ごとの相関とが食い違う(逆になることすらある)」という現象です。
このパラドックスは交絡因子と因果関係が統計モデリングによってバイアスを調整しないと、容易に誤った解釈に陥ってしまいます。
テストの男女別と全体の平均点のケースでは、
分けて平均値を出すことは全体の総得点とは差異が出るので、分割して相関関係をみることには気をつけるように、という教訓でした。
ところが、次の例では、全体の相関関係では誤った相関図になるので、分割して相関関係をみるようにする、
という全く反対の教訓をえることになります。
運動量とコレステロールの関係をグラフにすると、以下のようになります。
上の相関図からはわかることは、
よく運動している人の方がコレステロール値が高いという右肩上がりの傾向になっています。
そんなことはあるのでしょうか?
これは私たちの日常生活での経験とは、反対の相関関係です。
直感的に「よく運動している人の方がコレステロール値は低い」という右肩下がりの傾向が常識であり、医学的にも事実です。
しかし、このデータがには間違いがない、と仮定して話を進めます。
どこに問題があるのでしょうか?
それは運動時間とコレステロールを全体で比較してしまい、この2つの間に相関関係がある、と判断したことです。
では、どうすればいいのでしょうか?
この問題を解決するためには、データのサンプルを分割して使うことです。
ヒトは歳を取れば取るほど健康のために運動をするようになる
ヒトは歳を取ると運動するかしないかにかかわらずコレステロール値が高くなる
という2点から、年齢が処置(運動)と反応(コレステロール値)の両方の原因となる交絡因子になってしまっていることに気づいて、
全体ではなく、年齢層別のデータを用いて同年代同士で比べるグラフを作成することです。
「10代〜50代の各年齢層における週ごとの運動量とコレステロール値」とをX軸とY軸にプロットしたものです。
このケースでは分割することで、因果関係が事実に適応しているようなりましたが、必ずしもデータを分割すれば正しい結論に達するとは限らず、実はデータ全体で分析した方が正しい結論に至るケースもあります。
ただし、そのようなケースでも適切に因果関係を整理して交絡因子を調整した結果として「データ全体で分析すべき」という結論になっています。
適切な因果推論さえ出来ていればデータを分割するにせよデータ全体を使うにせよ正しい結論に到達できるはず」とも言えます。
シンプソンのパラドックスとは、交絡因子の適切な調整で解決されるべきバイアスのことです。
データのみから因果関係を判別できるような統計的方法は存在しない、ということです。
多くの統計学のテキストで触れられることの多いシンプソンのパラドックスですが、適切な結論が存在することすら分かりません。
データを解読する時には、「誕生、成長、成熟、終末」という状況を考慮に入れて、分析するのがポイントなります。
つまり、「年齢」が交絡因子になるので、これを考慮に入れて、公衆衛生や疫学に関するデータ分析をすることが必要です。
この生命状態が「処置」と「反応」の両方に影響を与えるからです。
因果関係を語る時には、
同じデータであっても異なる因果構造に起因するものであれば異なる解析が必要です。
それには、統計学だけではなく、主題に関する因果関係の知識が必要となります。
たとえば年齢という属性(交絡因子)以外にも、人口密度、性別、職業、学歴、時代、文化・文明度などをを加えれば、また違った結論が導かれるかもしれません。
つまり、「最終的な真実」かどうかも保証はないのです。
事実は多様で多層であるので、
データや数字に基づく分析は、客観的で公平なものだと信じられているが、どのデータ、どの属性に注目するかには、必ず分析者の主観や「視点」や潜在意識や概念意識や統合意識が入ってきます。
集めたデータは正しく、分析者に悪意や偏見はなく、分析の手順に間違いがないとしても、その結果は、必ずしも「真実」とは限りません。
この世には完璧な真実というのものは存在しません。
しかし、「真実」に少しでも近づくためには、与えられたデータを鵜呑みにするのではなく、少し足を止めて、今、部分と全体のどちらを見ているのかを考え、背後に隠れている別な「視点」を考慮する必要があります。
特に大切なのは分析者が学習してしまった自動反応回路アプリケーションです。
「シンプソンのパラドックス」は、データ時代を生きる私たちに、その「心構え」を教えてくれます。
参考資料
「平均値の罠」
ある国の政府が、国民の所得の状況について、次のような発表をしたとしよう。
「今年、我が国では、年間所得1,000万円以上の高所得者層、1,000万円以下の低所得者層、どちらの層でも平均所得が増加しました。これは、国民全体の平均所得が向上していることを示すものであります」
所得の調査結果は正しいと仮定して、政府のこの見解は正しい、と言えるだろうか。すなわち、高所得者層も低所得者層も平均所得が上がっている時、国民全体の平均所得も向上している、と結論づけていいのだろうか。
直感的には、そんなの当たり前じゃないか、と思える。高所得者層も低所得者層も平均所得が増えたのなら、それらを足し合わせた国民全体の平均所得も当然、増えているはず。そう考えるのは極めて自然だ。
しかし、実は必ずしも、そうとは言えないのだ。図を見ながら、具体的な例で考えてみよう。
A、B、C、Dという4名の年収グラフ。
今、高所得者2人(A、B)、低所得者2人(C、D)の合計4人の国民がいるとしよう。そして、高所得者層の2人の一昨年の年間所得は、それぞれ2,000万円と1,200万円、低所得者層の2人は、それぞれ700万円と300万円だったとする。
この時、それぞれの層の一昨年の平均所得は、
【一昨年の平均所得】
•高所得者層:(2,000万円+1,200万円)÷2 = 1,600万円
•低所得者層:(700万円+300万円)÷2 = 500万円
となる。さて、今年はかなりの不景気で、4人全員の所得が減ったとしよう。高所得者層の2人の年間所得は1,800万円と900万円に、低所得者層は650万円と250万円に減ったとする。
この時、今年の高所得者・低所得者、各層の平均所得は次のようになる。
【今年の平均所得】
•高所得者層の平均所得:1,800万円
•低所得者層の平均所得:(900+650+250)÷3 = 600万円
これを、先に見た一昨年の平均所得と比べてみると、なんと、4人の国民全員の年間所得は減ったのにもかかわらず、高所得者層の平均所得も、低所得者層の平均所得も、ともに増加しているではないか!
なんとも直感に反する結果だが、計算に間違いはない。
この例のような「ある対象を『部分』で見た時と、それらを統合した『全体』を見た時では傾向が異なる」という現象は、1951年、イギリスの統計学者、E.H.シンプソンが「分割表における相互作用の解釈」という論文の中で指摘した。このため、一般には「シンプソンのパラドックス」として知られている。
「部分」と「全体」は相反する
シンプソンのパラドックスは、データの「部分」をみるか「全体」をみるかで、まったく異なった結論が導かれる可能性がある、ということを私たちに忠告している。とりわけ、平均値のような、一見わかりやすい比較の場合は、部分と全体が相反する傾向をもつことに疑いを持ちにくい。
オレゴン大学の数学教授であり、メジャー・リーグの大ファンでもあるケン・ロスが、”Mathematician at the ballpark”という本の中で紹介した例をみてみよう。ロスは、2名の大リーガー──デレク・ジーターとデビッド・ジャスティス──の打率を、1995年と1996年の2年間にわたって比較した。
D.ジーターとD.ジャスティスの打率の比較(出典:Ken
Ross ”Mathematician
at the ballpark”)
このデータをみると、1995年と1996年、どちらの年も、ジャスティスの打率は、ジーターの打率を上回っていることがわかる。すなわち、年ごとに評価するなら、ジャスティスのほうが好打者だ、と言う印象を受ける(もしあなたが正義感あふれる人間なら、ジャスティスは、ジーターほど人気はないけれど、もっと評価されるべき選手だ、と憤慨するだろう)。
ところが、両年を通算した打率を見てみると、ジーターがジャスティスを大きく上回っているのだ(残念ながら、あなたの正義の怒りは徒労に終わることになる)。これもまた、「部分と全体では傾向が異なる」シンプソンのパラドックスである。
「部分」を見ずに、「全体」の印象だけで判断することの危うさを教えてくれる、こんな例もある。次の表は、米フロリダ州で、ある一年間におきた殺人事件の裁判について、有罪判決が出た割合を調べたものだ。
殺人事件の裁判における、被告人の人種と有罪判決の割合(米フロリダ州)
上の表を見ると、被告人が白人の裁判では、有罪判決の割合は11.0%なのに対し、被告がアフリカ系の場合は7.9%となっている。このデータを見るかぎり、フロリダ州では、少なくとも裁判において、アフリカ系への差別は認められず、むしろ、アフリカ系が優遇されている、という印象を受ける。はたしてそれは「正しい印象」だろうか。
実は、この例は「隠れたプレーヤー」を見つけなければ、判断を誤ってしまう、という実例だ。この表に、あらたな属性——「被害者の人種」——を加えた次の表を見ると、まったく逆の事実が見えてくる。
殺人事件の裁判における、被告人、被害者の人種と有罪判決の割合(米フロリダ州)
これを見ると、被告人がアフリカ系で「被害者」が白人の時、有罪判決の割合は22.9%と突出して高いことがわかる。一方、被告人が白人で「被害者」がアフリカ系の場合、有罪判決はゼロだ。
つまり、二番目の表から見えてくるのは、「白人がアフリカ系を殺しても有罪にはならないが、逆に、アフリカ系が白人を殺すと有罪になる確率が極めて高い」という事実だ。最初の表から受けた印象とは、まったく逆の事実が見えてくる。
ふたつの表は同じ対象を、同じデータを使って整理したものだ。ただ、最初の表では、「被害者の人種」という属性を無視している。それによって得られた分析結果は、真逆になってしまうのだ。さらに言えば、二番目の表が「最終的な真実」かどうかも保証はない。このデータに、さらに他の属性——たとえば、被告人・被害者の収入や学歴、職業、性別など——を加えれば、また違った結論が導かれるかもしれない。
真実に近づくために
データや数字に基づく分析は、客観的で公平なものだと信じられている。しかし、どのデータ、どの属性に注目するかには、必ず分析者の主観や「視点」が入っている。集めたデータは正しく、分析者に悪意や偏見はなく、分析の手順に間違いがないとしても、その結果は、必ずしも「真実」とは限らないのだ。
もしかしたら、完璧な真実というのものは存在しないかもしれない。しかし、「真実」に少しでも近づくためには、与えられたデータを鵜呑みにするのではなく、少し足を止めて、今、部分と全体のどちらを見ているのかを考え、背後に隠れている別な「視点」がないかを疑ってみることしかないだろう。「シンプソンのパラドックス」は、データ時代を生きる私たちに、その「心構え」を教えてくれている。