blog お役立ちブログ

【入門者必見】意外と見落とされがちな統計学の誤解10選

「平均と中央値は同じものでは?」「p値が小さければ何でも優れた研究と言えるのでは?」といった、初心者がつまずきやすい統計学にまつわる誤解は意外に多いです。ここでは、そのような誤解を10個取り上げ、数学的な式の解説は最小限に抑えながら、「なぜそれが重要な論点なのか」「どのような視点で考えるべきか」をわかりやすくご紹介します。データを正しく読み解くためのヒントとしてお役立ていただければ幸いです。

1. 「平均=完璧な代表値」という思い込み

平均だけを見ていればデータの代表値がつかめるという発想は、実は大きな誤解につながりやすいです。たとえば、極端に大きい値(外れ値)が少数混じっていると、平均はそこに大きく引きずられてしまい、本来の“普通”の感覚を反映しにくくなります。所得や資産のように、分布が偏りやすいデータでは平均よりも中央値のほうが、実態に近いとされるケースが多いです。最近は、所得格差を分析するうえでも中央値が注目されており、平均だけが示す数値に頼りきることの危うさが再認識されています。

2. 相関は因果関係とは別物

相関係数が高いと、「AとBの間には強い関係があり、AがBを引き起こしているのだろう」と思いがちですが、これは統計学で最も誤解されやすい点の一つです。相関が見られる場合でも、本当にAがBを引き起こしているとは限りません。ほかの要因が両者に影響しているかもしれませんし、単なる偶然の一致である場合もあります。たとえば、ニコラス・ケイジの映画出演本数とプールでの溺死者数に統計的に有意な相関があるという有名な例は、因果の誤読を象徴するケースとしてよく引用されます。近年は「因果推論」という分野が発展し、単なる相関以上に踏み込んだ分析手法が研究・活用されつつあります。

3. シンプソンのパラドックス:集計レベルでの逆転現象

集計すれば全体像がわかるはずだという期待も、シンプソンのパラドックスによって大きく裏切られることがあります。カリフォルニア大学バークレー校の大学院入試で、男女の合格率を全体で見ると男性が優遇されているように見えましたが、学部ごとに分析するとむしろ女性に有利な数値が出ていたという事例は、その代表的な例です。これは、データの細分化によって結論が逆転するという不思議な現象を示すもので、分析時には集計レベルだけではなく、隠された要因やセグメントごとの状況に目を向ける必要があることを教えてくれます。

4. ランダムの誤解:人間の直感と偶然の偏り

乱数や無作為抽出と聞くと、何となく均一にバラバラで、一定の法則性が見えにくいと感じるかもしれませんが、実際はそう単純ではありません。真にランダムであるほど、逆に同じ事象が固まって起こったり、クラスター(かたまり)が生じたりすることがあります。アップルのiPodシャッフルでは、本当の乱数を使うと同じアーティストの曲が続いてしまい、「偶然とは思えない」と不満をもつユーザーが多かったという逸話がよく知られています。人間の直感では「連続したパターンは何か意図や原因がある」と思い込みがちなので、ランダムに対する認識のズレに注意が必要です。

5. 少数の法則への惑わし:小さなサンプルが見せる誇張

少ないデータでも何らかの傾向や理由があるはずだと考えるのは早計です。実際はサンプル数が少ないほど結果が極端に振れやすく、そこに深い理由を見出そうとすると誤った結論を導く可能性が高まります。たとえば、米国の郡別に腎臓がんの発生率を調べると、最も低い郡は人口の少ない農村部であり、最も高い郡も人口の少ない農村部であるという統計結果が出ています。これは、人数が少ない集団では数値が大きく振れやすいだけであり、特別な要因があるわけではないのです。サンプルサイズの管理や意図的な拡大解釈に注意することが重要だといえます。

6. データ可視化の軽視:平均や相関だけでは見えない世界

平均値や相関係数といった数値指標を把握すれば、データのおおよその傾向がわかると思われることもよくあります。しかし、アンスコムの四重奏「Anscombe’s Quartet」のように、同じ平均や分散、相関係数をもつ複数のデータセットでも、実際にグラフを描くと全く違う形状が示される例が存在します。最近はデータザウルス(Datasaurus)と呼ばれる一連のデモが話題となり、数値指標だけを信頼していては見逃してしまう特徴があることがさらに注目されました。統計分析の現場では、「まずグラフにしてみる」ことがデータの特徴を正確につかむ早道です。

7. 「正規分布こそ万能」という神話

統計学では正規分布(ベルカーブ)が基本的な分布として重視されますが、あらゆるデータが正規分布に従うわけではありません。身長や体重のように比較的よく近似できるケースもありますが、所得やSNSのフォロワー数はほとんどが偏った分布になります。正規分布を無条件に当てはめると、大きく外れた値が少数存在するような「ファットテール」と呼ばれる現象を過小評価する恐れが出てきます。近年はナシム・ニコラス・タレブ氏の「ブラックスワン」(※)が話題になったように、起こりにくいながらも重大な影響をもつ事象が社会的注目を集めるようになりました。現実の分布形状を確認し、その特性に即したモデルを選ぶ視点が重要です。

※注:ナシム・ニコラス・タレブ氏による著書『ブラック・スワン』(原著2007年)は、「予測不可能で重大な影響をもたらす出来事」に着目し、そのような出来事がいかに社会や金融市場、歴史の流れを左右してきたかを論じたベストセラーです。多くの人が見落としている極めて珍しい事象(ブラックスワン)は、めったに起こらない一方で、一度起これば膨大なリスクや変化をもたらすと警鐘を鳴らしています。

8. p値が小さい=その研究はすごい?

p値による統計的有意性は、「偶然ではない差がある可能性」を示しますが、それが実社会的に見て重要かどうかまでは教えてくれません。サンプル数が極めて多い場合は、わずかな差でも簡単に「有意」となってしまうため、p値だけを見て研究の価値を判断するのは危険です。実際には、どの程度の大きさの効果があるのかという効果量もあわせて考える必要があります。近年は「p値至上主義」の是非が議論され、「統計的有意」と「実用的・臨床的に意義のある差」を分けて考えるべきだという主張が増えています。

9. ベースレートの罠:条件付き確率の落とし穴

検査で陽性と出れば高い確率で病気だと思い込むのは、ベースレート(基本発生率)を考慮していないことが原因である場合が多いです。もし病気自体の有病率がごくわずかなら、陽性の大半が「偽陽性」によるものかもしれません。実際に、病気の発生率が1%を下回るような状況で検査精度がそこそこ高くても、陽性イコール重篤なリスクとは限りません。このベースレートを考慮しないまま確率を解釈してしまうと、医療はもちろんのこと、セキュリティ分野などでも誤った判断をしてしまう可能性があります。

10. グラフの見せ方で“事実”はいくらでも変わる

数字やグラフそのものに嘘がなくても、縦軸や横軸の取り方、デザインや色遣いの工夫によって、受け手の印象は大きく変わってしまいます。わずかな変動しかないデータであっても、縦軸を極端に絞り込めば大きな変化が起きているかのように見せられますし、逆に変動が大きいデータをスケールを広く取って平坦に見せることも可能です。これらの手法はインフォグラフィックスやマーケティング資料などでも多く用いられています。グラフを見るときは、その作り手が「どこを強調しようとしているか」を読み取る視点が求められます。

おわりに

ここまでご紹介した10の誤解は、統計学の初学者が陥りがちなポイントですが、いずれも少し視点を変えるだけで正しく理解しやすくなるものばかりです。平均と中央値の違いを意識することで、データ分布の偏りを見極めやすくなりますし、相関と因果を混同しないことや、ランダム・少数サンプル・ベースレートといった概念を正しく理解することで、データを読み解く力は格段に向上します。

さらに、シンプソンのパラドックスやグラフのトリックを知っておけば、大きな集計や見た目の派手な資料に惑わされにくくなるでしょう。p値だけに注目するのではなく、実際にどれほどの効果があるのか(効果量)を見る視点も大切です。統計学は難解な数式ばかりではなく、考え方や解釈力を鍛える学問でもあります。ぜひ、これらのヒントを活用して、データの面白さと奥深さをさらに探求してみてください。