「嘘、大嘘、そして統計」 統計で使われる3つのウソを解説(『因果推論の科学 「なぜ?」の問いにどう答えるか』より)

2023年6月5日

「嘘、大嘘、そして統計」

2018年3月、高等学校学習指導要領が改訂され統計学が必須化しました。
文部科学省は「社会生活などの様々な場面において、必要なデータを収集して分析し、その傾向を踏まえて課題を解決したり意思決定をしたりすることが求められている」と述べています。
データリテラシーを向上させるためには、統計がどのような形で使われているかをよく知る必要があります。
1つの手掛かりになるのが「嘘、大嘘、そして統計(原文:There are three kinds of lies: lies, damned lies, and statistics)」という言葉です。

「嘘、大嘘、そして統計」とは、説得力の弱い理論を補強するために統計が用いられることがあることを示した言葉です。
この言葉はイギリス・ロンドン出身の政治家、小説家ベンジャミン・ディズレーリ(Benjamin Disraeli、1804-1881)が最初に述べたとされており、その後アメリカ合衆国の著作家、小説家であるマーク・トウェイン(Mark Twain、1835-1910)によって広まりました。

「統計的な根拠がある」という文言はとても強い説得力を持っています。
しかし、意思をもって結論を捻じ曲げようと思ったとき、数字の見せ方やバイアスを工夫することで、自分の述べたい意見に合致した数字を表現することも可能です。

「数字は嘘をつかないが、嘘つきは数字を使う」という言葉もある通り、信じるべき数字が正しいものかを見極めるデータリテラシーが必要です。

統計でウソをつく

統計に騙されないために、まずは統計がどのように嘘をつくのかを知っておく必要があります。

「99%の人が満足と回答!」

宣伝・広告でたまに見かける謳い文句ですが、意図的に歪められた結果であるケースがあります。

例えば、満足と回答した人にのみ商品を無償で提供したり、繰り返し購入している人にのみヒアリングを行ったりすることで恣意的に「選択バイアス」をかけるなどです。
アンケート結果は正しく分析されていたとしても、取得されたデータそのものの信頼性が低いことがあるため注意が必要です。

「平均年収は〇〇万円!」

データを基礎集計する際、平均、中央値、最頻値という考え方を利用してデータの外観を捉えます。
中でも平均は、最も身近でありながらミスリードを招きやすい集計方法といえます。

例えばとある会社の求人広告で、「社員の平均年収は300万円!」と謳われていたとします。
このとき、仮に社員の年収が以下のように分布していたらどうでしょう。

「社員の平均年収は300万円」の内実
  • 社長(1人):3000万円
  • 役職(5人):1000万円
  • 一般社員(20人):200万円

計算すると、この会社の平均年収が約300万円であることは事実です。
しかし、平均値を聞いた時に受ける印象とは異なる内容になっているのではないでしょうか。

このとき、最頻値、中央値といった集計ではともに「200万円」であり、このケースにおいては最頻値や中央値の方が実態を表しているといえます。

集計手法として平均が良くないというわけではなく、データの内容と集計手法の組み合わせを操作することで印象を変えることができるという事例です。

「毎年右肩上がり!」

右肩上がりの棒グラフを見たときは、y軸のスケールに着目しましょう。

スケールを細かく刻むことで、実態とは違った印象のグラフを作成することが可能です。

使われている数字は全く同じでも、y軸の描画範囲を操作することで違う見え方をする例のイメージ

左図では毎年売り上げが向上しているように見えますが、右図のようにy軸のスケールを広く取ると実際はほぼ横ばいであることがわかります。

グラフは視覚的に訴えられるためデータ集計の際によく用いられますが、故意に印象を操作しやすい集計方法であるといえます。

統計に騙されないために

基礎的な統計だけでも、故意に操作することで受ける印象を大きく変えることができます。

さらに、統計手法が高度になればなるほど気づかれないようにバイアスを仕込んだり、表現を工夫して印象操作を行うことが容易になります。

統計に騙されないために、気をつけるべき点をご紹介します。

グラフは注意して見る

統計がウソをつく例として最も身近なものが、グラフでの印象操作です。

棒グラフのY軸のスケール操作以外にも、円グラフの塗り分けが実態の数字とあっていないケースや、
折れ線グラフで比較されている2つのデータのスケールがあっていないなど、様々な印象操作が可能です。

グラフは数字そのものを見るよりも直感的に理解しやすいため、多くの場所で用いられています。
しかし、重要な決定を下す際にグラフで根拠を提示された場合は、実際の数字と照らし合わせて表現がおかしくないかを確認しましょう。

どのようにして集められたデータか?を想像する

アンケート結果は質問者の介入によってデータそのものを歪めやすいデータといえます。
故意に選択バイアスをかけることができる点はご紹介しましたが、他にも注意すべき点があります。

アンケート収集時には次のような心理的効果が働くため、これらを知った上で意図的に回答を歪めることができてしまいます。

心理的効果の例
  • 黙認傾向 :「はい・いいえ」で答える質問では「はい」という回答を得やすい
  • キャリーオーバー効果:前の質問の回答が次の質問の回答に影響する
  • 誘導質問:質問文に「近年データ分析の需要が高まっていますが…」といった前置きを質問文に含めることで、「データ分析への関心が高い」という回答を引き出す

アンケート収集は誰を対象に、どのような方法でアンケートが取られたかを確認しましょう。

権威を疑う

有名大学の卒業生や著名人が言っていることを正しいと思い込んでしまうことを権威バイアスと言います。

TV番組などで大学の教授を招いて解説をつけてもらうというのも、権威バイアスを狙って番組の信憑性を高めるためです。

「あの人がこう言ったから」という理由だけで真実と思い込むのではなく、情報元が信頼できるものかを確認するようにしましょう。

参考

書籍

  • ダレル・ハフ 著、 高木秀玄(訳)『統計でウソをつく法―数式を使わない統計学入門 』ブルーバックス、1986年
  • ジューディア・パール(著)、ダナ・マッケンジー(著)、夏目大(訳)『因果推論の科学 「なぜ?」の問いにどう答えるか』文藝春秋、2022年

Webページ

  • https://towardsdatascience.com/lessons-from-how-to-lie-with-statistics-57060c0d2f19(2023年5月23日確認)
  • https://mediajuku.com/article/229(2023年5月23日確認)