カテゴリ: 誤謬
種類: 論理的誤謬
由来: 民間の寓言にちなむ比喩が、近代統計の問題意識と結びついて定着
別名: クラスター錯覚、データ・ドレッジング(データ漁り)、事後的な分析の誤用
種類: 論理的誤謬
由来: 民間の寓言にちなむ比喩が、近代統計の問題意識と結びついて定着
別名: クラスター錯覚、データ・ドレッジング(データ漁り)、事後的な分析の誤用
簡潔な説明 — テキサス・シャープシューターの誤謬(Texas sharpshooter fallacy)は、じょばらに撃ち散らしたあと、弾痕が密集した場所だけに的を描き、「百発百中だ」と主張する寓話に例えられます。データを見たあとでパターンを抜き出し、事前に予測していたかのように話を組み立てるときに起きます。探索分析そのものが悪いわけではありませんが、事後選抜を予言の証拠とすり替えると破綻します。
テキサス・シャープシューターの誤謬とは
雑な射撃のあと、弾の集まりがよい箇所だけに的を塗る——、この所作が、そのままノイズの中から「顔」を見つけて因果や法則を語る姿に重なります。ランダムな系列には、どこかしらまとまりやすい区間や連鎖が必ず現れます。探索の自由度が高いほど、「それっぽい紋様」を見つけること自体は難しくありません。「あとから見つけたパターンは、予言の証拠ではない。選抜バイアスの証拠だ。物語が先にあり、データは後から都合よく寄せられる。」誤謬は、そうした手続きを隠して、発見を予測にすり替えた瞬間に生じます。
理解の深さを三段階で
- 入門: コインを10回投げて 6 表 4 裏なら、どこかに「連続」や偏りらしさが見えます。これは短い系列では普通に起きる揺らぎで、硬貨が歪んだとは言いにくいです。
- 実務: 見出し案を20本試して一番よかった一本だけ採用すると、小標本ゆえのゆらぎで「勝ち」が選ばれただけかもしれません。本番での再現は平均程度に戻りがちです。
- 応用: 研究で多くの仮説を試し、有意だった結果だけを報告すると、全体としては偽陽性が混ざりやすくなります。いわゆる出版バイアスとセットで「科学が過剰に確からしく見える」現象にもつながります。
由来
名称の寓話の出自ははっきりしませんが、多重比較やデータ・ドレッジングの問題として、20世紀後半の統計の議論で定着しました。心理学者アモス・トヴェルスキーとダニエル・カーネマンが論じたクラスター錯覚——ランダムに見えるものに意味を見いだす傾き——とも地続きです。要点
応用場面
データサイエンス
ホールドアウト、交差検証、多重比較の補正、仮説の事前登録などは、この誤謬に対する実務の防波堤です。
ビジネスインテリジェンス
ダッシュボードを掘れば何かしら「発見」は出ます。先に問いを置かずに掘り続けると、再現のない活動になりがちです。
医学研究
プロトコル事前登録や解析計画の固定は、都合のよい事後解析だけを残す偏りへの対応として広がりました。
日常生活
遠い街で知人に会えた、ラッキーナンバーが続いた——稀な出来事は起きるからこそ、宇宙からの合図と短絡しやすい落とし穴です。
事例
2008年の金融危機に先立つ時期、複雑なモデルが住宅関連証券のリスクを精密に捉えているように見えた例は、事後的に見ると当時の上昇局面に過適合した模様拾いに近い面がありました。条件が変わると「パターン」は一気に崩れ、過去へのあてはまりの美しさが未来予測に直結しないことを示す教訓になります。限界と失敗パターン
探索は悪ではない: 未知のデータに触れ、仮説を育てる工程は必要です。誤りは、探索結果を検証なしの断定に直結させる点にあります。作法としては、発見を別データで当てにいく、と分けるのが安全です。 いちばん危険な場面: 金融・医療・公共政策のようにステークが高く、変数が豊富な領域です。偽の紋様が、大きな意思決定を支えうるからです。 よくある誤用: 投資レターが、上昇した銘柄だけを抜き出し命中証明を主張し、沈んだ推奨を伏せるパターンです。よくある誤解
誤解:データにパターンが出たから本物だ
誤解:データにパターンが出たから本物だ
実際には: ランダムでも模様は出ます。見かけの強さがチャンスよりどれだけ大きいかを定量し、手続きを明らかにする必要があります。
誤解:データが増えれば真の洞察も増える
誤解:データが増えれば真の洞察も増える
実際には: 量は候補を増やします。探索が広いほど、スパイアスも増えやすく、選別の規律なしにはかえって危うくなります。
誤解:専門家なら見分けられる
誤解:専門家なら見分けられる
実際には: クラスター錯覚は訓練を超えて残ることがあります。手続きと数理的なガードレールがないと、見分けは難しいです。
関連概念
相関と因果の混同
事後に拾った線に、あとから因果説明を貼り付けると、相関語りがさらに危うくなります。
確証バイアス
都合のよい証拠を集める傾向と、都合のよい模様を見つける傾向は、しばしば重なります。
データ・ドレッジング
多数検定のうち「勝ち」だけを残す行為で、この誤謬と同型の問題として数理的に整理されます。