类别: 谬误
类型: 逻辑谬误
来源: 民间智慧,在现代统计学中命名
别名: 聚类幻觉、数据捕捞、事后分析
类型: 逻辑谬误
来源: 民间智慧,在现代统计学中命名
别名: 聚类幻觉、数据捕捞、事后分析
快速回答 — 德克萨斯神枪手谬误发生在有人在事后在随机数据中找到模式并将其视为预先预测的一样。它以一个假设的神枪手命名:他在谷仓上随机射击,然后在弹孔最密集的地方画一个靶心,声称自己是完美的射击。这种谬误是数据分析、商业报告和日常模式识别中许多虚假发现的根源。
什么是德克萨斯神枪手谬误?
这个名字来自于一个生动的比喻:一个德克萨斯人随机射击谷仓的侧面,然后走过去在最密集的弹孔群周围画一个靶心。当观察者羡慕他的”完美瞄准”时,他犯下的错误与在随机噪音中找到模式并声称有先见之明的人一样。“在事后找到模式不是预测的证据——而是选择偏差的证据。故事先来,然后证据被挑选来配合。”关键洞察是随机数据总是包含纯粹偶然的模式。有了足够的变量、足够的时间段和足够多的观察地方,我们可以在任何地方找到”有意义”的模式。当我们随后假装我们一直预期这些模式——或者更糟,当我们基于它们做出重要决定时——谬误就发生了。
德克萨斯神枪手的三层理解
- 入门级: 你抛硬币10次,得到6次正面和4次背面。注意到额外的正面”连胜”,你声称硬币有偏差。但任何10次抛硬币的序列都会有某种模式——这只是随机变化,不是偏差的证据。
- 实践级: 营销团队测试了20个不同的标题,发现一个表现好15%。他们用那个标题Launch活动,结果却看到一般结果。“获胜”的标题可能是假阳性——在小样本中看起来有意义的随机变化。
- 进阶级: 在科学研究中,“复制危机”揭示了许多已发表的发现是德克萨斯神枪手谬误的产物。研究人员测试许多假设,只报告显著的结果,忽略了几十个不显著的结果。这种发表偏差使已发表的科学看起来比实际更可靠。
起源
德克萨斯神枪手谬误的名字来自民间智慧故事,确切起源尚不清楚。20世纪后期,当统计学家努力解决多次比较和数据捕捞问题时,这个谬误被正式命名和详细描述。 这个概念与心理学家阿莫斯·特沃斯基和丹尼尔·卡尼曼研究的”聚类幻觉”密切相关。他们的研究表明,人类有在随机数据中看到有意义模式的强烈倾向——这种特质在原始环境中是适应性的,但在解释现代数据丰富时会导致我们误入歧途。核心要点
应用场景
数据科学
专业数据科学家使用留出样本、交叉验证和多重比较校正,正是为了避免德克萨斯神枪手错误。假设的预注册正成为标准做法。
商业智能
不断”深入”数据寻找洞察的公司有发现虚假模式的风险。解决方案是在分析之前形成假设,而不是之后。
医学研究
药物试验现在被要求提前注册方案,以防止事后选择有利结果。这一改革直接来自认识到已发表研究中的德克萨斯神枪手问题。
日常生活
我们都在随机事件中看到”迹象”——在遥远城市找到前同事,注意到”幸运数字”重复出现。这些模式在随机数据中是不可避免的,不是宇宙信息。
经典案例
2008年金融危机揭示了整个金融行业的德克萨斯神枪手推理。在崩盘之前的几年里,量化分析师创建了复杂的模型,似乎在抵押贷款支持证券中识别出可预测的模式。它们有”高斯copula模型”这样的名字,看起来可以精确预测违约风险。 但这些模型本质上是在弹孔周围画靶心。模型校准使用的是房价只上涨时期的住房数据。当条件改变——2006-2007年房价开始下跌——“模式”完全崩溃。这些模型在特定历史时期的随机噪音中发现了明显的秩序,而不是稳定的金融法则。 教训:事后完美回测过去数据的金融模型在预测未来时可能灾难性失败。模式是特定时期的产物,不是稳定的金融规律。边界与失效场景
何时深入观察是有效的: 在探索性数据分析中,在数据中找到模式是完全可以的。错误发生在你随后将其作为预测或因果关系的证据时。良好做法:使用发现形成假设,然后在 新数据上测试这些假设。 何时德克萨斯神枪手最危险: 当 stakes 高且数据丰富时——金融、医学和政策——这个谬误最危险。在这里,虚假模式可以证明影响数百万人生活的决定是正确的。 常见误用模式: 投资通讯经常犯德克萨斯神枪手谬误,通过指出他们推荐后上涨的特定股票来显示”证明”他们的预测准确性——同时忽略了许多失败的建议。常见误区
误区:数据中找到的模式证明模式是真实的
误区:数据中找到的模式证明模式是真实的
现实: 随机数据总是包含模式。问题在于该模式是否比随机 chance 更强,这需要正式的统计检验。
误区:更多数据导致更准确的洞察
误区:更多数据导致更准确的洞察
现实: 更多数据导致更多模式,但不一定导致更多真实模式。实际上,有了足够的数据,虚假模式变得不可避免。
误区:专家判断可以从虚假模式中识别真实模式
误区:专家判断可以从虚假模式中识别真实模式
现实: 即使专家也被聚类幻觉所迷惑。只有为这个问题设计的统计方法——适当的显著性检验、留出验证——才能区分信号和噪音。
相关概念
相关性-因果性
德克萨斯神枪手经常导致错误的因果主张——找到一种模式,然后发明一个因果故事来解释它。
确认偏差
两种谬误都涉及看到我们期望看到的东西。确认偏差选择兼容的证据;德克萨斯神枪手选择明显有意义的模式。
数据捕捞
测试许多假设并只报告显著结果的做法,在数学上等同于德克萨斯神枪手谬误。