跳轉到主要內容
類別: 謬誤
類型: 邏輯謬誤
來源: 20世紀形式化的統計概念
別名: 相關因果謬誤、虛假因果、偽相關
快速回答 — 相關性-因果性謬誤發生在人們假設因為兩個變數在統計上相關(它們一起變化),所以一個必定導致另一個時。這是統計素養中最重要的概念之一:相關性僅僅表明兩件事物一起變化——它沒有告訴我們為什麼它們一起變化。這種關係可能是反向因果(B導致A),兩個變數都可能由第三個因素引起,或者相關性純粹是巧合。

什麼是相關性-因果性謬誤?

「相關性不等於因果性」這個詞組是統計和科學推理的基本原則。當兩個變數顯示統計關係——意味著它們傾向於以可預測的方式一起變化——人們很容易得出一個導致另一個的結論。然而,這一躍進僅僅根據資料是無法證明的。
「兩件事物一起變化告訴我們的是它們的關係,而不是它們的因果性。相關性的發現是調查的開始,而不是結論。」
關鍵洞察是相關性只告訴我們關係存在;它不告訴我們是什麼導致了這種關係。強相關性可能反映反向因果(B導致A)、共同原因(第三個變數導致兩者),或者根本沒有直接關係(巧合或抽樣誤差)。

相關性-因果性的三層理解

  • 入門級:冰淇淋銷量和泳池溺水在夏季都增加。冰淇淋導致溺水嗎?顯然不是——兩者都是由炎熱天氣引起的。這種虛假相關性說明了為什麼僅靠相關性無法建立因果關係。
  • 實務級:在商業分析中,收入和網站流量可能是相關的——但更多流量導致更多收入嗎?可能是,但也可能是成功的行銷活動導致兩者,或者奢侈品導致高收入並吸引也瀏覽更多的富裕客戶。因果主張需要的不僅僅是相關性。
  • 進階級:在流行病學中,發現運動較多的人往往更長壽,並不能證明運動延長了壽命。可能更健康的人運動更多,或者社會經濟因素可能導致運動和長壽。需要隨機對照試驗來建立因果關係。

起源

相關性和因果性之間的明確區分成為20世紀初現代統計學的基石。卡爾·皮爾遜等統計學家以及後來的羅納德·費雪開發了測量相關性的數學工具,同時明確警告不要進行因果解釋。 「相關性不等於因果性」這個詞組在20世紀40年代至50年代特別突出,因為統計方法在科學領域傳播。今天,它是從流行病學到經濟學再到機器學習和A/B測試等各個領域的基本概念。儘管如此,這種謬誤仍然是資料解讀中最常見的錯誤之一——出現在新聞文章、商業報告和日常推理中。

核心要點

1

相關性是描述性的,不是因果性的

相關性描述變數之間的關係——它告訴我們它們一起變化。但描述不是解釋。「為什麼」需要在統計關聯之外進行額外調查。
2

三種替代解釋

當A和B相關時,至少存在三種可能性:A導致B,B導致A,或第三個變數C導致兩者。所有三種都產生相同的相關性模式。
3

巧合存在

隨著足夠的資料,虛假相關性不可避免地出現。網路上充斥著荒謬的相關性(比如人均乳酪消費與死於被床單纏住的人數)——純粹的巧合。
4

因果需要機制

建立真正的因果關係需要展示因果機制——而不僅僅是觀察變數一起變化。這通常需要受控實驗或詳細的理論模型。

應用場景

資料科學與分析

資料科學家必須不斷抵制從相關性推斷因果性的誘惑。A/B測試、受控實驗和因果推斷方法專門設計用於超越單純的相關性。

公共衛生

觀察性研究經常顯示行為與健康結果之間的相關性。但沒有對照試驗,我們無法知道行為是否導致結果,或者混淆因素是否解釋兩者。

經濟與政策

經濟政策經常以相關性為依據:「徵收財產稅的國家GDP更高。」但這種相關性很少能證明政策導致經濟增長;兩者都可能反映其他因素。

日常決策

在日常生活中,我們經常混淆相關性和因果性:「我吃了這種補充劑,感覺好多了,所以它一定有效。」如果不控制其他因素,我們無法知道補充劑是否幫助了我們,或者我們無論如何都會改善。

經典案例

教育與收入的關係提供了一個相關性-因果性複雜性的經典例子。數十年的資料顯示,受教育程度較高的人往往收入較高。人們很容易得出結論:「教育導致更高的收入,因此我們應該鼓勵每個人都接受更多的教育。」 但這種相關性可能反映多種因果故事。可能更聰明的人既追求更多教育又獲得更高收入(能力偏差)。可能知名大學既選擇高成就學生又提供更好的工作網路(選擇性偏差)。可能某些性格特徵導致教育成就和職業成功(遺漏變數偏差)。 最嚴格的研究試圖透過尋找自然實驗來分離因果關係——教育因與能力無關的原因而變化的情況。這些研究通常顯示教育回報比簡單相關性所顯示的要小。教訓是:即使一種關係持續了數十年也可能不是因果性的,基於簡單相關性的政策可能嚴重誤導。

邊界與失效場景

當相關性暗示因果性時:在某些受控背景下——比如隨機實驗,其中只有一組之間一個變數不同——相關性確實提供因果證據。關鍵是知道什麼時候因果推斷的方法條件得到滿足。 當相關性最危險時:相關性在最複雜的觀察系統中最為危險——經濟學、社會科學、健康——許多變數相互作用,未觀察到的混淆很可能存在。在這裡,相關性幾乎不足以得出因果性結論。 常見誤用模式:媒體經常將相關性報導為因果性:「研究表明喝咖啡的人患心臟病較少。」如果不指出這可能反映更健康的人喝咖啡,或者兩者都反映生活方式因素,這種報導就會傳播因果性錯誤資訊。

常見誤區

現實:無論相關性多強,都無法在沒有額外證據的情況下推斷因果關係。強相關性可能來自任何替代解釋——反向因果、第三變數或巧合。
現實:隨著足夠的資料,即使非常不可能的模式也會出現。憑藉數百萬個資料點,找到一些虛假相關性在數學上是必然的——這就是為什麼我們不能僅依賴相關性。
現實:統計控制可以幫助但不能完全解決混淆。我們只能控制我們可以測量的變數——未測量的混淆在觀察性研究中仍然是一個持續存在的問題。

相關概念

後此謬誤

假設因果關係的經典時間版本。如果B跟在A後面,A必定導致B——忽略其他因果可能性。

混淆變數

一個隱藏的第三變數,導致明顯的因果兩者,產生虛假相關性。理解混淆因素是正確因果分析的關鍵。

虛假相關性

一種特定的相關性類型,其中關係是偶然的——兩個變數都不導致對方,也沒有第三個變數連接它們。純粹的統計雜訊。

一句話總結

當你看到相關性時,問問自己:這可能是反向的嗎?第三因素能解釋兩者嗎?這可能只是巧合嗎?相關性是調查的起點,不是結論。