相關性不等於因果性

類別: 謬誤
類型: 邏輯謬誤
來源: 20世紀形式化的統計概念
別名: 相關因果謬誤、虛假因果、偽相關

快速回答 — 相關性-因果性謬誤發生在人們假設因為兩個變數在統計上相關（它們一起變化），所以一個必定導致另一個時。這是統計素養中最重要的概念之一：相關性僅僅表明兩件事物一起變化——它沒有告訴我們為什麼它們一起變化。這種關係可能是反向因果（B導致A），兩個變數都可能由第三個因素引起，或者相關性純粹是巧合。

什麼是相關性-因果性謬誤？

「相關性不等於因果性」這個詞組是統計和科學推理的基本原則。當兩個變數顯示統計關係——意味著它們傾向於以可預測的方式一起變化——人們很容易得出一個導致另一個的結論。然而，這一躍進僅僅根據資料是無法證明的。

「兩件事物一起變化告訴我們的是它們的關係，而不是它們的因果性。相關性的發現是調查的開始，而不是結論。」

關鍵洞察是相關性只告訴我們關係存在；它不告訴我們是什麼導致了這種關係。強相關性可能反映反向因果（B導致A）、共同原因（第三個變數導致兩者），或者根本沒有直接關係（巧合或抽樣誤差）。

起源

相關性和因果性之間的明確區分成為20世紀初現代統計學的基石。卡爾·皮爾遜等統計學家以及後來的羅納德·費雪開發了測量相關性的數學工具，同時明確警告不要進行因果解釋。「相關性不等於因果性」這個詞組在20世紀40年代至50年代特別突出，因為統計方法在科學領域傳播。今天，它是從流行病學到經濟學再到機器學習和A/B測試等各個領域的基本概念。儘管如此，這種謬誤仍然是資料解讀中最常見的錯誤之一——出現在新聞文章、商業報告和日常推理中。

核心要點

相關性是描述性的，不是因果性的

相關性描述變數之間的關係——它告訴我們它們一起變化。但描述不是解釋。「為什麼」需要在統計關聯之外進行額外調查。

三種替代解釋

當A和B相關時，至少存在三種可能性：A導致B，B導致A，或第三個變數C導致兩者。所有三種都產生相同的相關性模式。

巧合存在

隨著足夠的資料，虛假相關性不可避免地出現。網路上充斥著荒謬的相關性（比如人均乳酪消費與死於被床單纏住的人數）——純粹的巧合。

因果需要機制

建立真正的因果關係需要展示因果機制——而不僅僅是觀察變數一起變化。這通常需要受控實驗或詳細的理論模型。

應用場景

資料科學與分析

資料科學家必須不斷抵制從相關性推斷因果性的誘惑。A/B測試、受控實驗和因果推斷方法專門設計用於超越單純的相關性。

公共衛生

觀察性研究經常顯示行為與健康結果之間的相關性。但沒有對照試驗，我們無法知道行為是否導致結果，或者混淆因素是否解釋兩者。

經濟與政策

經濟政策經常以相關性為依據：「徵收財產稅的國家GDP更高。」但這種相關性很少能證明政策導致經濟增長；兩者都可能反映其他因素。

日常決策

在日常生活中，我們經常混淆相關性和因果性：「我吃了這種補充劑，感覺好多了，所以它一定有效。」如果不控制其他因素，我們無法知道補充劑是否幫助了我們，或者我們無論如何都會改善。

經典案例

教育與收入的關係提供了一個相關性-因果性複雜性的經典例子。數十年的資料顯示，受教育程度較高的人往往收入較高。人們很容易得出結論：「教育導致更高的收入，因此我們應該鼓勵每個人都接受更多的教育。」但這種相關性可能反映多種因果故事。可能更聰明的人既追求更多教育又獲得更高收入（能力偏差）。可能知名大學既選擇高成就學生又提供更好的工作網路（選擇性偏差）。可能某些性格特徵導致教育成就和職業成功（遺漏變數偏差）。最嚴格的研究試圖透過尋找自然實驗來分離因果關係——教育因與能力無關的原因而變化的情況。這些研究通常顯示教育回報比簡單相關性所顯示的要小。教訓是：即使一種關係持續了數十年也可能不是因果性的，基於簡單相關性的政策可能嚴重誤導。

邊界與失效場景

當相關性暗示因果性時：在某些受控背景下——比如隨機實驗，其中只有一組之間一個變數不同——相關性確實提供因果證據。關鍵是知道什麼時候因果推斷的方法條件得到滿足。 當相關性最危險時：相關性在最複雜的觀察系統中最為危險——經濟學、社會科學、健康——許多變數相互作用，未觀察到的混淆很可能存在。在這裡，相關性幾乎不足以得出因果性結論。 常見誤用模式：媒體經常將相關性報導為因果性：「研究表明喝咖啡的人患心臟病較少。」如果不指出這可能反映更健康的人喝咖啡，或者兩者都反映生活方式因素，這種報導就會傳播因果性錯誤資訊。

常見誤區

誤區：強相關性證明因果關係

現實：無論相關性多強，都無法在沒有額外證據的情況下推斷因果關係。強相關性可能來自任何替代解釋——反向因果、第三變數或巧合。

誤區：如果相關性是巧合，我們應該看到更多隨機模式

現實：隨著足夠的資料，即使非常不可能的模式也會出現。憑藉數百萬個資料點，找到一些虛假相關性在數學上是必然的——這就是為什麼我們不能僅依賴相關性。

誤區：控制變數可以解決問題

現實：統計控制可以幫助但不能完全解決混淆。我們只能控制我們可以測量的變數——未測量的混淆在觀察性研究中仍然是一個持續存在的問題。

後此謬誤

假設因果關係的經典時間版本。如果B跟在A後面，A必定導致B——忽略其他因果可能性。

混淆變數

一個隱藏的第三變數，導致明顯的因果兩者，產生虛假相關性。理解混淆因素是正確因果分析的關鍵。

虛假相關性

一種特定的相關性類型，其中關係是偶然的——兩個變數都不導致對方，也沒有第三個變數連接它們。純粹的統計雜訊。

一句話總結

當你看到相關性時，問問自己：這可能是反向的嗎？第三因素能解釋兩者嗎？這可能只是巧合嗎？相關性是調查的起點，不是結論。

相關性不等於因果性

什麼是相關性-因果性謬誤？

相關性-因果性的三層理解

起源

核心要點

應用場景

資料科學與分析

公共衛生

經濟與政策

日常決策

經典案例

邊界與失效場景

常見誤區

相關概念

後此謬誤

混淆變數

虛假相關性

一句話總結

​什麼是相關性-因果性謬誤？

​相關性-因果性的三層理解

​起源

​核心要點

​應用場景

資料科學與分析

公共衛生

經濟與政策

日常決策

​經典案例

​邊界與失效場景

​常見誤區

​相關概念

後此謬誤

混淆變數

虛假相關性

​一句話總結

什麼是相關性-因果性謬誤？

相關性-因果性的三層理解

起源

核心要點

應用場景

經典案例

邊界與失效場景

常見誤區

相關概念

一句話總結