類別: 謬誤
類型: 邏輯謬誤
來源: 20世紀形式化的統計概念
別名: 相關因果謬誤、虛假因果、偽相關
類型: 邏輯謬誤
來源: 20世紀形式化的統計概念
別名: 相關因果謬誤、虛假因果、偽相關
快速回答 —
相關性-因果性謬誤發生在人們假設因為兩個變數在統計上相關(它們一起變化),所以一個必定導致另一個時。這是統計素養中最重要的概念之一:相關性僅僅表明兩件事物一起變化——它沒有告訴我們為什麼它們一起變化。這種關係可能是反向因果(B導致A),兩個變數都可能由第三個因素引起,或者相關性純粹是巧合。
什麼是相關性-因果性謬誤?
「相關性不等於因果性」這個詞組是統計和科學推理的基本原則。當兩個變數顯示統計關係——意味著它們傾向於以可預測的方式一起變化——人們很容易得出一個導致另一個的結論。然而,這一躍進僅僅根據資料是無法證明的。「兩件事物一起變化告訴我們的是它們的關係,而不是它們的因果性。相關性的發現是調查的開始,而不是結論。」關鍵洞察是相關性只告訴我們關係存在;它不告訴我們是什麼導致了這種關係。強相關性可能反映反向因果(B導致A)、共同原因(第三個變數導致兩者),或者根本沒有直接關係(巧合或抽樣誤差)。
相關性-因果性的三層理解
- 入門級:冰淇淋銷量和泳池溺水在夏季都增加。冰淇淋導致溺水嗎?顯然不是——兩者都是由炎熱天氣引起的。這種虛假相關性說明了為什麼僅靠相關性無法建立因果關係。
- 實務級:在商業分析中,收入和網站流量可能是相關的——但更多流量導致更多收入嗎?可能是,但也可能是成功的行銷活動導致兩者,或者奢侈品導致高收入並吸引也瀏覽更多的富裕客戶。因果主張需要的不僅僅是相關性。
- 進階級:在流行病學中,發現運動較多的人往往更長壽,並不能證明運動延長了壽命。可能更健康的人運動更多,或者社會經濟因素可能導致運動和長壽。需要隨機對照試驗來建立因果關係。
起源
相關性和因果性之間的明確區分成為20世紀初現代統計學的基石。卡爾·皮爾遜等統計學家以及後來的羅納德·費雪開發了測量相關性的數學工具,同時明確警告不要進行因果解釋。 「相關性不等於因果性」這個詞組在20世紀40年代至50年代特別突出,因為統計方法在科學領域傳播。今天,它是從流行病學到經濟學再到機器學習和A/B測試等各個領域的基本概念。儘管如此,這種謬誤仍然是資料解讀中最常見的錯誤之一——出現在新聞文章、商業報告和日常推理中。核心要點
應用場景
資料科學與分析
資料科學家必須不斷抵制從相關性推斷因果性的誘惑。A/B測試、受控實驗和因果推斷方法專門設計用於超越單純的相關性。
公共衛生
觀察性研究經常顯示行為與健康結果之間的相關性。但沒有對照試驗,我們無法知道行為是否導致結果,或者混淆因素是否解釋兩者。
經濟與政策
經濟政策經常以相關性為依據:「徵收財產稅的國家GDP更高。」但這種相關性很少能證明政策導致經濟增長;兩者都可能反映其他因素。
日常決策
在日常生活中,我們經常混淆相關性和因果性:「我吃了這種補充劑,感覺好多了,所以它一定有效。」如果不控制其他因素,我們無法知道補充劑是否幫助了我們,或者我們無論如何都會改善。
經典案例
教育與收入的關係提供了一個相關性-因果性複雜性的經典例子。數十年的資料顯示,受教育程度較高的人往往收入較高。人們很容易得出結論:「教育導致更高的收入,因此我們應該鼓勵每個人都接受更多的教育。」 但這種相關性可能反映多種因果故事。可能更聰明的人既追求更多教育又獲得更高收入(能力偏差)。可能知名大學既選擇高成就學生又提供更好的工作網路(選擇性偏差)。可能某些性格特徵導致教育成就和職業成功(遺漏變數偏差)。 最嚴格的研究試圖透過尋找自然實驗來分離因果關係——教育因與能力無關的原因而變化的情況。這些研究通常顯示教育回報比簡單相關性所顯示的要小。教訓是:即使一種關係持續了數十年也可能不是因果性的,基於簡單相關性的政策可能嚴重誤導。邊界與失效場景
當相關性暗示因果性時:在某些受控背景下——比如隨機實驗,其中只有一組之間一個變數不同——相關性確實提供因果證據。關鍵是知道什麼時候因果推斷的方法條件得到滿足。 當相關性最危險時:相關性在最複雜的觀察系統中最為危險——經濟學、社會科學、健康——許多變數相互作用,未觀察到的混淆很可能存在。在這裡,相關性幾乎不足以得出因果性結論。 常見誤用模式:媒體經常將相關性報導為因果性:「研究表明喝咖啡的人患心臟病較少。」如果不指出這可能反映更健康的人喝咖啡,或者兩者都反映生活方式因素,這種報導就會傳播因果性錯誤資訊。常見誤區
誤區:強相關性證明因果關係
誤區:強相關性證明因果關係
現實:無論相關性多強,都無法在沒有額外證據的情況下推斷因果關係。強相關性可能來自任何替代解釋——反向因果、第三變數或巧合。
誤區:如果相關性是巧合,我們應該看到更多隨機模式
誤區:如果相關性是巧合,我們應該看到更多隨機模式
現實:隨著足夠的資料,即使非常不可能的模式也會出現。憑藉數百萬個資料點,找到一些虛假相關性在數學上是必然的——這就是為什麼我們不能僅依賴相關性。
誤區:控制變數可以解決問題
誤區:控制變數可以解決問題
現實:統計控制可以幫助但不能完全解決混淆。我們只能控制我們可以測量的變數——未測量的混淆在觀察性研究中仍然是一個持續存在的問題。
相關概念
後此謬誤
假設因果關係的經典時間版本。如果B跟在A後面,A必定導致B——忽略其他因果可能性。
混淆變數
一個隱藏的第三變數,導致明顯的因果兩者,產生虛假相關性。理解混淆因素是正確因果分析的關鍵。
虛假相關性
一種特定的相關性類型,其中關係是偶然的——兩個變數都不導致對方,也沒有第三個變數連接它們。純粹的統計雜訊。