可视化资源

相关不等于因果

一个经典的例子:城市里冰淇淋销量越高,溺水人数也越多,两者高度相关。难道吃冰淇淋会让人溺水?当然不是——背后藏着一个共同的原因:气温。天一热,冰淇淋卖得多,下水游泳的人也多、溺水自然多。是气温同时推高了两者,它俩之间并没有直接的因果关系。这就是数据分析最容易踩的坑:看到相关,就以为有因果。下面把隐藏的气温“控制住”,看那条相关性怎么凭空消失。

每个点是某一天:横轴冰淇淋销量、纵轴溺水人数,颜色是当天气温(蓝=凉红=热)。整体看是一条明显的上升趋势(强相关)。但把气温固定在某个范围内再看……

共同原因 = 混淆变量

气温同时推高冰淇淋和溺水,制造出两者的假相关——它叫“混淆变量”。

控制变量

把气温固定在一个小范围内再看,冰淇淋和溺水的相关就消失了——证明没有直接因果。

所以要小心

看到相关别急着下因果结论;要靠对照实验或控制混淆变量才能验证因果。