当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。相关关系虽然不是因果关系,但也是寻找原因的一个重要切口。
但是,有时两变量之间并不存在相关关系,但却可能出现较高的相关系数。
如存在另一个共同影响两变量的因素。在时间序列资料中往往就会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么直接关系。
再看一个例子,夏天冰淇淋销量随着气温上升而相应上升,火灾数量也与气温上升呈正向相关,但如果说冰淇淋销量与火灾数量的相关关系,就属于虚假相关了。
原因的混杂也可能导致错误的结论。如有人做过计算,发现:在美国,经济学学位越高的人,收入越低;而其中有很多容易被忽略的现象是,如大量读经济学的人才都本科毕业即进入高收入的金融领域,而读经济学硕士和博士的学子则较多到高校、政府机构工作。类似的,笼统地计算学位与收入之间的相关系数会得到负值。但分别对大学、政府机构、企业各类别,计算学位与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高,收入也高。
另外,注意不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多,销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这个道理似乎人人都明白,但在分析问题时却容易忽视。
把握好相关关系,对理性认识医患关系,尤其是把握具体医患纠纷中的责任边界至关重要。
(以上内容主要参考魁网 -统计师考试网)