马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 北京-丹丹 于 2014-2-16 15:46 编辑 5 d; G& X4 }8 A! }! z
4 M$ S4 ^6 T& j3 ~# v% Q: W2月12日,Nature发表了一篇统计学论文(Nature. 2014, 506, 150-152. doi:10.1038/506150a)及一篇编辑点评(Nature. 2014, 506, 131-132. doi:10.1038/506131b),称统计效度金标准P值没有大多数科学家认为的那么可靠。 论文中引用了两个案例,第一个案例是弗吉尼亚大学的心理学博士研究生Matt Motyl(Perspect. Psychol. Sci. 2012, 7, 615-631.),他进行了一项近2000人的调查,发现政治中庸派比左翼、右翼能够更加精确地看到shades of grey,而极端分子总是看到the world in black and white。当时Matt Motyl非常开心,因为得到的P值为0.01,可以解读为统计学差异极显著,仿佛看到了权威期刊在招手。由于学界对科研的可重现性比较敏感,Matt Motyl决定再重复一次,于是少年成名梦就这样破灭了,P值变成了0.59,连显著差异的0.05都没有达到。 另一个案例是芝加哥大学的John T. Cacioppo(Proc. Natl Acad. Sci. USA. 2013, 110, 10135-10140.),他研究了通过网络认识与非网络认识夫妇离婚率与婚姻满意度的差别,样本量超过了19000人,发现通过网络认识的夫妇对婚姻满意度高(P<0.001)、离婚率低(P<0.002)。这就是典型的p值转移注意力,而忽略最重要的实际效应大小,实际离婚率(7.67% vs 5.96%)、婚姻满意度(5.48 vs 5.64)差别并不大。P值能够回答“Is there an effect?”,却不能回答“How much of an effect is there?”,研究人员应该关注效应大小和置信区间,避免P值陷阱。 论文中做了一个简洁明了的P值校正图,原始数据出自2001年的一篇统计学论文(AM. STAT. 2001, 55, 62-71.),原文献中举了一个非常有意思的例子:
6 _6 M/ z) r! H7 X
+ \' U4 B* v {- s$ ]( v 有12种在研药物计为D1、D2、D3……,每种药物都在如下假设下做统计学检测: 零假设H0:药物Di无效 备择假设H1:药物Di有效 得出的P值见列表
6 C* i; r0 }* B/ R现在的问题是各药物的有效性证据效力如何?D5的P值为0.01,意味着D5有99%的可能有效吗?当然不是,这里需要对P值进行校正。 P值是评价实验结果是否偶然的指标,但不能说明某假设正确的概率有多大,假设正确的概率取决于实验结果的效力,更重要的还取决于之前对该假设的认识,也就是传统观点的可信度有多大。比如实验开始前,某假设有50%的概率正确,实验拿到的P值为0.01,那么实验后假设正确的概率为89%,而不是99%。 再回到Matt Motyl的案例,许多人可能会误解P值,认为他的研究结果只有1%的可能是误报,实际上他误报的可能性是大于10%的。越不可能的假设,比如心灵感应、外星人、顺势疗法,在实验后越容易出现误报,不论得到的P值是多少。 总之,在统计学上,对与错总是并存的,只是看谁的证据更有力,新理论不会一下就推翻旧理论,随着证据的积累,正确理论的可信度会逐渐增加。 3 L& L% p" d x# e- x
【Nature:大多数科学家都是统计盲】进行数据统计分析时,许多科学家看到 P 值为0.01,就会马上意识到这个含义为“结果出现错误的几率为 1%”。这种我们习以为常的认识到底从什么时候开始的?这种判断是否真的可靠?把 P 值作为正确与否的判断标准可能是错误的。http://t.cn/8FpRaeQ
+ r0 ?4 v4 y, W0 `, s
! V- W7 {7 U0 w* r |