当前位置:首页 > 科学新闻 > 正文

康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达

 作者: 来源:今日科学 发布时间:2018/7/13 12:00:34 字体大小:

本文首发于意得辑专家视点:康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达 29 篇

转载请联系小编,图片源自flickr 作者 fickleandfreckled

碗/盘子越大,人就吃得越多,换成小碗能避免吃太多。

用剧下饭容易吃撑,最多能比平时多吃 60%。

有女性在场时,男性会吃比正常饭量更多的披萨。

国内外教人健康饮食的网站没少援引这些有网感的研究。别以为这是什么爱瞎搞的机构出的调查,它们都出自康奈尔大学食物与品牌实验室 (Cornell Food and Brand Lab)。

这个实验室的负责人 Brian Wansink 是行为心理学出身,主攻饮食、健康领域的研究。除了搞科研,Wansink 还著有畅销书《无意识饮食》,经常在主流媒体露脸教人怎么吃、怎么减肥,可以说是该领域目前最火的研究者之一。

不过,这人最近又出事了。

5 月 8 日,《美国医学会杂志》(JAMA) 主编 Howard Bauchner 在其网站上贴出了对 Wansink 早前发表的 6 篇论文的关注声明 (Expression of Concern),并严词警告学术圈对这些论文中的研究效度加个小心。

JAMA主编关注声明

JAMA主编关注声明,图片来自:JAMA Network

Bauchner 主编在声明中表示:“医学期刊最重要的特质之一是准确,而Wansink 频繁(被)撤稿的现象给他的研究带来了很多不确定性,我们已经要求康奈尔大学重新评估他的研究,在积极的结果出现之前,我们不会撤销关注声明。”

这不是 Wansink 第一次和学术不端扯上关系。早在去年底,他就因为一年内有 5 篇论文被撤稿(其中一篇被撤两次)、论文修改 13 次,而被《科学人》列入 2017 年度十大撤稿事件。据《撤稿观察》 (Retraction Watch)的数据显示,到目前为止,Wansink 所涉及的期刊撤稿和关注声明一共 29个。根据撤稿时间倒序,我们将其中被撤稿的 7 篇论文整理如下:

所以,他的研究到底出了什么幺蛾子?

1. 论文重复发表、自我抄袭

Wansink 于 15 年发表的一篇论文和他 13 年的论文有 1376 字重复,虽然他把自己的论文加进了参考文献中,还是被期刊要求修改。

相似的,另一篇发表于 2003 年关于大豆的论文因为一稿多投而在去年被撤稿。

2. 样本年龄错误

Wansink 于 2012 年发表在期刊《预防医学》 (Preventive Medicine) 上、现已被撤稿的一篇论文,研究了小孩吃蔬菜这件事。他发现如果给难吃的蔬菜取个酷点儿的名字,比如“X 射线眼胡萝卜”,会让小孩改变心意,爱上胡萝卜,从而提高蔬菜摄入。不过,后来 Wansink 承认实验样本并不像论文里写的是 8-11 岁的学生,而是 3-5 岁的小朋友。

3. 用结论操纵数据、数据作假

Wansink 和其团队的邮件记录证实,他在许多研究中操纵数据。比如在一个有关自助餐的项目中,Wansink 要求实验室的研究生根据 p 值倒推变量,尝试不同变量,直到得出“一看就能火”的结果才行。

事实上,学术界对 Wansink 这些受欢迎的研究是否具有信度和效度早存在争议。来自波士顿东北大学的 James Heathers 自己编程,通过统计学原理,从一些已经发表的研究结果中推出原数据的可能面貌。

在跑完 Wansink 的几十篇论文数据后,他发现了 150 多处数据不一致。其中就包括上面的提到的胡萝卜实验。要得到和实验数据相匹配的结果,其中某个样本需要吃掉 60 个胡萝卜。对于 Wansink 给出的“实验用到的是只有正常大小 1/4 的小胡萝卜”,期刊编辑认为非常牵强。

Buzzfeed 对 Wansink 事件进行了一系列报道,他们结合学界其他研究者的意见,认为这些论文中出现的数据不一致,主要是 Wansink 团队在 p-hacking。

关于 p 值,以及它有什么问题?

在研究型论文中,多数研究者会使用假设检验的方法来统计概率。简单来说,假设检验的逻辑过程有 4 步:

提出问题,同时根据问题作出两个相反的假设,即零假设和备选假设

根据样本数据,算出零假设成立前提下,样本观察结果出现的概率,也就是 p 值

按照学术界标准,当 p<=5%,也就是我们常说的实验结果显著

得出结论,零假设被否认

为了让实验结果显著,大研究人员都受到不少来自 5% 这个硬指标的压力。感受一下豆瓣网友翕如这张饼图:

图片来自:豆瓣

为了使 p 值好看,统计时一旦 p 值显著就停止收集数据、根据 p 值显著性倒推变量、删掉一些初始变量改变 p 值等操作都属于 p-hacking。

这也就使容易被人为操作成为 p 值的一个黑点。反对 p 值的研究者认为,p值应该作为衡量实验结果的参考,而不是唯一标准。意得辑专家视点此前就报道过,为了说明 p 值的存在的问题,期刊《Basic and Applied Social Psychology》(BASP) 在 2015 年宣布禁用假设检验及相关的统计程序。

此外,p 值的可重复性低也一直是个问题。弗吉尼亚大学的心理学教授 Brian Nosek 花了 3 年时间和同行研究者对 100 个已经发表的研究重新测试。这些早先 p 值显著的研究中,只有 36% 在二次实验中 p 值依然显著。p 值的不稳定性和样本体量、环境、学科领域间等因素有关。比如在上述项目中,认知心理学研究中的 p 值可复制率是社会心理学研究的两倍。

信源地址:/html/shownews.aspx          
分享1
版权声明
本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。