施普林格·自然科研环境联盟主管Ed Gerstner撰文阐述了培训对于科研诚信和开放数据的重要性。
(资料图)
软糖会引发痤疮吗?
由XKCD的作者Randall Munroe提出的这个问题,一定程度上说明了为什么开放数据对于改善科研诚信如此重要。
故事是这样的。有人听说软糖会引发痤疮,于是要求科学家进行调查。为此,20家不同的实验室(这是我的版本)开始分别研究各种颜色的软糖。这家实验室寻找紫色软糖和痤疮之间的关联,那家实验室研究黄色软糖和痤疮的关联,另一家研究红色软糖等等。
最后,大部分实验室发现,食用特定颜色的软糖和痤疮之间没有相关性。只有一家实验室发现,绿色软糖和痤疮之间存在相关性,且其置信水平为95%。
在理想的世界里,研究绿色软糖的人员将会以这次意外的结果为出发点,开展后续研究。在一个论文发表数量为王的世界中,他们很有可能会努力将其尽快发表。在Munroe的故事中,这份研究结果最后一定会登上新闻。
图片来源:https://xkcd.com/882/
尽管听起来天马行空,但类似的事情正在现实生活中不断上演。如果将一个实验重复足够多次,那么你很可能会得到一次看上去异乎寻常的实验结果。当然,只有忽略掉其他结果,这次结果才显得非同寻常。但倘若其他实验室也开展了同样的实验——这些实验均一无所获,而你对这些结果毫不知情呢?
有人说,让作者们发表他们的阴性实验结果就好了。但我不这么认为。我觉得这不现实,并不是因为没有期刊会接收阴性数据——实际上有很多,而只是因为很少有研究人员愿意花费宝贵时间来撰写阴性结果的论文,而且大部分读者也不想读这类论文。这里说的是大部分情况,当然也有例外,比如那些推翻现有认识的阴性结果。
开放数据是关键
如果无法获得许许多多普通的阴性结果,我们就不能有效地检查那些异常结果,那么伪阳性结果将会一次次登上新闻头条。
我相信开放数据能解决这个问题。我们不需要更多的阴性结果论文,但我们需要这些阴性结果背后的实验数据。
推动研究数据的广泛共享,还有其他很多好处。
许多人已经知道,美国白宫科技政策办公室(OSTP)近期宣布,从2025年年底起,所有联邦资助研究产生的相关数据都必须实现开放获取。
然而,仅仅将数据上传到存储库还不够。为了便于他人查找,这些数据还应配有适当的元数据。
对于那些开放数据共享已成为多年常态的研究领域,这或许不成问题。但大部分领域的研究人员并不知道该如何生成相关的元数据,以实现其数据的可发现、可访问、可互操作、可重复使用(FAIR原则)。
斯坦福生物医学信息学研究中心主任Mark Musen表示,各领域的研究人员要共同制定实验数据集共享的元数据标准,这是实现数据FRIA的重要步骤。
制定元数据标准是一个良好的开端,但研究人员对培训的需求更加迫切。
亟需的数据培训
2019年,在《自然》于墨尔本主办的一次会议上,澳大利亚学术界的各方利益相关人士齐聚一堂,就科研诚信问题展开讨论。根据会议上的一项重要提议,我们与澳大利亚科学院合作调查了研究人员对开放数据的认识程度,以及现有培训的水平。在这项调查中,研究人员对“你觉得你们获得的培训存在哪些不足”的回答引人注目。在前10条最常见的回答中,有8条都体现了他们对更多数据培训的需求,包括数据管护、长期储存和管理、理解并遵守数据获取政策、所有权、数据共享和重复使用,以及相关的元数据等。
其他的调查也有类似的发现。例如,《2020年开放数据状况报告》发现,49%的受访者表示在制定可行的数据管理方案上有困难。如今,制定数据管理方案逐渐成为全球资助机构的共同要求,而研究人员尚未接受进一步的培训。
OSTP的共享数据规定是改善科研严谨与诚信、提高研究影响力的大好时机。但这也可能成为那些早已精力透支的研究人员的沉重负担。在这项规定落地之前,我们还有时间。
是时候为研究人员提供数据共享方面的培训了。
1月10日,施普林格·自然将携手中国科学院计算机网络信息中心、Figshare共同为您呈现“开放数据现状研讨会:全球和中国的科研数据管理政策与实践”。会议将邀请国内外研究数据共享方面的专家,为您解读《2022年开放数据状况报告》的主要发现,探讨中国开放数据的政策和实践,会议还将为您带来全球开放数据的多元化声音。
扫码免费注册参会