服用或离开一个P:举起一条腿，或在统计学的严格度量上获得帮助-关于医学

是时候衡量一下p值了吗?

©Sashkin/stock.adobe.com

最近Ioannidis等人．已经提出，p值≤0.05可能是一个不充分的阈值，以建立统计的严密性，需要证明结果的有效性。这里面可能有些道理位置.将p值的严格性从≤0.05至≤ 0.005或0.001肯定会使统计显著性的方法和标准更加精细。

但是，即使没有问题，也很少有有益的事情没有负担。因此，有价值的下一步将是适当地识别和权衡这种标准的变化可能或可能导致的相对利弊。这项任务应该使研究企业中尽可能多的利害攸关者和股东联合起来，因为评估和获得统计严格标准和规范的改变将给这些各自社区带来的利益或负担的代表是至关重要的。

首先，重要的是(或必要的)在科学界(也许是关键公众)的广泛观点(如果不是共识)中，通过采用更严格的p值，哪些学科和领域的生物医学(和其他领域)可能会得到最好的服务。例如，一些领域的研究可能会因为可行的研究对象数量少而受到阻碍，以及/或结果和效果的差异相对较小(例如，新兴技术和技术)，使用p值≤0.005、0.001等可能会更好。[1.,2]. 补充医学某些方面的研究也是如此，以前的研究要么进行得不好，要么结果不好[1.,2.,3.]在这两种情况下，对（积极的）结果进行更严格的审查可能会使报告的结果获得更大的接受度。

也可能是使用更严格的p值表明安慰剂效应的发生率更高。这可以被视为赞成或反对，在很大程度上取决于所应用的安慰剂的定义和含义。当然，将安慰剂反应仅仅视为缺乏效应将被视为负面的观点。但成功与否h反应确实是“缺乏效果”，或者更确切地说，它们是否反映了除所评估的药物或技术之外的某些因素引起的生理效应[1.,2.,3.] ?

我们建议建立标准，以建立特定类型和研究背景下给定p值的相对可接受性和要求。

如果我们呼吁采用更严格的p值来进行更为现代的研究，那么我们是否也应该同样现代地理解安慰剂反应是诱导生物功能变化的多成分过程和机制？

在针对安慰剂（和其他）反应底物的研究中使用更严格的p值可能会产生关于什么有效、什么无效、在谁身上以及在什么条件下有效的信息≤此外，采用更严格的p值可能会促使、证明（并提供新的测量工具）重新检查和评估先前的研究。

为了达到这个目标，我们建议从那些已经调查了机制(健康、疾病和伤害)、工具和技术的研究开始，这些研究可以提供最大的潜在的好处或坏处，从而重新评估结果可能产生的相对好的和/或有害的结果。

或者，正如一些人所建议的那样，p值应该被完全撇在一边吗[1.,2.] ?p值不再有价值了吗?我们不敢苟同，并认为p值作为一种有用的结构仍然有其优点;至少部分如此。将p值与其他查询一起使用，可能会为某些类型的结果的质量、意义和价值提供更准确的度量。例如，被测试的干预产生了什么样的效果?这些发现对临床医生和患者有意义吗?置信区间是多少?是否可以使用不同形式的统计(例如-贝叶斯方法)来评估正在测试的内容?

有鉴于此，我们建议制定标准，以确定特定类型和研究背景下给定p值的相对可接受性和要求。可以肯定，这可以提供一个有用的工具包。因此，尽管古老的格言“如果一个人只有一把锤子，那么一切都是一颗钉子”，梅（正确）在使用单一工具这一过时的领域上迈出一大步，也许这也为重新开发仪器和度量衡带来了挑战和机遇。我们认为“…拥有不同尺寸和重量的锤子，可以与其他工具配合使用”的想法取消这句格言及其应用的限制，并在开发可能更适合当前和未来工作的研究方法方面提供支持。

论医学

接受——或离开——一个P：提升一条腿，或在统计严格性指标上获得一条腿

评论

克里斯蒂娜·坎特雷尔和詹姆斯·乔丹诺

克里斯蒂娜·坎特雷尔和詹姆斯·乔丹诺的最新帖子(见识)

受欢迎的文章

大多数共用员额

档案

评论

克里斯蒂娜·坎特雷尔和詹姆斯·乔丹诺

克里斯蒂娜·坎特雷尔和詹姆斯·乔丹诺的最新帖子(见识)

在药品标签上流行

受欢迎的文章

大多数共用员额

档案