第 12 章 统计陷阱:显著不等于可靠
一、统计显著只是入口,不是终点
临床数据里,最容易被市场盯住的数字之一,是 p 值。
很多新闻稿会写:
p < 0.05。
p < 0.01。
p < 0.001。
达到统计显著。
市场看到这些数字,往往会立刻反应。
但统计显著不是资产成功的终点。
它只是证据判断的入口。
p 值回答的是:
在某个统计模型和试验设计下,如果无效假设成立,观察到当前或更极端结果的概率有多低。
它不是回答:
这个药一定有效。
也不是回答:
疗效一定有临床意义。
更不是回答:
这个资产一定能批准、能卖、能赚钱。
统计显著很重要。
没有统计显著,很多注册路径很难走通。
但统计显著必须和试验设计、样本量、事件数、终点质量、数据完整性、分析方法和临床意义一起读。
否则投资人很容易被一个漂亮 p 值带走。
本章核心句:
显著性说明结果不太像随机噪音,但可靠性取决于这个结果是否来自预设、充分、完整、可重复、临床有意义的证据链。
---
二、p 值不告诉你疗效有多大
p 值最常见的误用,是把显著性当成疗效大小。
这是错误的。
p 值不告诉你疗效有多大。
它只告诉你结果和无效假设之间的统计距离。
一个很小的疗效,如果样本量非常大,也可能得到很漂亮的 p 值。
一个很大的疗效,如果样本量太小,也可能没有达到统计显著。
所以 p 值必须和效应量一起看。
效应量包括:
绝对风险降低。
相对风险降低。
hazard ratio。
odds ratio。
均值差。
缓解率差。
评分改善幅度。
这些才告诉我们疗效有多大。
如果 p 值很漂亮,但效应量很小,投资人要问:
这个差异对患者有意义吗?
医生会因此换药吗?
支付方会为这个差异买单吗?
监管是否认为这个获益足够?
反过来,如果效应量很大但 p 值不显著,要问:
样本量是否太小?
数据是否还不成熟?
是否只是早期信号?
是否值得后续验证?
显著性和效应量是两个问题。
不能互相替代。
---
三、样本量太小,漂亮结果也可能不稳
小样本试验很容易产生漂亮结果。
尤其在早期 biotech 里,几十人、上百人的 II 期试验经常引发巨大股价波动。
小样本不是没有价值。
早期试验本来就是为了寻找信号。
但小样本的核心问题是:
不稳定。
几个患者的结果变化,就可能大幅改变缓解率、均值、风险比和置信区间。
一个极端反应者可能让数据看起来很好。
几个早期进展者也可能让数据看起来很差。
所以小样本数据必须谨慎。
投资人要看:
样本量是多少?
每组分别多少?
事件数是多少?
随访多长?
置信区间多宽?
结果是否被少数患者驱动?
是否有独立队列重复?
是否有历史对照偏差?
小样本数据最适合作为方向性证据。
它可以提高兴趣。
可以支持下一步开发。
可以说明机制可能成立。
但它通常不能直接等同于资产已经成立。
资产质量要靠更大样本、更清楚终点、更完整随访和可重复结果来支撑。
---
四、事件数比入组人数更关键
在很多时间到事件终点里,事件数比入组人数更关键。
比如 PFS、OS、心血管事件、住院、复发、疾病进展。
试验可能入组很多人。
但如果事件发生太少,统计把握仍然不足。
事件数决定分析成熟度。
如果数据还不成熟,hazard ratio 可能波动很大。
曲线尾部也可能不稳定。
早期数据看起来很好,后续事件增加后可能回归。
所以投资人读时间到事件数据时,要问:
事件数是多少?
预设分析需要多少事件?
当前数据成熟度是多少?
中位随访时间多长?
是否只是 interim analysis?
曲线尾部还有多少患者?
如果公司只说“数据积极”,但没有披露事件数和成熟度,判断就要保守。
事件数不足时,数据不是没用。
但它属于早期信号。
不能当作完全确证。
---
五、多重比较会制造假阳性
临床试验里,比较越多,出现偶然阳性的机会越大。
这就是多重比较问题。
如果一个试验只检验一个主要终点,p < 0.05 的含义相对清楚。
但如果试验同时检验很多终点、很多剂量、很多亚组、很多时间点,至少有一个结果显著的概率会提高。
这时候如果不做多重性校正,就容易制造假阳性。
常见多重比较包括:
多个主要终点。
多个关键次要终点。
多个剂量组。
多个亚组。
多个时间点。
多个 biomarker 阈值。
多个探索性分析。
投资人要问:
统计方案是否预先规定了分析顺序?
是否控制总体 I 类错误率?
关键次要终点是否经过 multiplicity adjustment?
阳性结果是主要终点,还是探索性终点?
如果公司从很多分析里挑一个显著结果讲故事,这个结果就要打折。
不是说它一定没意义。
而是它需要后续验证。
多重比较最危险的地方,是让噪音看起来像发现。
---
六、事后分析只能产生假设,不能直接确证资产
事后分析,也就是 post hoc analysis,在药物开发中很常见。
试验结果出来后,公司可能发现某个亚组表现更好。
某个 biomarker 阈值更合适。
某个时间点更有差异。
某种调整后分析更漂亮。
这些分析不一定没有价值。
有时候它们能帮助重新理解疾病机制,找到真正适合的人群。
但事后分析的证据等级必须降低。
因为它不是预先设定的问题。
它是在数据出来后找答案。
这很容易受到选择偏差影响。
投资人要问:
这个事后发现有没有机制支持?
样本量是否足够?
是否只是从很多分析中挑出的一个漂亮结果?
公司是否计划前瞻性验证?
监管是否接受这种分析?
如果没有前瞻性验证,事后分析只能产生假设。
不能直接确证资产。
一个失败试验之后,公司靠事后亚组重启故事,市场可以关注,但不能当成风险已经解除。
---
七、缺失数据会改变结果
临床试验里,缺失数据很常见。
患者退出。
失访。
停药。
死亡。
检测缺失。
量表未完成。
影像未按时评估。
这些都会影响结果。
缺失数据最麻烦的地方是:
它往往不是随机缺失。
比如副作用严重的患者更容易退出。
疗效差的患者更容易停药。
病情恶化的患者更容易失访。
如果缺失数据处理不当,结果可能被美化。
投资人要看:
缺失比例是多少?
两组是否平衡?
缺失原因是什么?
主要分析如何处理缺失?
有没有 sensitivity analysis?
不同处理方法下结果是否一致?
如果一个试验结果对缺失数据处理非常敏感,可靠性就要降低。
特别是 PRO、功能评分、长期随访和真实世界研究,缺失数据尤其重要。
一个漂亮均值改善,如果建立在大量缺失数据上,就不能轻易相信。
---
八、提前停试可能放大疗效
有些试验会因为疗效明显而提前停止。
这听起来很好。
说明药物很强。
但提前停试也有统计风险。
早期强信号有时会高估真实疗效。
随着事件数增加、随访延长,疗效估计可能回归。
提前停试还可能导致安全性数据库不足。
长期风险看不清。
亚组数据不成熟。
商业化需要的完整信息不够。
所以提前停试要具体分析。
要问:
提前停止是预先设定的吗?
由独立数据监测委员会决定吗?
达到的是明确 stopping boundary 吗?
事件数是否足够?
安全性随访是否充分?
后续是否还需要确证或长期随访?
提前停试不是坏事。
但它不是自动完美。
它可能提高信心,也可能留下新的不确定性。
---
九、非劣效试验不能按优效试验来读
有些临床试验不是为了证明新药更好,而是证明它不比现有治疗差太多。
这叫非劣效试验。
非劣效试验常见于已有有效治疗的领域。
新药可能优势不在疗效,而在安全性、便利性、给药频率、成本或特殊人群。
非劣效试验要特别看非劣效界值。
这个界值设得太宽,药物可能实际差很多也能通过。
界值设得合理,结果才有说服力。
投资人要问:
为什么做非劣效,而不是优效?
非劣效界值是多少?
这个界值是否临床合理?
是否保留了对照药足够疗效?
新药除了不差以外,有什么优势?
如果只是“不差”,但没有安全性、便利性或商业化优势,资产价值有限。
非劣效成功不是“疗效更强”。
它只是证明新药在某个可接受范围内不差。
价值还要看其他维度。
---
十、历史对照和单臂试验要特别谨慎
很多早期或罕见病试验使用单臂设计。
没有随机对照组。
只和历史数据或自然病程比较。
单臂试验不是没价值。
在某些重症、罕见病、后线肿瘤或无治疗选择领域,单臂强信号可以非常重要。
但单臂试验的核心风险是对照不清。
历史对照可能不匹配。
患者选择可能更有利。
诊断标准可能变化。
背景治疗可能变化。
随访方式可能不同。
终点评估可能不同。
所以单臂数据要问:
疾病自然史是否清楚?
历史对照是否可靠?
患者基线是否可比?
疗效幅度是否远超历史预期?
终点是否客观?
是否有独立评审?
是否需要后续随机对照验证?
单臂试验最有说服力的情况,是疗效非常大、终点客观、疾病严重、无有效治疗、自然史清楚。
如果疗效边际、终点主观、历史对照模糊,证据质量就弱。
---
十一、数据成熟度决定当前能说多重
临床数据不是一次性完整出现。
很多数据是分阶段披露的。
初步数据。
topline data。
interim data。
updated data。
final analysis。
publication。
CSR。
每一个阶段的证据重量不同。
topline data 通常信息有限。
会议 poster 比新闻稿更完整。
论文比 poster 更完整。
CSR 最接近完整试验报告。
投资人要根据数据成熟度控制结论强度。
如果只有 topline,不能下过重结论。
如果只有中期分析,不能假装最终结果已经确定。
如果只有公司口径,没有完整表格,必须保留不确定性。
数据成熟度越低,越要关注:
事件数。
随访时间。
缺失数据。
亚组一致性。
安全性暴露。
统计方案。
后续披露计划。
很多投资错误,来自把早期片段数据当成完整证据。
---
十二、可靠数据的特征
可靠的临床数据通常有几个特征。
第一,问题预先设定。
主要终点、人群、剂量、统计方案都清楚。
第二,样本量和事件数足够。
结果不是少数患者驱动。
第三,效应量有临床意义。
不仅 p 值漂亮。
第四,置信区间合理。
不确定性可接受。
第五,结果一致。
主要终点、关键次要终点、亚组、敏感性分析方向一致。
第六,缺失数据少且处理透明。
第七,安全性数据库足够支持风险收益判断。
第八,结果可以被机制解释。
第九,外部证据支持。
包括同类药、自然史、真实世界或前期研究。
第十,后续可重复。
一个可靠结果,不一定每项都完美。
但整体证据链要协调。
如果数据只靠一个漂亮 p 值支撑,而其他部分都模糊,就不能说可靠。
---
十三、投资人读统计结果的检查清单
判断统计结果,可以问十三个问题。
第一,主要终点是否预先设定?
第二,统计分析计划是否清楚?
第三,样本量是否足够?
第四,事件数是否足够?
第五,p 值是否对应主要终点,而不是探索性分析?
第六,效应量有多大?
第七,置信区间有多宽?
第八,是否存在多重比较问题?
第九,亚组分析是否预先设定?
第十,缺失数据比例和处理方法如何?
第十一,是否提前停试,边界是否预设?
第十二,是否为单臂或历史对照,比较是否可靠?
第十三,当前数据成熟度足以支持多重结论?
这套清单的目的,是防止把“显著”误读成“可靠”。
显著性只是统计入口。
资产判断需要完整证据链。
---
十四、本章结论
统计显著不等于可靠。
p 值不告诉你疗效有多大。
样本量太小,漂亮结果也可能不稳。
事件数不足,时间到事件数据可能不成熟。
多重比较会制造假阳性。
事后分析只能产生假设,不能直接确证资产。
缺失数据可能改变结果。
提前停试可能放大疗效。
非劣效试验不能按优效试验来读。
单臂试验和历史对照需要特别谨慎。
数据成熟度决定当前结论能说多重。
投资人真正要问的不是:
这个结果显著吗?
而是:
这个显著结果是否来自预设、充分、完整、可重复、临床有意义的证据链?
本章可以收成一句话:
显著只是统计门槛,可靠才是资产门槛;没有可靠性,漂亮 p 值也可能只是噪音。
下一章进入竞品比较。
统计陷阱回答“这个数据靠不靠谱”。
竞品比较回答“这个数据放到真实竞争格局里值多少钱”。
---