第 10 章 疗效数据:看绝对值、相对值和临床意义
一、临床数据不是 headline,而是证据结构
从这一章开始,第二本书进入第三篇:临床数据解读。
前面几章讨论的是试验如何设计。
疾病机制、靶点验证、药效模型、I 期、II 期、III 期、终点设计、患者分层,这些都属于“证据如何被生产出来”。
现在开始,要讨论证据生产出来以后,投资人该怎么读。
临床数据最容易被误读。
原因很简单:
公司会用最有利于自己的方式讲数据。
媒体会用最容易传播的方式讲数据。
市场会用最短期的股价反应理解数据。
但药物资产质量不能只看 headline。
“达到主要终点”不是终点。
“疗效显著”不是终点。
“风险降低 40%”也不是终点。
真正的问题是:
这个疗效有多大?
是绝对获益,还是相对获益?
置信区间有多宽?
是否有临床意义?
是否可重复?
是否持续?
是否和安全性一起构成正向风险收益比?
是否足以改变医生、患者和支付方行为?
临床数据不是一句话。
它是一套证据结构。
本章核心句:
疗效数据的价值,不在于数字看起来多漂亮,而在于它是否在正确人群、正确终点、足够稳健统计和可接受安全性下,证明了真实、可重复、有临床意义的患者获益。
---
二、先看绝对值,再看相对值
临床新闻稿最喜欢写相对值。
比如:
风险降低 50%。
疾病进展风险降低 35%。
缓解率提高一倍。
某个事件减少 40%。
这些数字看起来很有冲击力。
但投资人第一反应不能是兴奋。
第一反应应该是:
绝对值是多少?
因为相对值很容易放大感受。
如果对照组事件率是 2%,治疗组是 1%,相对风险降低 50%。
听起来非常漂亮。
但绝对风险降低只有 1 个百分点。
如果对照组事件率是 40%,治疗组是 20%,相对风险也降低 50%。
但绝对风险降低是 20 个百分点。
这两个 50% 完全不是一个资产含义。
绝对获益决定了临床意义、支付价值和患者感受。
相对获益可以说明比例变化。
绝对获益说明实际改变了多少人的命运。
所以读疗效数据时,必须同时看:
对照组是多少?
治疗组是多少?
绝对差值是多少?
相对差值是多少?
事件率本身高不高?
患者是否能感受到这种差异?
医生是否会因为这个差异改变处方?
支付方是否愿意为这个差异付费?
只看相对值,容易被漂亮百分比带走。
只看绝对值,也可能低估某些低频但严重事件的意义。
真正要看二者之间的关系。
---
三、相对风险、绝对风险和 NNT
判断疗效时,可以用三个层次理解。
第一,相对风险变化。
这是治疗组相对于对照组改善多少。
它适合快速理解药物效应方向和比例。
第二,绝对风险变化。
这是治疗组和对照组之间真实差多少。
它更接近患者和支付方关心的问题。
第三,NNT。
NNT 是 number needed to treat。
意思是为了避免一个不良事件或获得一个额外获益,需要治疗多少个患者。
比如一个药把事件率从 10% 降到 5%。
绝对风险降低 5 个百分点。
NNT 大约是 20。
意思是治疗 20 个患者,可以避免 1 个事件。
如果事件很严重,比如死亡、心梗、中风,NNT 20 可能很有价值。
如果事件较轻,或者药物副作用很大、价格很高,NNT 20 的意义就需要重新评估。
NNT 不能机械使用。
它要结合事件严重度、治疗成本、安全性、患者负担和治疗时间。
但它能帮助投资人把抽象百分比变成临床直觉。
药物不是让数字好看。
药物是要让一定数量的真实患者受益。
NNT 把这一点拉回到人。
---
四、统计显著不等于临床有意义
p 值小于 0.05,通常说明结果达到统计显著。
但统计显著不等于临床有意义。
一个大样本试验可以把很小的差异做成统计显著。
比如某个症状评分改善 0.3 分,p 值很漂亮。
但患者是否真的感觉变好?
医生是否认为值得用药?
支付方是否认为值得付费?
这就不一定。
相反,有些小样本试验可能没有达到统计显著,但疗效方向和幅度很有临床意义,只是样本量不足。
这也不能简单说药完全失败。
所以读数据时,要区分三个问题:
第一,统计上是否显著?
第二,疗效幅度是否有临床意义?
第三,证据是否足够稳健,可以支持下一步开发或监管路径?
统计显著回答的是:
这个结果是否可能不是随机噪音?
临床意义回答的是:
这个结果对患者有没有实际价值?
资产质量要看两者同时成立。
只有统计显著但临床意义很弱,商业化会困难。
有临床意义但统计不稳健,监管和资本市场会谨慎。
两个都强,资产证据才真正扎实。
---
五、置信区间比单点估计更诚实
很多人看临床数据,只看一个点估计。
比如风险降低 30%。
比如 hazard ratio 0.70。
比如缓解率 45%。
但点估计只是一个估计值。
置信区间告诉我们这个估计有多不确定。
如果 hazard ratio 是 0.70,95% 置信区间是 0.55 到 0.88,说明结果相对稳健。
如果 hazard ratio 也是 0.70,但 95% 置信区间是 0.40 到 1.15,情况就完全不同。
后者不确定性很大。
可能有效,也可能没有明确效果。
置信区间越宽,说明数据越不稳定。
这可能来自样本量小、事件数少、人群异质性强、随访不足或数据成熟度低。
投资人看置信区间,要问:
下限是否仍有临床意义?
上限是否提示可能无效?
区间是否跨过无效线?
事件数是否足够?
随访时间是否足够?
数据是否成熟?
置信区间是防止过度解读的工具。
它提醒我们:
一个漂亮点估计背后,可能有很大的不确定性。
---
六、疗效数据要放回基线风险里看
同一个疗效幅度,在不同基线风险人群里的意义不同。
如果患者本身风险很高,绝对获益可能很大。
如果患者本身风险很低,绝对获益可能很小。
这就是为什么患者分层和疗效解读必须连在一起看。
比如一个药相对风险降低 25%。
在高风险患者中,对照组事件率 40%,治疗组 30%,绝对获益 10 个百分点。
在低风险患者中,对照组事件率 4%,治疗组 3%,绝对获益只有 1 个百分点。
相对效果看起来一样。
临床价值完全不同。
所以投资人要问:
试验人群的基线风险是多少?
这个风险和真实市场是否一致?
如果未来拓展到低风险人群,绝对获益会不会下降?
如果拓展到更高风险人群,安全性是否还能承受?
疗效数据不能脱离人群。
没有基线风险,疗效数字就没有上下文。
---
七、疗效持续性决定资产厚度
药物疗效不能只看一个时间点。
要看持续性。
有些药早期反应很好,但很快衰减。
有些药起效慢,但效果持续。
有些药能带来短期指标改善,却不能改变长期结局。
有些药在前几个月有优势,后面曲线收敛。
疗效持续性对资产价值影响很大。
慢性病尤其如此。
如果一个药需要长期使用,疗效必须稳定,安全性也必须稳定。
肿瘤药也要看缓解持续时间、PFS 曲线、OS 曲线和后续治疗影响。
代谢药要看体重、血糖、心肾结局是否能长期维持。
神经系统疾病要看功能下降是否真正延缓,而不是短期评分波动。
投资人读疗效数据,要问:
随访多长?
数据是否成熟?
疗效是否随时间保持?
曲线是否早期分开后持续扩大?
还是早期分开后逐渐收敛?
停药后是否反弹?
长期依从性如何?
疗效持续性决定药物是短期信号,还是长期资产。
---
八、曲线比单个终点更有信息
很多临床数据会展示 Kaplan-Meier 曲线。
曲线比单个读数更有信息。
因为它显示疗效随时间如何变化。
读曲线时,可以看几个问题。
第一,曲线什么时候分开?
很早分开,可能说明药物起效快。
很晚分开,可能说明需要时间积累,或者早期事件不受药物影响。
第二,曲线分开后是否持续扩大?
持续扩大通常更有吸引力。
第三,曲线是否交叉?
曲线交叉可能提示人群异质性、早期风险、安全性问题,或比例风险假设不成立。
第四,尾部数据是否可靠?
曲线尾部患者数少,很容易不稳定。
不能过度解读尾部形状。
第五,删失是否平衡?
如果大量删失或组间不平衡,曲线解释要谨慎。
曲线可以帮助投资人看到 headline 看不到的信息。
一个 hazard ratio 背后,可能是早期获益、后期衰减。
也可能是早期无差异、后期明显分开。
这两种资产含义不同。
---
九、亚组疗效要看一致性,而不是挑最好看的地方
临床数据常常会公布亚组疗效。
前一章讲过,亚组分析不能乱当结论。
在疗效解读里,亚组最重要的是一致性。
如果整体结果阳性,各主要亚组方向一致,说明疗效更稳健。
如果整体阳性,但某些关键亚组方向相反,需要谨慎。
如果整体阴性,只靠某个事后亚组阳性支撑故事,风险很高。
读亚组疗效时,要问:
亚组是否预先设定?
样本量是否足够?
结果方向是否一致?
是否有明确机制解释?
交互作用检验是否支持亚组差异?
后续是否有专门试验验证?
不要被森林图里最漂亮的一行带走。
真正有价值的亚组信号,必须能回到机制、患者分层和后续验证。
---
十、疗效要和安全性一起读
疗效数据不能单独读。
必须和安全性一起读。
一个药疗效强,但安全性差,风险收益比可能仍然不好。
一个药疗效中等,但安全性极好、使用方便、目标人群巨大,也可能很有商业价值。
药物不是单纯比疗效大小。
药物比的是净获益。
净获益包括:
疗效改善。
副作用负担。
严重不良事件。
停药率。
给药便利性。
监测要求。
患者体验。
长期风险。
如果一个药每治疗 20 个患者避免 1 个事件,但每治疗 10 个患者就导致 1 个严重不良反应,那疗效数字就不能单独成立。
如果一个药疗效略低于竞品,但安全性和便利性明显更好,也可能占据市场。
所以疗效不是资产价值的全部。
疗效是风险收益比的一半。
另一半在下一章:安全数据。
---
十一、新闻稿里的疗效语言要特别小心
公司新闻稿会选择最有利的表达。
这很正常。
投资人要做的是翻译。
常见表达包括:
达到主要终点。
疗效具有统计显著性。
显示积极趋势。
具有临床意义的改善。
风险降低多少。
缓解率提高多少。
数据支持继续开发。
这些话都需要拆开。
“达到主要终点”要问终点质量。
“统计显著”要问临床意义。
“积极趋势”要问是否未达显著。
“临床意义”要问有没有预设标准。
“风险降低”要问绝对风险降低多少。
“支持继续开发”要问支持的是 II 期、III 期、注册路径,还是只是继续探索。
新闻稿不是假信息。
但它不是完整证据。
完整证据通常要等 poster、conference presentation、论文、补充材料、甚至 CSR。
在完整数据出来前,投资判断要保留不确定性。
---
十二、投资人读疗效数据的检查清单
判断疗效数据,可以问十二个问题。
第一,主要终点是什么,是否有临床意义?
第二,治疗组和对照组的绝对数值分别是多少?
第三,绝对获益是多少?
第四,相对获益是多少?
第五,NNT 大概是多少,事件严重度如何?
第六,p 值是否显著,统计方案是否预设?
第七,置信区间有多宽,是否跨过无效线?
第八,疗效是否持续,随访是否足够?
第九,曲线形态是否支持稳定获益?
第十,关键亚组方向是否一致?
第十一,疗效和安全性合在一起,风险收益比是否成立?
第十二,这个疗效是否足以改变医生、患者和支付方行为?
这套检查清单的作用,是把投资人从 headline 拉回证据。
临床数据不是为了让人兴奋。
临床数据是为了判断资产风险解除到哪一层。
---
十三、本章结论
疗效数据不能只看漂亮百分比。
相对值容易制造冲击。
绝对值决定真实获益。
统计显著不等于临床有意义。
置信区间比单点估计更诚实。
基线风险决定疗效数字的上下文。
疗效持续性决定资产厚度。
曲线形态能暴露 headline 看不到的信息。
亚组一致性决定结果是否稳健。
疗效还必须和安全性一起读。
投资人真正要问的不是:
这个数据好不好看?
而是:
这个疗效是否真实、稳健、可重复、有临床意义,并足以支持监管、医生、患者和支付方共同接受?
本章可以收成一句话:
疗效数据的核心不是相对百分比有多漂亮,而是绝对获益有多真实、统计有多稳健、临床意义有多清楚,以及风险收益比是否真正成立。
下一章进入安全数据。
疗效回答药有没有帮到人。
安全性回答药有没有在帮人的同时制造新的伤害。
---