首页 目录

第 10 章 疗效数据:看绝对值、相对值和临床意义

一、临床数据不是 headline,而是证据结构

从这一章开始,第二本书进入第三篇:临床数据解读。

前面几章讨论的是试验如何设计。

疾病机制、靶点验证、药效模型、I 期、II 期、III 期、终点设计、患者分层,这些都属于“证据如何被生产出来”。

现在开始,要讨论证据生产出来以后,投资人该怎么读。

临床数据最容易被误读。

原因很简单:

公司会用最有利于自己的方式讲数据。

媒体会用最容易传播的方式讲数据。

市场会用最短期的股价反应理解数据。

但药物资产质量不能只看 headline。

“达到主要终点”不是终点。

“疗效显著”不是终点。

“风险降低 40%”也不是终点。

真正的问题是:

这个疗效有多大?

是绝对获益,还是相对获益?

置信区间有多宽?

是否有临床意义?

是否可重复?

是否持续?

是否和安全性一起构成正向风险收益比?

是否足以改变医生、患者和支付方行为?

临床数据不是一句话。

它是一套证据结构。

本章核心句:

疗效数据的价值,不在于数字看起来多漂亮,而在于它是否在正确人群、正确终点、足够稳健统计和可接受安全性下,证明了真实、可重复、有临床意义的患者获益。

---

二、先看绝对值,再看相对值

临床新闻稿最喜欢写相对值。

比如:

风险降低 50%。

疾病进展风险降低 35%。

缓解率提高一倍。

某个事件减少 40%。

这些数字看起来很有冲击力。

但投资人第一反应不能是兴奋。

第一反应应该是:

绝对值是多少?

因为相对值很容易放大感受。

如果对照组事件率是 2%,治疗组是 1%,相对风险降低 50%。

听起来非常漂亮。

但绝对风险降低只有 1 个百分点。

如果对照组事件率是 40%,治疗组是 20%,相对风险也降低 50%。

但绝对风险降低是 20 个百分点。

这两个 50% 完全不是一个资产含义。

绝对获益决定了临床意义、支付价值和患者感受。

相对获益可以说明比例变化。

绝对获益说明实际改变了多少人的命运。

所以读疗效数据时,必须同时看:

对照组是多少?

治疗组是多少?

绝对差值是多少?

相对差值是多少?

事件率本身高不高?

患者是否能感受到这种差异?

医生是否会因为这个差异改变处方?

支付方是否愿意为这个差异付费?

只看相对值,容易被漂亮百分比带走。

只看绝对值,也可能低估某些低频但严重事件的意义。

真正要看二者之间的关系。

---

三、相对风险、绝对风险和 NNT

判断疗效时,可以用三个层次理解。

第一,相对风险变化。

这是治疗组相对于对照组改善多少。

它适合快速理解药物效应方向和比例。

第二,绝对风险变化。

这是治疗组和对照组之间真实差多少。

它更接近患者和支付方关心的问题。

第三,NNT。

NNT 是 number needed to treat。

意思是为了避免一个不良事件或获得一个额外获益,需要治疗多少个患者。

比如一个药把事件率从 10% 降到 5%。

绝对风险降低 5 个百分点。

NNT 大约是 20。

意思是治疗 20 个患者,可以避免 1 个事件。

如果事件很严重,比如死亡、心梗、中风,NNT 20 可能很有价值。

如果事件较轻,或者药物副作用很大、价格很高,NNT 20 的意义就需要重新评估。

NNT 不能机械使用。

它要结合事件严重度、治疗成本、安全性、患者负担和治疗时间。

但它能帮助投资人把抽象百分比变成临床直觉。

药物不是让数字好看。

药物是要让一定数量的真实患者受益。

NNT 把这一点拉回到人。

---

四、统计显著不等于临床有意义

p 值小于 0.05,通常说明结果达到统计显著。

但统计显著不等于临床有意义。

一个大样本试验可以把很小的差异做成统计显著。

比如某个症状评分改善 0.3 分,p 值很漂亮。

但患者是否真的感觉变好?

医生是否认为值得用药?

支付方是否认为值得付费?

这就不一定。

相反,有些小样本试验可能没有达到统计显著,但疗效方向和幅度很有临床意义,只是样本量不足。

这也不能简单说药完全失败。

所以读数据时,要区分三个问题:

第一,统计上是否显著?

第二,疗效幅度是否有临床意义?

第三,证据是否足够稳健,可以支持下一步开发或监管路径?

统计显著回答的是:

这个结果是否可能不是随机噪音?

临床意义回答的是:

这个结果对患者有没有实际价值?

资产质量要看两者同时成立。

只有统计显著但临床意义很弱,商业化会困难。

有临床意义但统计不稳健,监管和资本市场会谨慎。

两个都强,资产证据才真正扎实。

---

五、置信区间比单点估计更诚实

很多人看临床数据,只看一个点估计。

比如风险降低 30%。

比如 hazard ratio 0.70。

比如缓解率 45%。

但点估计只是一个估计值。

置信区间告诉我们这个估计有多不确定。

如果 hazard ratio 是 0.70,95% 置信区间是 0.55 到 0.88,说明结果相对稳健。

如果 hazard ratio 也是 0.70,但 95% 置信区间是 0.40 到 1.15,情况就完全不同。

后者不确定性很大。

可能有效,也可能没有明确效果。

置信区间越宽,说明数据越不稳定。

这可能来自样本量小、事件数少、人群异质性强、随访不足或数据成熟度低。

投资人看置信区间,要问:

下限是否仍有临床意义?

上限是否提示可能无效?

区间是否跨过无效线?

事件数是否足够?

随访时间是否足够?

数据是否成熟?

置信区间是防止过度解读的工具。

它提醒我们:

一个漂亮点估计背后,可能有很大的不确定性。

---

六、疗效数据要放回基线风险里看

同一个疗效幅度,在不同基线风险人群里的意义不同。

如果患者本身风险很高,绝对获益可能很大。

如果患者本身风险很低,绝对获益可能很小。

这就是为什么患者分层和疗效解读必须连在一起看。

比如一个药相对风险降低 25%。

在高风险患者中,对照组事件率 40%,治疗组 30%,绝对获益 10 个百分点。

在低风险患者中,对照组事件率 4%,治疗组 3%,绝对获益只有 1 个百分点。

相对效果看起来一样。

临床价值完全不同。

所以投资人要问:

试验人群的基线风险是多少?

这个风险和真实市场是否一致?

如果未来拓展到低风险人群,绝对获益会不会下降?

如果拓展到更高风险人群,安全性是否还能承受?

疗效数据不能脱离人群。

没有基线风险,疗效数字就没有上下文。

---

七、疗效持续性决定资产厚度

药物疗效不能只看一个时间点。

要看持续性。

有些药早期反应很好,但很快衰减。

有些药起效慢,但效果持续。

有些药能带来短期指标改善,却不能改变长期结局。

有些药在前几个月有优势,后面曲线收敛。

疗效持续性对资产价值影响很大。

慢性病尤其如此。

如果一个药需要长期使用,疗效必须稳定,安全性也必须稳定。

肿瘤药也要看缓解持续时间、PFS 曲线、OS 曲线和后续治疗影响。

代谢药要看体重、血糖、心肾结局是否能长期维持。

神经系统疾病要看功能下降是否真正延缓,而不是短期评分波动。

投资人读疗效数据,要问:

随访多长?

数据是否成熟?

疗效是否随时间保持?

曲线是否早期分开后持续扩大?

还是早期分开后逐渐收敛?

停药后是否反弹?

长期依从性如何?

疗效持续性决定药物是短期信号,还是长期资产。

---

八、曲线比单个终点更有信息

很多临床数据会展示 Kaplan-Meier 曲线。

曲线比单个读数更有信息。

因为它显示疗效随时间如何变化。

读曲线时,可以看几个问题。

第一,曲线什么时候分开?

很早分开,可能说明药物起效快。

很晚分开,可能说明需要时间积累,或者早期事件不受药物影响。

第二,曲线分开后是否持续扩大?

持续扩大通常更有吸引力。

第三,曲线是否交叉?

曲线交叉可能提示人群异质性、早期风险、安全性问题,或比例风险假设不成立。

第四,尾部数据是否可靠?

曲线尾部患者数少,很容易不稳定。

不能过度解读尾部形状。

第五,删失是否平衡?

如果大量删失或组间不平衡,曲线解释要谨慎。

曲线可以帮助投资人看到 headline 看不到的信息。

一个 hazard ratio 背后,可能是早期获益、后期衰减。

也可能是早期无差异、后期明显分开。

这两种资产含义不同。

---

九、亚组疗效要看一致性,而不是挑最好看的地方

临床数据常常会公布亚组疗效。

前一章讲过,亚组分析不能乱当结论。

在疗效解读里,亚组最重要的是一致性。

如果整体结果阳性,各主要亚组方向一致,说明疗效更稳健。

如果整体阳性,但某些关键亚组方向相反,需要谨慎。

如果整体阴性,只靠某个事后亚组阳性支撑故事,风险很高。

读亚组疗效时,要问:

亚组是否预先设定?

样本量是否足够?

结果方向是否一致?

是否有明确机制解释?

交互作用检验是否支持亚组差异?

后续是否有专门试验验证?

不要被森林图里最漂亮的一行带走。

真正有价值的亚组信号,必须能回到机制、患者分层和后续验证。

---

十、疗效要和安全性一起读

疗效数据不能单独读。

必须和安全性一起读。

一个药疗效强,但安全性差,风险收益比可能仍然不好。

一个药疗效中等,但安全性极好、使用方便、目标人群巨大,也可能很有商业价值。

药物不是单纯比疗效大小。

药物比的是净获益。

净获益包括:

疗效改善。

副作用负担。

严重不良事件。

停药率。

给药便利性。

监测要求。

患者体验。

长期风险。

如果一个药每治疗 20 个患者避免 1 个事件,但每治疗 10 个患者就导致 1 个严重不良反应,那疗效数字就不能单独成立。

如果一个药疗效略低于竞品,但安全性和便利性明显更好,也可能占据市场。

所以疗效不是资产价值的全部。

疗效是风险收益比的一半。

另一半在下一章:安全数据。

---

十一、新闻稿里的疗效语言要特别小心

公司新闻稿会选择最有利的表达。

这很正常。

投资人要做的是翻译。

常见表达包括:

达到主要终点。

疗效具有统计显著性。

显示积极趋势。

具有临床意义的改善。

风险降低多少。

缓解率提高多少。

数据支持继续开发。

这些话都需要拆开。

“达到主要终点”要问终点质量。

“统计显著”要问临床意义。

“积极趋势”要问是否未达显著。

“临床意义”要问有没有预设标准。

“风险降低”要问绝对风险降低多少。

“支持继续开发”要问支持的是 II 期、III 期、注册路径,还是只是继续探索。

新闻稿不是假信息。

但它不是完整证据。

完整证据通常要等 poster、conference presentation、论文、补充材料、甚至 CSR。

在完整数据出来前,投资判断要保留不确定性。

---

十二、投资人读疗效数据的检查清单

判断疗效数据,可以问十二个问题。

第一,主要终点是什么,是否有临床意义?

第二,治疗组和对照组的绝对数值分别是多少?

第三,绝对获益是多少?

第四,相对获益是多少?

第五,NNT 大概是多少,事件严重度如何?

第六,p 值是否显著,统计方案是否预设?

第七,置信区间有多宽,是否跨过无效线?

第八,疗效是否持续,随访是否足够?

第九,曲线形态是否支持稳定获益?

第十,关键亚组方向是否一致?

第十一,疗效和安全性合在一起,风险收益比是否成立?

第十二,这个疗效是否足以改变医生、患者和支付方行为?

这套检查清单的作用,是把投资人从 headline 拉回证据。

临床数据不是为了让人兴奋。

临床数据是为了判断资产风险解除到哪一层。

---

十三、本章结论

疗效数据不能只看漂亮百分比。

相对值容易制造冲击。

绝对值决定真实获益。

统计显著不等于临床有意义。

置信区间比单点估计更诚实。

基线风险决定疗效数字的上下文。

疗效持续性决定资产厚度。

曲线形态能暴露 headline 看不到的信息。

亚组一致性决定结果是否稳健。

疗效还必须和安全性一起读。

投资人真正要问的不是:

这个数据好不好看?

而是:

这个疗效是否真实、稳健、可重复、有临床意义,并足以支持监管、医生、患者和支付方共同接受?

本章可以收成一句话:

疗效数据的核心不是相对百分比有多漂亮,而是绝对获益有多真实、统计有多稳健、临床意义有多清楚,以及风险收益比是否真正成立。

下一章进入安全数据。

疗效回答药有没有帮到人。

安全性回答药有没有在帮人的同时制造新的伤害。

---