第 10 章疗效数据：看绝对值、相对值和临床意义

一、临床数据不是 headline，而是证据结构

从这一章开始，第二本书进入第三篇：临床数据解读。

前面几章讨论的是试验如何设计。

疾病机制、靶点验证、药效模型、I 期、II 期、III 期、终点设计、患者分层，这些都属于“证据如何被生产出来”。

现在开始，要讨论证据生产出来以后，投资人该怎么读。

临床数据最容易被误读。

原因很简单：

公司会用最有利于自己的方式讲数据。

媒体会用最容易传播的方式讲数据。

市场会用最短期的股价反应理解数据。

但药物资产质量不能只看 headline。

“达到主要终点”不是终点。

“疗效显著”不是终点。

“风险降低 40%”也不是终点。

真正的问题是：

这个疗效有多大？

是绝对获益，还是相对获益？

置信区间有多宽？

是否有临床意义？

是否可重复？

是否持续？

是否和安全性一起构成正向风险收益比？

是否足以改变医生、患者和支付方行为？

临床数据不是一句话。

它是一套证据结构。

本章核心句：

疗效数据的价值，不在于数字看起来多漂亮，而在于它是否在正确人群、正确终点、足够稳健统计和可接受安全性下，证明了真实、可重复、有临床意义的患者获益。

---

二、先看绝对值，再看相对值

临床新闻稿最喜欢写相对值。

比如：

风险降低 50%。

疾病进展风险降低 35%。

缓解率提高一倍。

某个事件减少 40%。

这些数字看起来很有冲击力。

但投资人第一反应不能是兴奋。

第一反应应该是：

绝对值是多少？

因为相对值很容易放大感受。

如果对照组事件率是 2%，治疗组是 1%，相对风险降低 50%。

听起来非常漂亮。

但绝对风险降低只有 1 个百分点。

如果对照组事件率是 40%，治疗组是 20%，相对风险也降低 50%。

但绝对风险降低是 20 个百分点。

这两个 50% 完全不是一个资产含义。

绝对获益决定了临床意义、支付价值和患者感受。

相对获益可以说明比例变化。

绝对获益说明实际改变了多少人的命运。

所以读疗效数据时，必须同时看：

对照组是多少？

治疗组是多少？

绝对差值是多少？

相对差值是多少？

事件率本身高不高？

患者是否能感受到这种差异？

医生是否会因为这个差异改变处方？

支付方是否愿意为这个差异付费？

只看相对值，容易被漂亮百分比带走。

只看绝对值，也可能低估某些低频但严重事件的意义。

真正要看二者之间的关系。

---

三、相对风险、绝对风险和 NNT

判断疗效时，可以用三个层次理解。

第一，相对风险变化。

这是治疗组相对于对照组改善多少。

它适合快速理解药物效应方向和比例。

第二，绝对风险变化。

这是治疗组和对照组之间真实差多少。

它更接近患者和支付方关心的问题。

第三，NNT。

NNT 是 number needed to treat。

意思是为了避免一个不良事件或获得一个额外获益，需要治疗多少个患者。

比如一个药把事件率从 10% 降到 5%。

绝对风险降低 5 个百分点。

NNT 大约是 20。

意思是治疗 20 个患者，可以避免 1 个事件。

如果事件很严重，比如死亡、心梗、中风，NNT 20 可能很有价值。

如果事件较轻，或者药物副作用很大、价格很高，NNT 20 的意义就需要重新评估。

NNT 不能机械使用。

它要结合事件严重度、治疗成本、安全性、患者负担和治疗时间。

但它能帮助投资人把抽象百分比变成临床直觉。

药物不是让数字好看。

药物是要让一定数量的真实患者受益。

NNT 把这一点拉回到人。

---

四、统计显著不等于临床有意义

p 值小于 0.05，通常说明结果达到统计显著。

但统计显著不等于临床有意义。

一个大样本试验可以把很小的差异做成统计显著。

比如某个症状评分改善 0.3 分，p 值很漂亮。

但患者是否真的感觉变好？

医生是否认为值得用药？

支付方是否认为值得付费？

这就不一定。

相反，有些小样本试验可能没有达到统计显著，但疗效方向和幅度很有临床意义，只是样本量不足。

这也不能简单说药完全失败。

所以读数据时，要区分三个问题：

第一，统计上是否显著？

第二，疗效幅度是否有临床意义？

第三，证据是否足够稳健，可以支持下一步开发或监管路径？

统计显著回答的是：

这个结果是否可能不是随机噪音？

临床意义回答的是：

这个结果对患者有没有实际价值？

资产质量要看两者同时成立。

只有统计显著但临床意义很弱，商业化会困难。

有临床意义但统计不稳健，监管和资本市场会谨慎。

两个都强，资产证据才真正扎实。

---

五、置信区间比单点估计更诚实

很多人看临床数据，只看一个点估计。

比如风险降低 30%。

比如 hazard ratio 0.70。

比如缓解率 45%。

但点估计只是一个估计值。

置信区间告诉我们这个估计有多不确定。

如果 hazard ratio 是 0.70，95% 置信区间是 0.55 到 0.88，说明结果相对稳健。

如果 hazard ratio 也是 0.70，但 95% 置信区间是 0.40 到 1.15，情况就完全不同。

后者不确定性很大。

可能有效，也可能没有明确效果。

置信区间越宽，说明数据越不稳定。

这可能来自样本量小、事件数少、人群异质性强、随访不足或数据成熟度低。

投资人看置信区间，要问：

下限是否仍有临床意义？

上限是否提示可能无效？

区间是否跨过无效线？

事件数是否足够？

随访时间是否足够？

数据是否成熟？

置信区间是防止过度解读的工具。

它提醒我们：

一个漂亮点估计背后，可能有很大的不确定性。

---

六、疗效数据要放回基线风险里看

同一个疗效幅度，在不同基线风险人群里的意义不同。

如果患者本身风险很高，绝对获益可能很大。

如果患者本身风险很低，绝对获益可能很小。

这就是为什么患者分层和疗效解读必须连在一起看。

比如一个药相对风险降低 25%。

在高风险患者中，对照组事件率 40%，治疗组 30%，绝对获益 10 个百分点。

在低风险患者中，对照组事件率 4%，治疗组 3%，绝对获益只有 1 个百分点。

相对效果看起来一样。

临床价值完全不同。

所以投资人要问：

试验人群的基线风险是多少？

这个风险和真实市场是否一致？

如果未来拓展到低风险人群，绝对获益会不会下降？

如果拓展到更高风险人群，安全性是否还能承受？

疗效数据不能脱离人群。

没有基线风险，疗效数字就没有上下文。

---

七、疗效持续性决定资产厚度

药物疗效不能只看一个时间点。

要看持续性。

有些药早期反应很好，但很快衰减。

有些药起效慢，但效果持续。

有些药能带来短期指标改善，却不能改变长期结局。

有些药在前几个月有优势，后面曲线收敛。

疗效持续性对资产价值影响很大。

慢性病尤其如此。

如果一个药需要长期使用，疗效必须稳定，安全性也必须稳定。

肿瘤药也要看缓解持续时间、PFS 曲线、OS 曲线和后续治疗影响。

代谢药要看体重、血糖、心肾结局是否能长期维持。

神经系统疾病要看功能下降是否真正延缓，而不是短期评分波动。

投资人读疗效数据，要问：

随访多长？

数据是否成熟？

疗效是否随时间保持？

曲线是否早期分开后持续扩大？

还是早期分开后逐渐收敛？

停药后是否反弹？

长期依从性如何？

疗效持续性决定药物是短期信号，还是长期资产。

---

八、曲线比单个终点更有信息

很多临床数据会展示 Kaplan-Meier 曲线。

曲线比单个读数更有信息。

因为它显示疗效随时间如何变化。

读曲线时，可以看几个问题。

第一，曲线什么时候分开？

很早分开，可能说明药物起效快。

很晚分开，可能说明需要时间积累，或者早期事件不受药物影响。

第二，曲线分开后是否持续扩大？

持续扩大通常更有吸引力。

第三，曲线是否交叉？

曲线交叉可能提示人群异质性、早期风险、安全性问题，或比例风险假设不成立。

第四，尾部数据是否可靠？

曲线尾部患者数少，很容易不稳定。

不能过度解读尾部形状。

第五，删失是否平衡？

如果大量删失或组间不平衡，曲线解释要谨慎。

曲线可以帮助投资人看到 headline 看不到的信息。

一个 hazard ratio 背后，可能是早期获益、后期衰减。

也可能是早期无差异、后期明显分开。

这两种资产含义不同。

---

九、亚组疗效要看一致性，而不是挑最好看的地方

临床数据常常会公布亚组疗效。

前一章讲过，亚组分析不能乱当结论。

在疗效解读里，亚组最重要的是一致性。

如果整体结果阳性，各主要亚组方向一致，说明疗效更稳健。

如果整体阳性，但某些关键亚组方向相反，需要谨慎。

如果整体阴性，只靠某个事后亚组阳性支撑故事，风险很高。

读亚组疗效时，要问：

亚组是否预先设定？

样本量是否足够？

结果方向是否一致？

是否有明确机制解释？

交互作用检验是否支持亚组差异？

后续是否有专门试验验证？

不要被森林图里最漂亮的一行带走。

真正有价值的亚组信号，必须能回到机制、患者分层和后续验证。

---

十、疗效要和安全性一起读

疗效数据不能单独读。

必须和安全性一起读。

一个药疗效强，但安全性差，风险收益比可能仍然不好。

一个药疗效中等，但安全性极好、使用方便、目标人群巨大，也可能很有商业价值。

药物不是单纯比疗效大小。

药物比的是净获益。

净获益包括：

疗效改善。

副作用负担。

严重不良事件。

停药率。

给药便利性。

监测要求。

患者体验。

长期风险。

如果一个药每治疗 20 个患者避免 1 个事件，但每治疗 10 个患者就导致 1 个严重不良反应，那疗效数字就不能单独成立。

如果一个药疗效略低于竞品，但安全性和便利性明显更好，也可能占据市场。

所以疗效不是资产价值的全部。

疗效是风险收益比的一半。

另一半在下一章：安全数据。

---

十一、新闻稿里的疗效语言要特别小心

公司新闻稿会选择最有利的表达。

这很正常。

投资人要做的是翻译。

常见表达包括：

达到主要终点。

疗效具有统计显著性。

显示积极趋势。

具有临床意义的改善。

风险降低多少。

缓解率提高多少。

数据支持继续开发。

这些话都需要拆开。

“达到主要终点”要问终点质量。

“统计显著”要问临床意义。

“积极趋势”要问是否未达显著。

“临床意义”要问有没有预设标准。

“风险降低”要问绝对风险降低多少。

“支持继续开发”要问支持的是 II 期、III 期、注册路径，还是只是继续探索。

新闻稿不是假信息。

但它不是完整证据。

完整证据通常要等 poster、conference presentation、论文、补充材料、甚至 CSR。

在完整数据出来前，投资判断要保留不确定性。

---

十二、投资人读疗效数据的检查清单

判断疗效数据，可以问十二个问题。

第一，主要终点是什么，是否有临床意义？

第二，治疗组和对照组的绝对数值分别是多少？

第三，绝对获益是多少？

第四，相对获益是多少？

第五，NNT 大概是多少，事件严重度如何？

第六，p 值是否显著，统计方案是否预设？

第七，置信区间有多宽，是否跨过无效线？

第八，疗效是否持续，随访是否足够？

第九，曲线形态是否支持稳定获益？

第十，关键亚组方向是否一致？

第十一，疗效和安全性合在一起，风险收益比是否成立？

第十二，这个疗效是否足以改变医生、患者和支付方行为？

这套检查清单的作用，是把投资人从 headline 拉回证据。

临床数据不是为了让人兴奋。

临床数据是为了判断资产风险解除到哪一层。

---

十三、本章结论

疗效数据不能只看漂亮百分比。

相对值容易制造冲击。

绝对值决定真实获益。

统计显著不等于临床有意义。

置信区间比单点估计更诚实。

基线风险决定疗效数字的上下文。

疗效持续性决定资产厚度。

曲线形态能暴露 headline 看不到的信息。

亚组一致性决定结果是否稳健。

疗效还必须和安全性一起读。

投资人真正要问的不是：

这个数据好不好看？

而是：

这个疗效是否真实、稳健、可重复、有临床意义，并足以支持监管、医生、患者和支付方共同接受？

本章可以收成一句话：

疗效数据的核心不是相对百分比有多漂亮，而是绝对获益有多真实、统计有多稳健、临床意义有多清楚，以及风险收益比是否真正成立。

下一章进入安全数据。

疗效回答药有没有帮到人。

安全性回答药有没有在帮人的同时制造新的伤害。

---

第 10 章 疗效数据：看绝对值、相对值和临床意义