第 13 章 竞品比较:没有头对头时怎么判断
写作种子 review
本章原始种子是:
> 竞品比较:没有头对头时怎么判断
这颗种子很关键,因为生物制药资产很少活在真空里。
一个药物的数据看起来漂亮,不等于它在真实市场里有优势。投资人最容易犯的错误,是把某家公司新闻稿里的疗效数字,直接拿去和另一家公司试验里的数字比较,然后得出“这个更好”“那个更差”的结论。
这通常是不可靠的。
因为两项临床试验之间,可能在很多层面完全不同:
- 入组患者不同;
- 疾病阶段不同;
- 既往治疗线数不同;
- 对照组不同;
- 终点定义不同;
- 随访时间不同;
- 数据成熟度不同;
- 地区、中心、医生经验不同;
- 是否允许交叉治疗不同;
- 是否按特定 biomarker 富集入组不同。
所以本章要解决的问题不是“如何找到一个数字更大的药”,而是:
> 在没有头对头试验时,如何尽量减少错比、乱比、过度比。
本章应该服务第二本书的主线:从临床证据到商业化概率。竞品比较不是为了做排行榜,而是为了判断资产质量是否足以在未来真实竞争格局中成立。
本章写作方向确认如下:
- 先讲为什么竞品比较是资产判断的必经步骤;
- 再讲为什么没有头对头时,跨试验比较天然危险;
- 然后建立一套可执行的比较框架;
- 最后把比较结果转化为商业化判断。
一句话:
> 没有头对头时,可以比较,但必须先校准;不能只比结果,要先比试验条件。
---
一、竞品比较不是附加题,而是资产判断的核心题
很多药物资产在单独看时都不错。
机制合理,I 期安全,II 期有信号,III 期达到主要终点,新闻稿数字也不差。
但真正的问题是:
> 它上市时,病人和医生为什么要选它?
如果一个药只是“有效”,但没有比现有疗法更好、更安全、更方便、更便宜,或者没有解决现有疗法无法解决的人群,它就不一定是好资产。
药物资产的商业价值,不只来自“能不能治病”,还来自“相对于其他选择,它有什么位置”。
临床世界里,医生和患者不会问:
> 这个药在真空中是否有效?
他们会问:
> 和我现在能用的药相比,它值不值得换?
支付方也不会只问:
> 这个药有没有统计显著?
它会问:
> 这个药比已有方案多出来的获益,值不值得多付这个价格?
所以竞品比较不是投资报告里的装饰部分。它决定一个资产能否从“临床成立”走向“商业成立”。
一个资产如果没有清晰竞争位置,即使数据成功,也可能只是一个临床成功、商业平庸的药。
---
二、没有头对头时,最危险的是直接比数字
假设有两个药:
- A 药:ORR 60%;
- B 药:ORR 45%。
直觉上,A 药更好。
但这个判断可能完全错。
如果 A 药试验入组的是一线、低风险、biomarker 阳性的患者,而 B 药试验入组的是三线、重度预处理、疾病进展快的患者,那么 A 药的 60% 和 B 药的 45% 根本不能直接比较。
再比如:
- A 药随访 6 个月;
- B 药随访 24 个月。
A 药的 PFS 中位数尚未成熟,B 药已经有成熟 PFS 和 OS 数据。此时只看早期反应率,可能会高估 A 药。
再比如:
- A 药使用独立中心评估;
- B 药使用研究者评估;
或者:
- A 药终点定义更宽;
- B 药终点定义更严格。
数字看起来相似,含义可能不同。
跨试验比较最常见的错误,是把两个不在同一坐标系里的数字,当成同一坐标系里的数字。
这不是分析,是误判。
---
三、头对头试验为什么重要
头对头试验的价值,在于它尽量让两个治疗方案在同一规则下比较。
同一个入组标准,同一个随机化过程,同一个终点定义,同一个随访体系,同一批中心,同一套统计方案。
这并不能消除所有偏差,但至少让比较有了基础。
比如一个新药对比标准治疗:
- 入组同类患者;
- 随机分配;
- 同样监测;
- 同样判定进展;
- 同样统计;
- 同样随访。
如果在这样的框架下,新药显著改善 PFS、OS 或其他有临床意义的终点,投资人的把握就明显更高。
没有头对头时,比较就退化成间接比较。
间接比较不是不能做,但它的证据等级低于直接比较。
所以第一条原则是:
> 头对头证据优先于跨试验比较;跨试验比较只能作为推断,不能当作确证。
这句话听起来简单,但很多投资误判就发生在这里。
公司会自然强调自己最有利的比较对象,投资人也容易把有利数字当成真实优势。真正要做的是先问:
> 这个比较有没有共同坐标系?
---
四、第一层校准:患者人群是否相同
比较两个药,首先要比患者。
不是比药。
因为同一个药在不同患者人群里,疗效可能完全不同。
1. 疾病阶段
早期疾病和晚期疾病不同。
一线治疗和后线治疗不同。
新诊断患者和复发难治患者不同。
如果一个药在一线患者中取得高反应率,另一个药在复发难治患者中取得较低反应率,不能直接说前者更强。
因为治疗线数本身就是疗效的重要决定因素。
2. 既往治疗
患者之前用过什么药,决定后续治疗效果。
在肿瘤领域尤其明显。
如果一个试验入组了大量未接受过某类强效治疗的患者,而另一个试验入组的是已经对该类疗法耐药的患者,那么两者疗效数字不能直接比较。
比如同样是二线治疗:
- 一项试验患者之前没有接受过免疫治疗;
- 另一项试验患者已经接受并进展于免疫治疗。
这两个“二线”不是同一个二线。
3. 风险分层
很多疾病都有风险分层。
低风险患者天然预后更好,高风险患者天然更难治。
如果 A 试验低风险患者比例更高,A 药数据更好,不一定说明 A 药更好。
可能只是患者更容易治疗。
4. biomarker 状态
如果一个药只入组 biomarker 阳性患者,而另一个药入组全人群,疗效数字也不能直接比较。
富集人群通常更容易看到疗效。
这不代表富集策略不好。相反,富集策略可能是资产优势。
但比较时必须承认:
> 富集人群数据不能直接外推到非富集人群,也不能直接和全人群试验对比。
---
五、第二层校准:治疗线和对照背景是否相同
治疗线是竞品比较中最容易被忽略的变量。
一线、二线、三线,不只是标签不同,而是疾病状态、患者体能、耐药机制、治疗目标都不同。
一线治疗通常患者状态更好,肿瘤负荷可能更低,器官功能更完整,对治疗耐受性更强。
后线治疗则相反。
所以同一个 endpoint,在不同治疗线里的含义不同。
比如:
- 一线 PFS 12 个月可能只是中等;
- 三线 PFS 6 个月可能已经很有价值。
再比如:
- 一线 ORR 50% 可能不够;
- 后线 ORR 30% 可能已经改变治疗格局。
这就是为什么不能只拿数字做横向比较。
还要看它发生在哪条治疗线上。
对照背景也很重要。
如果一项试验对照组很弱,新药容易显得强。
如果另一项试验对照组很强,新药即使改善幅度不大,也可能代表更高质量。
投资人要特别看:
- 对照组是否是当前标准治疗;
- 是否是过时方案;
- 是否符合主要市场临床实践;
- 是否存在地区差异;
- 是否允许医生选择治疗;
- 是否有交叉治疗影响 OS。
一个药打赢弱对照,不等于能打赢真实世界里的强竞品。
---
六、第三层校准:终点是否可比
不同终点不能随便比。
ORR、CR、DoR、PFS、OS、MRD negativity、EFS、DFS、PRO,各自含义不同。
即使都是 PFS,也可能不可比。
因为 PFS 的定义、评估频率、影像判读方式、删失规则,都可能不同。
1. ORR 和 DoR 要一起看
反应率高,不等于获益深。
如果一个药 ORR 高,但反应持续时间短,可能只是短暂压制疾病。
另一个药 ORR 稍低,但 DoR 很长,长期价值可能更强。
所以比较反应率时,必须同时看:
- CR 率;
- DoR;
- PFS;
- 数据成熟度;
- 反应是否转化为长期获益。
2. PFS 和 OS 不能简单互替
PFS 改善不一定带来 OS 改善。
尤其在后续治疗很多、交叉治疗复杂的领域,OS 可能被稀释。
但在某些疾病中,如果 PFS 改善很大、毒性可控、症状改善明确,即使 OS 尚不成熟,也可能有临床价值。
关键不是机械说“必须 OS”,而是看:
> 这个终点在这个疾病、这个治疗线、这个监管场景中,是否足以代表病人获益。
3. biomarker 终点要看是否已验证
MRD、ctDNA、影像反应、生物标志物下降,都可能很有用。
但它们不是天然等于临床获益。
如果一个竞品有成熟 OS 或 PFS 数据,而另一个只有 biomarker 数据,不能直接说后者更好。
只能说:
> 后者有早期信号,但证据等级还低。
---
七、第四层校准:随访时间和数据成熟度
早期数据经常好看。
成熟数据经常变复杂。
这是临床研究的常态。
原因很简单:
早期读数时,事件少,患者还没有充分暴露在风险中,很多长期毒性、复发、进展、死亡事件还没有出现。
所以比较竞品时,必须看随访时间。
例如:
- A 药中位随访 5 个月;
- B 药中位随访 30 个月。
A 药 ORR 高,B 药 PFS 成熟。
这种情况下,不能直接说 A 药优于 B 药。
A 药可能确实更好,也可能只是数据还早。
投资人要问:
- 事件数有多少;
- 中位随访多久;
- PFS 是否成熟;
- OS 是否成熟;
- DoR 是否稳定;
- Kaplan-Meier 曲线尾部是否可靠;
- 置信区间是否很宽;
- 后续更新是否可能回归均值。
成熟度越低,比较时越要保守。
---
八、第五层校准:安全性是否处在同一暴露水平
安全性比较也不能只看百分比。
假设:
- A 药 3 级以上不良事件 20%;
- B 药 3 级以上不良事件 35%。
A 药看起来更安全。
但如果 A 药中位暴露时间只有 3 个月,B 药中位暴露时间 18 个月,那么安全性比较并不公平。
暴露时间越长,越容易观察到不良事件。
所以安全性比较要看:
- 中位治疗时间;
- 剂量强度;
- 停药率;
- 减量率;
- 严重不良事件;
- 特异性毒性;
- 治疗相关死亡;
- 长期毒性;
- 是否需要特殊监测;
- 是否影响联合用药。
有些药短期安全,长期问题大。
有些药毒性高,但可管理。
有些药毒性低,却疗效不足。
安全性比较的核心不是“谁的不良事件百分比更低”,而是:
> 在获得相应疗效的前提下,这个安全性是否可接受、可管理、可商业化。
---
九、第六层校准:试验设计是否相似
试验设计本身会影响结果。
需要比较的变量包括:
- 单臂还是随机对照;
- 开放标签还是双盲;
- 研究者评估还是独立评审;
- 是否有中心实验室确认 biomarker;
- 影像评估频率;
- 是否允许治疗交叉;
- 是否允许后续救援治疗;
- 入组地区分布;
- 是否有中心经验差异;
- 统计假设是否激进;
- 分析集定义是否合理。
单臂试验和随机对照试验的数据,不在同一证据层级。
开放标签研究的主观终点,要比双盲研究更容易受偏倚影响。
研究者评估的 PFS,通常要比独立评审更容易产生乐观偏差。
这些都不是细节。
它们会影响资产判断。
一个数据如果来自严格设计,可信度更高。
一个数据如果来自宽松设计,即使数字漂亮,也要打折。
---
十、没有头对头时,可以用“校准后比较”
没有头对头,并不代表什么都不能比。
投资世界不可能等所有药都做完直接比较。
关键是要用校准后的比较,而不是裸比。
一个实用框架是:
第一步:确认比较对象
先问:
> 它真正要替代谁?
不是随便找一个数据差的竞品,而是找未来市场上真实会竞争的方案。
比较对象可能是:
- 当前标准治疗;
- 同机制竞品;
- 不同机制但同适应症竞品;
- 已上市药;
- 领先管线;
- 联合疗法;
- 未来可能改变治疗格局的新方案。
如果比较对象选错,后面所有分析都会偏。
第二步:列出可比和不可比变量
把两项试验放在表里:
- 患者人群;
- 治疗线;
- biomarker;
- 对照组;
- 终点;
- 随访;
- 数据成熟度;
- 安全性暴露;
- 地区;
- 试验设计。
先判断它们有多少可比性。
可比性低时,结论要更保守。
第三步:只做有限结论
如果试验差异很大,就不要给强结论。
可以说:
- “A 药早期信号看起来有竞争力”;
- “B 药已有更成熟证据”;
- “目前无法确认 A 药优于 B 药”;
- “需要头对头或更成熟数据验证”;
- “当前更适合判断潜力,而不是确认优势”。
这比强行说“谁赢谁输”更诚实。
第四步:把比较转化成待验证问题
好的竞品比较,最后应该落成几个待验证问题:
- 新药能否在相同人群中维持疗效?
- 数据成熟后优势是否还在?
- 安全性是否支持长期使用?
- 是否能进入更早治疗线?
- 是否能和标准治疗联合?
- 是否有差异化人群?
- 是否足以改变医生处方行为?
这才是投资人应该跟踪的东西。
---
十一、间接比较和网络 meta 分析要谨慎使用
有时候公司或分析师会使用间接比较、匹配调整间接比较、网络 meta 分析等方法。
这些方法不是没用。
但它们依赖大量假设。
如果基础试验之间差异太大,再复杂的统计方法也不能完全消除偏差。
投资人读这类分析时要问:
- 纳入了哪些试验;
- 排除了哪些试验;
- 患者基线是否平衡;
- 调整了哪些变量;
- 哪些重要变量无法调整;
- 结果是否对假设敏感;
- 置信区间是否宽;
- 结论是否被公司选择性呈现。
间接比较可以提高分析质量,但不能把低确定性证据变成高确定性证据。
它最多帮助你更好地提出假设。
不能替代头对头试验。
---
十二、竞品比较要看“临床差异是否足够大”
有时候一个药确实比竞品好一点。
但问题是:
> 好一点,够不够?
如果疗效改善很小,安全性差不多,给药方式更复杂,价格更高,医生可能不会换。
如果疗效改善中等,但安全性明显更好、给药更方便、覆盖人群更广,商业价值可能很大。
所以竞品比较不能只看是否有差异,而要看差异是否足够改变行为。
需要看:
- 疗效差异是否有临床意义;
- 安全性差异是否影响用药选择;
- 给药便利性是否明显改善;
- 是否减少住院、监测或管理成本;
- 是否能进入指南;
- 是否能获得支付方认可;
- 是否能在医生心中形成清晰定位。
临床差异不等于商业差异。
只有足以改变医生、患者和支付方行为的临床差异,才会转化为商业价值。
---
十三、竞品比较中的常见误判
误判一:只比最高数字
公司会展示最有利的数字。
投资人不能只看最高 ORR、最高 PFS、最高 CR。
要看完整数据结构。
误判二:拿早期数据打成熟数据
早期数据容易漂亮。
成熟数据更接近真实。
用 6 个月随访去挑战 3 年随访,本身就要保守。
误判三:拿富集人群打全人群
富集人群数据好,不一定代表全人群更好。
要明确这是选择策略优势,还是药物本身广泛优势。
误判四:拿弱对照试验打强对照试验
打赢弱对照,不能证明能打赢真实强竞品。
误判五:忽略安全性和便利性
疗效强但毒性重、给药复杂、监测负担高,商业化可能受限。
误判六:把公司叙事当成市场现实
公司会说“best-in-class potential”。
投资人要问:
> 潜力来自什么证据?现在证据足够吗?还差什么?
---
十四、从竞品比较到商业化概率
竞品比较最终要回答商业化问题。
不是简单回答:
> 这个药是否比竞品好?
而是回答:
> 这个药未来有没有清晰位置?
清晰位置可能来自几种情况。
1. 明显更强疗效
如果在可比人群中,疗效明显优于现有方案,而且安全性可接受,这是最强定位。
2. 更好安全性
如果疗效相近,但安全性明显更好,尤其适用于长期治疗或脆弱患者,也可能形成强定位。
3. 更方便给药
口服替代注射,低频给药替代高频给药,门诊治疗替代住院治疗,都可能有价值。
但便利性必须建立在疗效和安全性不明显牺牲的基础上。
4. 覆盖未满足人群
如果它能治疗现有疗法无效、禁忌或耐药的人群,即使整体市场较小,也可能是高质量资产。
5. 联合治疗平台价值
有些药单药优势不明显,但作为联合治疗组件很有价值。
这类资产要看机制互补性、安全性叠加和联合数据。
如果没有这些,不能只靠“未来可联合”讲故事。
---
十五、投资人读竞品比较的检查清单
每次看到公司声称“优于竞品”“best-in-class”“同类领先”时,可以按下面顺序检查:
- 是否有头对头试验?
- 如果没有,比较来自哪些不同试验?
- 患者人群是否相同?
- 治疗线是否相同?
- 既往治疗是否相同?
- biomarker 状态是否相同?
- 对照组是否相同或同等强度?
- 终点定义是否相同?
- 随访时间是否相近?
- 数据成熟度是否相近?
- 安全性暴露时间是否可比?
- 试验设计是否同一证据等级?
- 统计方法是否支持这种比较?
- 临床差异是否足以改变医生行为?
- 商业定位是否清楚?
如果这些问题答不上来,就不要急着接受“优于竞品”的结论。
---
十六、本章结论
没有头对头时,竞品比较可以做,但必须降级理解。
它不是确证工具,而是推断工具。
最危险的做法,是直接拿两个试验里的疗效数字比较,然后得出强结论。
真正可靠的做法,是先校准:
- 患者;
- 治疗线;
- 既往治疗;
- biomarker;
- 对照;
- 终点;
- 随访;
- 数据成熟度;
- 安全暴露;
- 试验设计。
校准之后,才能判断这个资产是否真的有竞争位置。
竞品比较的最终目的,不是证明某个药“数字更好”,而是判断:
> 它在未来真实治疗格局里,是否有足够清晰、足够强、足够可持续的位置。
如果没有这个位置,临床数据再漂亮,也可能只是一个会被市场挤压的资产。
下一章进入新闻稿、poster、论文和完整 CSR 的阅读。竞品比较告诉我们“和别人比,它可能站在哪里”。下一章要解决的是:公司披露给你的材料,到底够不够支撑这个判断。
---