肿瘤新抗原预测算法的生物学评价 - 中析研究所生物检测中心

肿瘤新抗原预测算法的生物学评价：从计算到临床的桥梁

肿瘤新抗原，源于肿瘤细胞特有的基因突变（如非同义单核苷酸变异、插入缺失、基因融合等），经细胞内加工后呈递至细胞表面，形成能被T细胞识别并触发抗肿瘤免疫应答的独特肽段。它们是癌症免疫治疗，尤其是新生抗原疫苗和T细胞疗法（如TIL、TCR-T）的核心靶点。然而，从海量肿瘤突变中精准筛选出真正具有免疫原性的新抗原，面临着巨大挑战。计算预测算法是新抗原发现的关键起点，而对其预测结果的生物学评价则是验证其临床价值不可或缺的环节。

一、新抗原预测算法的核心环节

预测算法通常包含多个串联或集成的步骤：

肿瘤突变鉴定： 基于肿瘤与正常组织的配对测序数据（WES/WGS），识别体细胞突变（SNV、Indel、Fusion等）。
突变肽段生成： 根据突变位点及其周围的基因组序列，翻译生成包含突变的潜在候选肽段（通常为8-11个氨基酸长度）。
MHC结合亲和力预测： 这是最核心、相对最成熟的环节。算法利用大量实验测定的肽段-MHC结合数据（如ELISA、质谱）训练模型，预测候选突变肽段与患者特定HLA等位基因的结合强度。常用指标包括IC50值（半数最大抑制浓度）或百分位秩（Percentile Rank）。
抗原加工与呈递预测： 预测突变肽段能否被细胞内蛋白酶体有效切割、被TAP转运蛋白转运、并与内质网中的MHC分子成功结合。这部分预测难度更大，数据基础相对薄弱。
免疫原性预测： 尝试直接预测肽段被T细胞受体识别并激活T细胞的可能性。这是终极目标，但极其复杂，涉及因素众多（TCR库多样性、免疫耐受、共刺激信号等），现有算法的准确性较低。

二、生物学评价的核心维度

计算预测为新抗原筛选提供了“候选名单”，但其真实免疫原性必须通过严格的生物学实验进行验证和评价：

MHC结合亲和力的体外验证：
- 方法： 固相肽段结合试验、竞争性结合试验、荧光偏振法、表面等离子共振等。使用人工合成的预测新抗原肽段，在体外测定其与特定纯化的HLA分子或表达HLA分子的细胞系的结合强度。
- 评价指标： 实测结合亲和力（如IC50值）与预测值的相关性；区分强结合肽（通常IC50<50 nM）、弱结合肽和无结合肽的能力；预测为强结合肽的真实结合率（阳性预测值PPV）。
- 意义： 这是最基础的验证，评估算法预测肽段与MHC物理结合能力的准确性。高亲和力结合是成为有效新抗原的必要非充分条件。
抗原呈递的验证：
- 基于质谱的免疫肽组学： 这是验证新抗原呈递的金标准方法之一。直接分析患者自体肿瘤细胞或HLA匹配肿瘤细胞系的MHC分子表面实际呈递的肽段。检测到预测的新抗原肽段，是其在体内被成功加工和呈递的最直接证据。
- 细胞模型验证： 在表达相应HLA分子的细胞（如永生化细胞系、树突状细胞）中导入包含突变的基因或肽段，检测该突变肽段是否被加工并呈递到细胞表面（例如使用特异性抗体结合或功能性T细胞识别）。
T细胞应答的验证：
- 体外T细胞刺激与扩增：
  - 自体系统： 使用患者自身的抗原呈递细胞（如树突状细胞DC）负载预测的新抗原肽段（或包含突变的全长蛋白/RNA），刺激患者自体来源的外周血单个核细胞（PBMC）或肿瘤浸润淋巴细胞（TIL）。通过检测T细胞的增殖、活化标记物表达（如CD137/OX40）、细胞因子分泌（如IFN-γ, TNF-α, IL-2）或细胞毒性（如颗粒酶B）来评估应答。
  - 异体系统： 使用健康供者来源的PBMC或T细胞库进行刺激，但需考虑HLA匹配限制性。
- TCR识别检测：
  - 多聚体染色： 将预测的新抗原肽段与特定的HLA分子结合成荧光标记的四聚体或多聚体，直接流式分选或鉴定能够识别该新抗原-HLA复合物的T细胞克隆。
  - TCR测序与功能验证： 从刺激后扩增的T细胞中分离克隆性TCR，通过基因工程方法在报告细胞（如Jurkat细胞）或原代T细胞中表达，再验证其对负载新抗原肽靶细胞的识别和激活（如检测荧光素酶报告信号、细胞因子分泌或杀伤）。
- 评价指标： T细胞应答的频率、强度（如IFN-γ分泌量）、功能性（细胞毒性）、诱导的难易程度（所需刺激轮数）；区分免疫原性肽和非免疫原性肽的能力；预测为免疫原性肽的真实阳性率（PPV）。
- 意义： 这是评价新抗原预测算法最关键的环节，直接反映预测的新抗原是否能被T细胞识别并引发功能性免疫应答。
体内功能验证：
- 小鼠模型：
  - 移植瘤模型： 在免疫健全小鼠中植入表达目标突变和人源HLA分子的肿瘤细胞。给予基于该新抗原的疫苗或过继性T细胞治疗，观察肿瘤生长抑制效果、生存期延长、以及小鼠体内特异性T细胞应答的诱导。
  - 基因工程小鼠模型： 利用携带同源突变和相应MHC背景的小鼠模型，评价内源性新抗原的自然免疫原性或基于其的治疗效果。
- 评价指标： 肿瘤抑制率、小鼠生存期、体内新抗原特异性T细胞的扩增与浸润、免疫记忆形成等。
- 意义： 体内模型能更全面地模拟肿瘤微环境、免疫耐受状态和新抗原诱导的抗肿瘤免疫应答全过程，评估预测新抗原的治疗潜力。
临床疗效相关性：
- 免疫治疗患者的回顾性分析： 分析接受免疫检查点抑制剂（ICI）、新生抗原疫苗或过继细胞治疗的患者队列。将治疗前通过算法预测的患者肿瘤新抗原负荷（数量和质量）与临床预后（客观缓解率ORR、无进展生存期PFS、总生存期OS）进行关联分析。
- 新生抗原疫苗临床试验： 在新生抗原疫苗的临床试验中，直接评估所接种的预测新抗原能否在患者体内诱导出可检测的特异性T细胞应答（通过上述体外方法或体内检测），并分析这种应答与临床获益（肿瘤缩小、复发延迟等）的相关性。
- 评价指标： 预测新抗原负荷（如高亲和力新抗原数量）与临床获益的统计相关性（如HR值）；疫苗诱导的新抗原特异性T细胞应答与临床反应的相关性。
- 意义： 这是评价预测算法价值的最高层级证据，直接反映预测结果对指导有效临床干预的潜力。

三、评价体系面临的挑战与未来方向

复杂性： 新抗原的免疫原性受多重因素影响（HLA等位基因、肽段亲和力、抗原加工效率、TCR亲和力、T细胞前体频率、肿瘤微环境免疫抑制状态等），单一层面的验证难以完全反映真实情况。
“金标准”的局限： 体外验证（如T细胞刺激）通量低、成本高、耗时久，难以大规模应用于临床筛选。免疫肽组学可能遗漏低丰度呈递的新抗原。体内模型存在种属差异。
个体化差异： 每位患者的HLA背景、TCR库、免疫状态高度个体化，通用算法和评价标准面临挑战。
预测与免疫原性的鸿沟： 即使准确预测并验证了MHC结合和呈递，也不保证一定能触发有效的T细胞应答（免疫原性）。
阴性预测值的评估： 现有评价多聚焦于阳性预测值（PPV），但对阴性预测值（NPV，即预测为非免疫原性肽段确实无免疫原性的比例）评估不足。

未来方向：

整合多组学数据： 结合基因组、转录组、翻译后修饰（如磷酸化）、免疫肽组和免疫组库数据，构建更全面的预测模型。
发展更准确的免疫原性预测模型： 利用深度学习等技术，整合更多维度的生物信息（如TCR接触残基特征、T细胞前体频率预测），弥合抗原呈递预测与真实免疫原性之间的差距。
标准化与规模化验证平台： 建立高通量、标准化的体外T细胞功能验证平台（如多重细胞因子检测、微流控技术），并探索利用类器官或人源化小鼠模型提高体内验证的效率和相关性。
动态监测与适应性预测： 结合治疗过程中的纵向监测数据（如ctDNA、免疫微环境变化），实现新抗原预测的动态更新和优化。
关注新抗原质量而非数量： 从单纯计数转向评估新抗原的“质量”，如其在肿瘤细胞中的均一性表达（避免亚克隆丢失）、免疫原性强弱、诱导多功能性T细胞的能力、对抗原丢失突变的抵抗性等。
开放数据库与算法基准测试： 建立共享、高质量、包含匹配的多维度验证数据（如蛋白质组学、免疫组学、临床信息）的基准数据集，用于算法的公正比较和迭代优化。

结语

肿瘤新抗原预测算法是开启个体化癌症免疫治疗的钥匙。然而，这把钥匙能否真正打开治愈之门，关键在于对其预测结果的系统、严谨和多层次的生物学评价。从物理结合（MHC亲和力）、生物加工呈递（免疫肽组学）到最终的核心功能（T细胞应答），再到体内效果和临床获益，构建一个完整的生物学评价链条，是验证算法可靠性、理解新抗原免疫原性决定因素、并最终实现精准免疫治疗的核心保障。克服现有挑战，发展更有效的验证策略和更精准的预测模型，需要计算生物学、免疫学、肿瘤学和临床医学的深度交叉融合。唯有如此，我们才能真正将新抗原的预测潜力转化为患者生存获益的现实。