拷贝数分析 - 中析研究所生物检测中心

拷贝数分析：解码基因组的剂量密码

在基因组学研究中，"拷贝数"（Copy Number, CN）指的是基因组中特定DNA片段的重复数量。拷贝数变异（Copy Number Variation, CNV）是指长度通常大于1千碱基对（kb）的DNA片段拷贝数在个体或细胞群体间的差异。拷贝数分析（Copy Number Analysis, CNA）则是系统性地检测、定量和解读这些变异的核心技术，为我们理解遗传多样性、疾病机制和精准诊疗提供了关键视角。

一、拷贝数变异：基因组结构的动态变化

定义与特征： CNV是人类基因组中常见的结构变异类型，涉及DNA片段的缺失（Deletion，拷贝数减少）、重复（Duplication，拷贝数增加）或更复杂的重排。与单核苷酸变异（SNV）不同，CNV影响的是一个连续的、较大的基因组区域。
形成机制： 主要源于DNA过程中的错误修复机制：
- 非同源末端连接错误修复
- 叉停滞与模板切换
- 减数分裂期染色体不等交换
生物学意义：
- 遗传多样性： 健康人群中存在大量良性CNV，构成群体遗传差异的重要部分。
- 疾病关联： 许多CNV与疾病直接相关：
  - 遗传病： 如迪乔治综合征（22q11.2缺失）、普拉德-威利综合征（15q11-q13父源缺失）、夏科-马里-图斯病1A型（外周髓鞘蛋白22基因重复）等。
  - 癌症： 癌细胞内广泛存在着驱动肿瘤发生、发展的CNV（如癌基因扩增、抑癌基因缺失），是肿瘤基因组不稳定的核心标志。
  - 神经发育与精神疾病： 如自闭症谱系障碍、精神分裂症等与特定稀有CNV显著相关。
  - 复杂性状： 部分常见CNV可能影响常见疾病（如心血管疾病、糖尿病）的易感性。

二、拷贝数分析的核心技术与原理

检测CNV的技术不断发展，主要依赖两类平台：

基于微阵列的技术：
- 比较基因组杂交芯片： 将标记的待测样本DNA和对照样本DNA混合后与芯片上固定的已知基因组位置的探针竞争杂交，通过比较两种荧光信号强度比（log₂ Ratio）推断拷贝数变化。
- 单核苷酸多态性芯片： 除了检测SNP基因型，还能利用杂交信号强度（Log R Ratio）推断拷贝数，并结合相邻SNP的等位基因频率（B Allele Frequency）信息区分杂合性缺失（LOH）和拷贝数中性事件，提高分辨率和准确性。
基于高通量测序的技术：
- 全基因组测序： 是目前最为全面的CNV检测方法。
  - 深度测序： 通过统计比对到基因组特定区域内的序列读段数量（Read Depth），与参考基因组或对照样本的预期深度进行比较，推断拷贝数变化（深度越高，拷贝数越大）。
  - 配对末端/双端测序： 分析两端序列读段在参考基因组上的比对距离是否异常（过大或过小），或方向是否相反（表明插入、倒位等），可检测断裂点。
  - 分离读段： 单个读段跨越断裂点，部分比对到基因组一个位置，另一部分比对到另一位置，精确定位结构变异边界。
  - 从头组装： 不依赖参考基因组，直接组装序列读段构建基因组图谱，再与参考基因组比较发现结构变异（尤其适合复杂区域）。
- 全外显子组测序： 虽然主要设计用于检测编码区的SNV/Indel，但也能通过分析目标外显子区域的测序深度异常来检测外显子水平的CNV。
- 靶向测序： 针对特定基因或区域进行深度测序，用于已知疾病相关CNV位点的高灵敏度检测或验证。

三、拷贝数分析的数据处理流程与算法

原始数据需要经过复杂的生物信息学分析才能识别可靠的CNV：

数据预处理：
- 芯片数据： 背景校正、归一化（消除系统性偏差）、探针信号强度汇总。
- 测序数据： 质量控制、去除低质量读段、序列比对到参考基因组。
拷贝数推断：
- 芯片数据： 计算每个探针/SNP位点的Log R Ratio和B Allele Frequency。
- 测序数据： 将基因组划分为固定或可变大小的区间，计算每个区间内的平均测序深度。
基线校正与归一化： 利用已知为二倍体的区域或对照样本，校正样本间或基因组不同区域（如GC含量差异）的系统性偏差。
分割与调用：
- 核心步骤是识别拷贝数状态发生变化的断点（Breakpoint）。
- 常用算法：
  - 循环二元分割： 递归地将基因组分割成具有一致拷贝数水平的片段。
  - 隐马尔可夫模型： 将基因组视为状态序列（如拷贝数丢失、中性、扩增），利用观测值（如Log R Ratio， Read Depth）推断最可能的状态序列。
  - 基于波动的变化点检测算法。
- 算法输出每个样本的基因组分段图谱，标注每段的估计拷贝数（或相对于二倍体的拷贝数状态）。
过滤与注释：
- 去除低质量或置信度低的候选CNV（如覆盖探针/序列太少、位于重复区域）。
- 注释CNV的基因组位置（染色体、起止坐标）、大小、类型（缺失、重复、杂合性缺失）、涉及的基因、是否与已知数据库中的良性/致病CNV重叠、在群体中的频率（如gnomAD-SV）等。
可视化： 使用基因组浏览器或绘图工具展示拷贝数图谱（如Log R Ratio/B Allele Frequency图、测序深度图）。

四、拷贝数分析的挑战与考量

分辨率限制： 芯片的分辨率受限于探针密度。低深度WGS对小型CNV灵敏度不足。
重复区域复杂性： 高度重复或同源序列区域（如着丝粒、端粒、节段重复）比对困难，导致假阳性或假阴性。
肿瘤样本异质性： 肿瘤组织包含不同类型细胞（癌细胞、正常细胞、免疫细胞等），导致检测的信号是混合信号，需要算法推断肿瘤纯度（Tumor Cellularity/Purity）和亚克隆结构（Clonality/Subclonality）。
体细胞CNV与胚系CNV区分： 在肿瘤分析中，需区分肿瘤特有的体细胞CNV和患者遗传的胚系CNV。
解读复杂性： 判断一个CNV是否致病极具挑战，需综合：
- 变异特征（类型、大小、基因完整性影响）
- 人群频率（罕见变异更可能致病）
- 功能预测（是否涉及剂量敏感基因、关键结构域）
- 病例-对照研究证据
- 表型一致性（患者表型与既往报道的致病CNV关联疾病是否匹配）
- 遵循ACMG/ClinGen等机构制定的解读指南。
数据标准化与共享： 不同平台、算法、参数设置会影响结果可比性，需要标准化流程和公共数据库（如DECIPHER, ClinVar, dbVar）。

五、拷贝数分析的主要应用领域

临床遗传诊断：
- 产前诊断（如染色体微阵列分析检测胎儿拷贝数异常）。
- 儿童发育迟缓、智力障碍、先天性畸形、自闭症的遗传病因查找。
- 不明原因多系统疾病的分子诊断。
癌症研究与精准医疗：
- 癌症分子分型： 特定的CNV谱可作为诊断标志（如HER2扩增乳腺癌）。
- 预后标志物： 某些CNV与患者生存期或复发风险相关。
- 治疗靶点与预测标志物：
  - 靶点： 扩增的癌基因（如EGFR扩增、MET扩增）可能成为靶向药物靶点。
  - 耐药机制： 靶基因扩增是常见耐药机制之一。
  - 生物标志物: 如HRD评分（同源重组修复缺陷特征）可预测PARP抑制剂疗效。
- 肿瘤进化与克隆异质性研究： 追踪不同时间点或空间位点的CNV变化，揭示肿瘤进化路径。
群体遗传学研究： 解析人类基因组结构多样性图谱，探索CNV在适应性进化、复杂疾病易感性中的作用。
药物基因组学： 研究涉及药物代谢、转运或靶点的基因的CNV对药物反应（疗效、毒性）的影响。

六、未来方向

长读长测序技术： 有望更精准、更全面地解析复杂结构变异，尤其是在重复区域。
单细胞拷贝数分析： 在肿瘤异质性、胚胎发育、神经科学等领域揭示细胞层面的基因组变异。
多组学整合分析： 结合基因表达（转录组）、表观遗传（甲基化组）、空间组学等数据，深入理解CNV的功能影响。
人工智能与机器学习： 改进CNV检测算法的灵敏度和特异性，提升致病性预测准确性。
大规模队列研究： 建立更完善的良性/致病CNV数据库，优化解读标准。
临床应用标准化： 推动分析流程、报告内容和解读指南的规范统一。

结语

拷贝数分析已成为现代基因组学不可或缺的利器，深刻改变了我们对基因组结构动态性的认识，并在疾病诊断、预后评估和治疗决策中发挥着日益重要的作用。随着技术的持续革新和解读能力的不断提升，拷贝数分析必将为精准医学的发展和人类健康的改善贡献更深层次的关键洞察。解码基因组的剂量密码，我们仍在不断探索与突破的路上。

主要参考文献：

Feuk, L., Carson, A. R., & Scherer, S. W. (2006). Structural variation in the human genome. Nature Reviews Genetics.
Zarrei, M., MacDonald, J. R., Merico, D., & Scherer, S. W. (2015). A copy number variation map of the human genome. Nature Reviews Genetics.
Pinkel, D., & Albertson, D. G. (2005). Array comparative genomic hybridization and its applications in cancer. Nature Genetics.
Zhao, M., Wang, Q., Wang, Q., Jia, P., & Zhao, Z. (2013). Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives. BMC Bioinformatics.
Riggs, E. R., et al. (2020). Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen). Genetics in Medicine.
Beroukhim, R., et al. (2010). The landscape of somatic copy-number alteration across human cancers. Nature.
Crolla, J. A., & Cheung, S. W. (2018). Chromosome microarray (CMA) for genetic evaluation in prenatal diagnosis, postnatal diagnosis, and neoplastic disease. Current Protocols in Human Genetics.
Baslan, T., & Hicks, J. (2017). Unravelling biology and shifting paradigms in cancer with single-cell sequencing. Nature Reviews Cancer.
Mahmood, M., Kwon, S., Kim, Y., Kim, Y., Jung, H. J., Lee, S., ... & Kim, H. M. (2021). Long-read sequencing for detecting structural variations in human cancer genomes. Experimental & Molecular Medicine.