全基因组甲基化测序(WGBS)

发布时间:2025-06-03 18:46:11 阅读量:9 作者:生物检测中心

全基因组甲基化测序 (WGBS) 详解:聚焦检测项目核心

概述:

全基因组甲基化测序 (Whole-Genome Bisulfite Sequencing, WGBS) 是DNA甲基化研究领域的“金标准”。它利用亚硫酸氢盐处理结合高通量测序技术,能够在单碱基分辨率下检测全基因组范围内所有胞嘧啶(C) 的甲基化状态(主要是5-甲基胞嘧啶,5mC)。WGBS提供最全面、最精确的甲基化图谱,是探索表观遗传调控机制、发现疾病生物标志物、研究发育与分化的强大工具。

WGBS检测项目的核心流程与内容:

一个完整的WGBS检测项目包含紧密衔接的实验操作和复杂的生物信息学分析两大模块。

一、实验流程与关键检测点

  1. 样本准备与DNA提取:

    • 检测对象: 组织、细胞、血液、FFPE样本、体液(如cfDNA)等。
    • 关键要求:
      • 高质量DNA: 避免降解(DNA Integrity Number, DIN > 7 或通过凝胶电泳确认主条带清晰)。降解DNA会导致数据偏差和覆盖度不足。
      • 高纯度: 去除蛋白质、RNA、杂质(通过NanoDrop/A260/A280 > 1.8, A260/A230 > 2.0 或 Qubit/PicoGreen 准确定量确认)。
      • 足够起始量: 通常推荐 > 500 ng - 1 μg 高质量基因组DNA (gDNA)。低起始量样本需特殊建库方法(如PCR-free或低起始量建库试剂盒),但可能影响覆盖均匀性。
    • 检测点: DNA浓度、纯度、完整性评估。
  2. 亚硫酸氢盐处理 (Bisulfite Conversion):

    • 核心原理: 未甲基化的胞嘧啶(C)被亚硫酸氢盐脱氨基转化为尿嘧啶(U),在后续PCR扩增和测序中读取为胸腺嘧啶(T);而甲基化的胞嘧啶(5mC)保持不变,读取为胞嘧啶(C)。
    • 关键检测点:
      • 转化效率: 必须 > 99%。通常通过掺入已知序列的spike-in control (如Lambda DNA)或检测非CpG位点(如CHH, CHG位点在哺乳动物中通常低甲基化)的转化率来评估。低转化率会导致未甲基化C被误判为甲基化C。
      • DNA损伤控制: 亚硫酸氢盐处理具有强酸性,会严重损伤DNA。优化反应条件和使用保护剂(如DTT)至关重要。需评估处理后DNA的片段大小分布(通过Bioanalyzer/Tapestation)。
    • 输出: 完成转化的DNA (其中C代表原始甲基化位点,T代表原始未甲基化位点)。
  3. 文库构建 (Library Preparation):

    • 步骤: 末端修复、加A尾、接头连接(含index/barcode)、片段选择(通常目标插入片段大小 ~300-500 bp)、扩增(部分流程可选PCR-free)。
    • 关键检测点:
      • 文库浓度: 准确定量(Qubit/PicoGreen)。
      • 文库片段大小分布: 通过Bioanalyzer/Tapestation或qPCR确认是否符合预期范围。
      • 文库质量: 评估是否有接头二聚体、引物二聚体等杂质污染。
    • 输出: 带有测序接头的、indexed的WGBS文库。
  4. 高通量测序 (High-Throughput Sequencing):

    • 平台: 主要基于Illumina平台(如NovaSeq, HiSeq X)。
    • 测序策略:
      • 双端测序 (Paired-End, PE): 主流选择(如PE150),提供更多信息用于比对和覆盖。
      • 深度: 是项目成功的关键参数。需要根据基因组大小和研究目的(如是否需要高分辨率DMR检测)确定。
        • 人类/哺乳动物: 推荐深度 > 30x (即平均每个CpG位点被30条测序reads覆盖)。基础图谱构建可能需要10-15x,精细分析(如稀有细胞群、单碱基变异关联)可能需要 > 50x。
        • 植物(基因组大/重复序列多)/特定需求: 可能需要更高深度(>50x甚至100x)。
    • 关键检测点: 测序质量(Q30 > 80%)、数据产出量(Gb)、reads中index的分配正确率。

二、生物信息学分析流程与核心检测内容

原始测序数据经过复杂的分析流程才能转化为可解读的甲基化信息:

  1. 原始数据质量控制 (Raw Data QC):

    • 检测内容: FastQC评估原始fastq文件质量:测序质量值分布、碱基组成分布、接头污染、重复序列水平等。
    • 目的: 确认测序数据质量是否合格,识别潜在问题。
  2. 数据预处理 (Preprocessing):

    • 去接头/低质量序列: 使用如Trim Galore!、Cutadapt等工具去除测序接头序列和低质量碱基(通常Q<20)。
    • 去重复: 移除因PCR扩增引入的重复reads(可选,需谨慎,避免过度去除生物学重复)。常用Picard MarkDuplicates或samtools。
    • 检测点: 预处理后reads数量、质量改善情况。
  3. 序列比对 (Alignment):

    • 工具: 专用比对软件,如Bismark (基于Bowtie2/Bowtie2)、BS-Seeker2、BWA-meth等。
    • 核心挑战: 亚硫酸氢盐处理后,基因组序列发生巨大变化(C->T)。比对软件需将测序reads中的T同时比对到参考基因组上的C和T位置。
    • 关键参数: 比对率(通常 > 60-70%)、唯一比对率(Unique mapping rate)、比对质量。
    • 输出: 排序的BAM/SAM文件(包含比对位置信息)。
  4. 甲基化位点提取与水平计算 (Methylation Calling & Beta Value Calculation):

    • 核心检测内容: 识别每个胞嘧啶位点(主要是CpG,也包括CHG, CHH)。
    • 计算方法:
      • 统计每个位点支持甲基化(读取为C)和支持未甲基化(读取为T)的reads数量。
      • 计算甲基化水平 (β值): β = # Methylated_C / (# Methylated_C + # Unmethylated_T)
      • β值范围:0 (完全未甲基化) 到 1 (完全甲基化)。通常用百分比表示 (0% - 100%)。
    • 关键指标: CpG位点覆盖度 (Coverage) - 平均每个CpG位点被多少条有效reads覆盖(直接影响β值可靠性)、覆盖度分布、整体甲基化水平分布。
    • 输出: 包含基因组位置、覆盖度、甲基化C数、未甲基化C数、β值的文件(如bedGraph, coverage文件)。
  5. 差异甲基化区域分析 (Differential Methylated Region Analysis, DMR Analysis):

    • 核心目标: 识别不同样本组(如疾病 vs 对照,不同处理条件,不同发育阶段)之间甲基化水平存在显著差异的基因组区域。
    • 工具: DSS, MethylKit, metilene, dmrseq等。
    • 检测内容:
      • DMR定义: 通常是连续的多个CpG位点构成的区域(长度可变)。
      • 关键结果:
        • DMR位置(染色体、起始、终止)。
        • DMR长度。
        • 平均甲基化水平差异 (Δβ / Δm)。
        • 统计显著性 (p-value, q-value / FDR)。
      • 筛选标准: 通常结合Δβ (如 |Δβ| > 0.1 or 0.2) 和 FDR (如 FDR < 0.05)。
    • 输出: DMR列表文件。
  6. 功能注释与富集分析 (Functional Annotation & Enrichment Analysis):

    • 目的: 理解DMR的生物学意义。
    • 检测内容:
      • 基因组特征注释: 将DMR定位到基因启动子区、增强子区、CpG岛 (CGI)、基因体、内含子、重复元件等。
      • 通路富集分析: 基于DMR相关基因(如启动子区DMR),进行GO (Gene Ontology) 生物过程、分子功能、细胞组分以及KEGG、Reactome等通路的富集分析,找出显著富集的生物学功能或通路。
    • 工具: GREAT, ChIPseeker, clusterProfiler等。
  7. 高级分析 (可选,根据项目需求):

    • 甲基化图谱 (Methylation Haplotype): 分析同一DNA分子上连续CpG位点的甲基化状态组合模式。
    • 等位基因特异性甲基化 (Allele-Specific Methylation, ASM): 结合SNP信息,研究甲基化在亲本等位基因上的差异。
    • 非CpG甲基化分析: 在植物、胚胎干细胞、神经元等中,CHG/CHH位点的甲基化也很重要。
    • 整合分析: 与基因表达数据(RNA-seq)、染色质状态数据(ChIP-seq, ATAC-seq)等整合,探究甲基化对基因调控的直接作用。
    • 机器学习应用: 基于WGBS数据构建诊断/分型模型,或预测甲基化状态。

三、WGBS检测项目的主要应用方向

  • 基础科研: 表观遗传调控机制研究(发育、分化、衰老、环境响应)。
  • 疾病研究: 癌症(诊断、分型、预后、治疗靶点)、神经精神疾病(如阿尔兹海默症、自闭症)、自身免疫病、代谢性疾病等生物标志物发现与机制探索。
  • 发育生物学: 胚胎发育、干细胞多能性维持与分化的表观遗传动态。
  • 植物科学: 环境胁迫响应、生长发育调控、表观遗传育种。
  • 法医学: 组织溯源、年龄推断。
  • 流行病学: 环境暴露(如吸烟、污染)的表观遗传效应研究。

四、WGBS项目报告的核心内容

一份完整的WGBS项目报告通常包括:

  1. 项目摘要: 样本信息、研究目的、关键结论概述。
  2. 实验方法与质控: 详细实验步骤、关键质控数据(DNA QC、文库QC、测序QC、转化效率)。
  3. 生信分析流程与方法: 软件、版本、关键参数。
  4. 数据质控结果: Raw data QC图、比对统计、覆盖度统计(如平均覆盖度、覆盖度分布直方图)、整体甲基化水平分布图。
  5. 核心结果展示:
    • 全基因组甲基化水平概览图 (e.g., 染色体水平甲基化水平图)。
    • 关键基因组区域(如基因启动子、CGI)的甲基化水平分布图。
    • DMR列表及可视化 (e.g., 曼哈顿图、火山图、热图)。
    • 重要DMR的基因组浏览器视图 (e.g., IGV截图)。
    • DMR功能注释结果表和图 (e.g., 饼图/柱状图展示DMR在基因组特征的分布)。
    • 通路富集分析结果表和图 (e.g., 点图、网络图)。
  6. (若有) 高级分析结果。
  7. 原始数据与结果文件: 测序原始数据 (fastq)、比对文件 (BAM)、甲基化水平文件 (bedGraph/cov)、DMR文件等存储信息。
  8. 结论与讨论: 对结果的生物学意义进行解读。

五、重要注意事项与挑战

  • 高成本: WGBS是目前最昂贵的甲基化检测方法之一,主要源于高深度测序需求。
  • 大数据量: 产生海量数据,对存储、计算资源和生物信息学分析能力要求高。
  • 分析复杂性: 生信分析流程长、工具多、参数设置需经验,解读需要深厚的生物学背景。
  • 样本质量要求极高: DNA降解或亚硫酸氢盐处理不当会严重影响结果。
  • 替代方法考虑: 对于不需要全基因组覆盖或预算有限的项目,可考虑:
    • 简化代表性亚硫酸氢盐测序 (RRBS): 富集CpG岛区域,降低成本。
    • 靶向甲基化测序: 只测特定感兴趣区域(如基因panel)。
    • 甲基化芯片 (如Infinium MethylationEPIC): 成本低、通量高、分析成熟,但仅覆盖预选位点(~850K CpGs),分辨率非单碱基。

总结:

WGBS检测项目是一个系统性的工程,从严格的样本准备、精密的亚硫酸氢盐处理和高深度测序,到复杂的生物信息学分析和深入的生物学解读。其核心价值在于提供单碱基分辨率、全基因组覆盖的DNA甲基化图谱。项目成功的关键在于全程严格的质量控制(样本DNA质量、转化效率、文库质量、测序质量、覆盖度)以及专业的生物信息学分析能力(比对、甲基化水平计算、DMR检测、功能注释)。虽然存在成本高、数据量大等挑战,但WGBS作为金标准,在揭示表观遗传奥秘方面具有不可替代的地位。选择WGBS项目前,务必明确研究目标、评估样本质量和预算,并确保具备相应的数据分析能力或合作资源。