全转录组测序及分析 - 中析研究所生物检测中心

全转录组测序及分析：解码生命转录组的复杂性全景图

引言在基因组学研究的宏伟蓝图中，转录组占据着承上启下的核心地位，连接着静态的遗传密码与动态的生命活动。全转录组测序（Whole Transcriptome Sequencing, WTS），作为一项革命性的高通量技术，以其无偏性、高灵敏度和广度，彻底革新了我们对转录组复杂性的认知能力。它不再局限于传统的信使RNA（mRNA），而是将视野拓展至整个转录组的浩瀚宇宙，完整描绘细胞在特定时空状态下所产生的全部RNA分子图谱，为揭示生命活动的基本规律、疾病发生的分子机制提供了前所未有的强大工具。

一、全转录组测序的核心概念与技术原理

定义与范畴：
- 全转录组： 指特定细胞、组织或生物体在某一特定生理或病理状态下，所转录产生的所有RNA分子的总和。这包括：
  - 编码RNA： 信使RNA（mRNA），是蛋白质合成的直接模板。
  - 非编码RNA：
    - 管家型：核糖体RNA（rRNA）、转运RNA（tRNA）。
    - 调控型：微小RNA（miRNA）、小干扰RNA（siRNA）、PIWI相互作用RNA（piRNA）、长非编码RNA（lncRNA）、环状RNA（circRNA）等。
- 全转录组测序： 利用高通量测序平台，对经过特定文库构建策略处理后的总RNA样本进行大规模并行测序，从而获得该样本中几乎所有RNA种类的序列信息和丰度数据。
核心技术与文库构建策略：
- 总RNA提取： 获取高质量、完整性好（RIN值高）且无基因组DNA污染的总RNA是成功的关键起点。
- 去除核糖体RNA： 由于rRNA在总RNA中占比极高（>80%），会严重稀释有效数据量。主要技术包括：
  - poly(A)富集： 利用mRNA（及部分lncRNA）3'端poly(A)尾的特性，通过寡聚dT磁珠特异性捕获。此方法主要富集poly(A)+ RNA，会遗漏无poly(A)尾的RNA（如部分lncRNA、circRNA、组蛋白mRNA等）。
  - rRNA去除： 利用针对特定物种rRNA序列设计的探针（如Ribo-Zero, RiboMinus等），通过杂交或酶解法高效去除rRNA分子，保留包括非poly(A) RNA在内的更广泛转录本。这是获得“真正”意义上全转录组覆盖的首选方法。
- 文库构建：
  - 片段化与大小选择： RNA或逆转录后的cDNA被片段化至合适长度（通常100-500 bp），并进行大小选择以优化测序效率和数据均一性。
  - 接头连接： 在片段两端连接上测序平台特异的接头序列，包含用于桥式扩增或乳液PCR（取决于平台）以及测序引物结合的位点。
  - PCR扩增（可选）： 对连接好接头的文库进行有限轮数的PCR扩增，以增加模板量。
- 高通量测序： 构建好的文库在Illumina（短读长高通量）、MGI等平台上进行双端测序（通常150 bp PE），产生海量的短序列读段。

二、全转录组测序数据的深度分析流程

从原始的测序数据到生物学洞见，需要经历一系列严谨而复杂的生物信息学分析步骤：

原始数据质量控制（QC）：
- 使用工具评估原始测序数据的质量：碱基质量值分布（Q20/Q30比例）、GC含量、接头污染程度、重复序列水平等。
- 剔除低质量碱基、接头序列及污染序列。
序列比对（Alignment）：
- 将高质量的测序读段精准地比对到参考基因组上。
- 常用工具通常能有效处理剪接比对问题。
- 比对率是评估实验和参考基因组质量的重要指标。
比对后处理与质量控制（Post-alignment QC）：
- 评估比对结果的分布：基因间区、外显子、内含子、rRNA区域占比。
- 检查测序深度（Coverage/Depth）的分布均匀性。
- 评估链特异性（如果是链特异性建库）。
- 检测样本间相关性。
转录本重构（Transcript Assembly）与定量：
- 参考基因组依赖法： 利用比对结果，根据读段在外显子-外显子连接处（junction reads）的分布以及基因组覆盖深度，识别已知转录本并发现新的转录本异构体。常用工具结合基因组注释进行。
- 从头组装法： 在不依赖参考基因组的情况下，直接将读段拼接组装成转录本（适用于非模式生物或探索全新转录本）。常用工具执行此任务。
- 表达定量：
  - 估算基因/转录本水平的表达丰度。常用单位有FPKM、TPM、Counts（原始比对计数）。
  - 工具通常基于比对结果或组装结果进行定量。
差异表达分析（Differential Expression Analysis）：
- 在设定分组（如处理组vs对照组）的情况下，识别组间表达水平发生显著变化的基因或转录本。
- 常用工具基于统计模型（如负二项分布）进行，并考虑生物学变异和技术变异。
- 关键输出：差异表达基因列表、变化倍数（Fold Change）、统计显著性（p值、FDR/q值）。
可变剪接分析（Alternative Splicing Analysis）：
- 识别同一基因产生的不同剪接异构体（isoform）及其表达变化。
- 分析类型包括外显子跳跃、内含子保留、可变5'/3'剪接位点、互斥外显子等。
- 常用工具量化特定剪接事件的比例变化。
融合基因检测（Fusion Gene Detection）：
- 识别来自不同基因的片段异常连接形成的嵌合转录本，这在癌症中尤为重要。
- 依靠跨基因比对或拆分配对读段（split reads）等信号进行分析。有多种专门工具可用。
非编码RNA鉴定与定量：
- 识别已知类型的ncRNA（miRNA, lncRNA, circRNA等）并定量其表达水平。
- circRNA鉴定： 主要依赖反向剪接（back-splicing）位点处的特征性比对信号（如锚定到不同外显子上的读段）。
- lncRNA鉴定： 结合序列特征（编码潜能低、长度>200nt）、保守性、表达水平等进行预测和分类。
功能富集与通路分析（Functional Enrichment & Pathway Analysis）：
- 解读差异表达基因或目标基因集合的生物学意义。
- 基因本体论（Gene Ontology, GO）富集分析： 分析目标基因在生物学过程（BP）、分子功能（MF）、细胞组分（CC）上的富集程度。
- 京都基因与基因组百科全书（KEGG）通路分析： 识别目标基因显著富集的代谢通路或信号通路。
- 常用工具：基于超几何分布或Fisher精确检验等方法。
高级分析与整合：
- 共表达网络分析（WGCNA等）： 构建基因共表达模块，识别核心调控基因（hub genes），关联性状。
- 整合多组学分析： 将转录组数据与基因组（突变、CNV）、表观组（甲基化、染色质状态）、蛋白组等数据进行联合分析，提供更全面的生物学图景。
- 单细胞全转录组测序分析： 揭示细胞异质性，解析细胞类型、状态、发育轨迹。分析流程涉及细胞质控、降维聚类、差异表达、轨迹推断等独特步骤。

三、全转录组测序的广泛应用领域

全转录组测序强大的全景分析能力使其在生命科学和医学的众多领域发挥着核心作用：

基础生物学研究：
- 基因表达调控机制（转录、剪接、稳定性）。
- 发育生物学（胚胎发育、组织分化、细胞命运决定）。
- 非编码RNA的功能与作用机制。
- 环境胁迫响应（生物/非生物胁迫）。
- 物种进化与比较转录组学。
疾病研究（特别是精准医疗）：
- 癌症研究：
  - 发现新的诊断/预后生物标志物。
  - 鉴定驱动基因突变、融合基因、异常剪接事件。
  - 解析肿瘤异质性、微环境、免疫浸润特征。
  - 探索耐药机制，寻找新的治疗靶点。
- 遗传病研究： 寻找致病基因突变、异常剪接、表达失调。
- 复杂疾病研究（心血管、神经退行性疾病、代谢性疾病、自身免疫病等）： 解析发病机制，寻找潜在干预靶点。
- 感染与免疫： 宿主-病原体相互作用，宿主免疫应答机制。
药物研发：
- 药物作用机制研究（MoA）。
- 药物靶点发现与验证。
- 药物毒性（毒理转录组学）评估。
- 生物标志物发现指导临床试验入组和分层。
农业与生物技术：
- 作物/畜禽重要农艺性状（产量、抗逆性、品质）的分子遗传基础。
- 病原菌/害虫致病机制与宿主抗性机制。
- 林木、微生物等生物资源的开发与利用。

四、优势、挑战与发展方向

显著优势：
- 无偏性/全景性： 无需预设目标，能一次性捕获几乎所有类型的RNA分子。
- 高灵敏度： 能够检测低丰度的转录本。
- 高分辨率： 可精确到单个转录本异构体水平（尤其在结合长读长测序时潜力更大）。
- 数字化定量： 提供基因表达水平的精确定量。
- 强大的探索能力： 发现新基因、新转录本、新剪接方式、融合基因等。
当前面临的挑战：
- 技术挑战：
  - rRNA残留： 即使采用去除法，仍可能有少量残留，影响有效数据量。
  - 转录本完整性问题： 短读长测序难以准确重构全长转录本，尤其是复杂剪接或长基因。
  - 扩增偏好性： 建库过程中的PCR步骤可能引入偏好性，影响低丰度转录本的定量准确性。
  - 数据处理复杂度高： 海量数据的存储、传输、计算资源消耗巨大；分析流程复杂，对生物信息学能力要求高。
- 生物复杂性挑战：
  - 可变剪接的准确重构与定量： 区分高度相似的不同剪接异构体具有挑战性。
  - 非编码RNA的功能注释： 大量已鉴定的ncRNA功能未知，注释滞后。
  - 细胞异质性： 组织样本的混合细胞背景可能掩盖细胞类型特异性的信号。
  - 动态性与瞬时性： 转录组状态是动态变化的，需要精细的时间点或刺激响应设计。
未来发展方向：
- 长读长测序的整合应用： Oxford Nanopore和PacBio等长读长测序技术能够直接获得全长转录本序列，无需组装，极大地提高了转录本重构（尤其是isoform）的准确性，并能直接检测碱基修饰（如m6A）。未来短读长（覆盖度、成本）与长读长（长度、直接性）的结合将是主流趋势。
- 空间转录组学： 保留组织空间位置信息的转录组分析技术蓬勃发展，揭示组织微环境中基因表达的异质性。
- 单细胞全转录组测序的深入与普及： 技术不断优化（通量、成本、灵敏度），分析算法日趋成熟，将在解析发育、疾病、再生等复杂过程中的细胞图谱方面发挥更大作用。
- 多组学整合分析的标准化与自动化： 开发更强大的算法和平台，实现基因组、转录组、表观组、蛋白组等数据的无缝整合和自动化分析。
- 人工智能/机器学习的深度应用： 应用于从数据质量控制、转录本重构、功能预测到疾病诊断分型等各个环节，提升分析的智能化水平和预测能力。
- 功能验证的高通量化： 开发更高效、大规模的功能筛选技术（如CRISPR screens结合单细胞测序），加速对WTS发现的候选基因/转录本的功能验证。

五、结论

全转录组测序与分析技术已成为探索生命奥秘不可或缺的利器。它为我们描绘了细胞功能状态的全景转录图谱，深刻揭示了基因表达调控的复杂性及其在生理和病理过程中的核心作用。尽管在技术、数据分析和生物复杂性解读方面仍需突破，但随着长读长测序、空间组学、单细胞技术以及人工智能的飞速发展和深度融合，全转录组研究将不断突破现有界限，向着更高分辨率、更高维度整合、更深入功能解析和更广泛临床转化的方向迈进，持续推动生命科学和医学研究的革新，为最终实现精准医疗和深入理解生命本质奠定坚实的基础。

参考文献格式示例 (注意：此处仅为格式示例，实际引用需具体文献)

Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics, 10(1), 57–63.
Stark, R., Grzelak, M., & Hadfield, J. (2019). RNA sequencing: the teenage years. Nature Reviews Genetics, 20(11), 631–656.
Conesa, A., et al. (2016). A survey of best practices for RNA-seq data analysis. Genome Biology, 17, 13.
Picelli, S., et al. (2014). Tn5 transposase and tagmentation procedures for massively scaled sequencing projects. Genome Research, 24(12), 2033–2040. (提及建库技术)
Tang, F., et al. (2009). mRNA-Seq whole-transcriptome analysis of a single cell. Nature Methods, 6(5), 377–382. (单细胞开端)
Salzberg, S. L. (2019). Next-generation transcriptome assembly. Nature Reviews Genetics, 20(11), 671–686.
Barrett, T., et al. (2013). NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Research, 41(Database issue), D991–D995. (数据库示例)