smallRNA测序及分析

发布时间:2025-06-14 10:01:35 阅读量:3 作者:生物检测中心

smallRNA测序及分析完整技术指南

一、 smallRNA概述 smallRNA是一类长度在18-35个核苷酸(nt)的单链非编码RNA分子,在基因表达调控中扮演核心角色。其主要类型包括:

  • microRNA (miRNA): (20-24 nt) 通过诱导靶mRNA降解或翻译抑制调控基因表达。
  • small interfering RNA (siRNA): (21-23 nt) 介导RNA干扰(RNAi),防御病毒和转座子。
  • piwi-interacting RNA (piRNA): (26-31 nt) 主要在生殖细胞中沉默转座子,维持基因组稳定性。
  • 其他:如snoRNA衍生的RNA (sdRNA)、tRNA片段 (tRF) 等。

二、 smallRNA测序原理与流程

  1. 样本准备与质量控制:

    • 样本来源: 细胞、组织(新鲜/冷冻)、体液(血浆、血清、外泌体)、植物材料等。
    • 总RNA提取: 使用专门的提取方法(如基于酚-氯仿的改良方案),保持smallRNA完整性。避免反复冻融。
    • RNA质检:
      • 完整性: 常规凝胶电泳(如Agilent Bioanalyzer/Tapestation)观察18S/28S rRNA峰及smallRNA特征条带(<200 nt)。
      • 纯度: 分光光度计检测A260/A280(~2.0)和A260/A230(>1.8)。
      • 浓度: 荧光定量法(如Qubit)精确定量。
  2. smallRNA富集:

    • 目的: 提高smallRNA占比,减少rRNA等大RNA干扰。
    • 方法:
      • 凝胶电泳切胶回收: 精确分离特定大小片段(如15-40 nt)。
      • 特异性吸附柱: 利用特殊硅胶膜选择性吸附小片段RNA。
      • 聚乙二醇沉淀: 分级沉淀分离不同大小RNA。
      • rRNA耗竭试剂盒: 特异性去除rRNA片段(对含降解RNA样本有效)。
  3. 文库构建:

    • 关键步骤:
      1. 3' 接头连接 (Ligation 3' Adaptor): 衔接子带测序引物结合位点及条形码。
      2. 5' 接头连接 (Ligation 5' Adaptor): 另一衔接子带测序引物位点。
      3. 逆转录 (RT): 合成cDNA第一链。
      4. PCR扩增: 引入完整测序引物并结合样本特异性条形码。
      5. 文库纯化: 磁珠筛选目标大小片段(通常130-160 bp)。
    • 注意事项: 连接效率对文库质量至关重要,偏爱性(某些序列连接效率低)需注意。
  4. 文库质检与定量:

    • 片段大小分布: 高灵敏度电泳平台验证文库主峰位置及弥散程度。
    • 浓度测定: 荧光定量法精确定量。
    • 质检合格后混合样本进行上机测序。
  5. 高通量测序:

    • 平台: 主流平台均可(如Illumina NextSeq / NovaSeq)。
    • 读长: 单端测序(通常50-75 bp),足以覆盖smallRNA及其两侧接头。
    • 数据量: 通常建议每样本5-15 million clean reads(取决于样本复杂性及研究目的)。

三、 smallRNA测序数据分析流程

  1. 原始数据质量控制:

    • 使用 FastQC 评估原始序列质量(Phred分值、碱基组成、接头污染、序列重复水平)。
    • 生成质控报告。
  2. 数据预处理:

    • 去除低质量/接头序列: 使用 cutadapttrimmomatic 或 fastp
      • 切除3'/5'测序接头。
      • 切除低质量碱基(如Phred<20)。
      • 丢弃过短序列(如长度<18 nt)。
    • 生成高质量“Clean Reads”。
  3. 参考基因组比对:

    • 目的: 定位clean reads在基因组上的位置。
    • 比对工具: 常用 BowtieBowtie2 (设置允许少量错配,如 -v 1),或 STAR (针对小RNA优化的参数)。
    • 索引: 需提前构建物种参考基因组索引。
  4. smallRNA分类注释:

    • 核心步骤: 根据比对位置注释reads来源。
    • 常用数据库: miRBase (miRNA), Rfam (snoRNA, tRNA等), piRBase (piRNA), GENCODE/Ensembl (基因注释)。
    • 工具流程示例:
      1. miRNA注释: 优先对照成熟miRNA及前体序列数据库(如miRBase)。
      2. 其他小RNA注释: 注释piRNA、rRNA、tRNA、sn/snoRNA片段等。
      3. 新miRNA预测: 利用 miRDeep2miRDeep-P2 基于序列特征和发夹结构预测新miRNA。
    • 输出: 各类型smallRNA的计数矩阵。
  5. 表达定量与标准化:

    • 计数: 统计比对到每个smallRNA(如成熟miRNA)上的唯一reads数目。
    • 标准化: 消除文库大小差异,常用方法:
      • CPM/RPM: Reads Per Million mapped reads (仅适用于同类型样本比较)。
      • TPM: Transcripts Per Million (考虑了不同RNA长度)。
      • DESeq2/EdgeR的尺度因子: 特别适合组间差异表达分析。
  6. 差异表达分析:

    • 目的: 识别不同处理组间表达显著变化的smallRNA。
    • 工具: DESeq2EdgeRlimma-voom。这些工具基于负二项分布模型,处理计数数据并考虑组内变异。
    • 结果: Log2倍变化值(Log2FC)、P值、校正后P值(FDR/adjust P-value)。
    • 阈值: 通常设定 |Log2FC| > 1 且 FDR < 0.05 为显著差异。
  7. 靶基因预测与功能富集分析:

    • miRNA靶基因预测:
      • 数据库: TargetScan, miRanda, miRDB, DIANA-TarBase (实验验证靶点)。
      • 工具: TargetScan (保守种子区匹配), miRanda (序列互补性及热力学稳定性)。
    • 富集分析:
      • 对差异表达miRNA的预测靶基因集进行GO功能注释和KEGG通路富集分析。
      • 使用 DAVIDclusterProfiler 等工具。
      • 揭示差异miRNA参与的生物学过程和通路。
  8. 高级分析:

    • smallRNA类别统计: 计算样本中不同类型smallRNA的比例分布。
    • 序列特征分析: 分析差异smallRNA的偏好性(如5'端碱基偏好)。
    • 表达模式聚类: 层次聚类或K-means聚类探索表达模式相似的smallRNA。
    • ceRNA网络构建: 整合mRNA/lncRNA表达数据,分析竞争性内源RNA调控网络。
    • 生物标志物挖掘: 利用机器学习等方法筛选疾病诊断或预后的潜在smallRNA标志物。

四、 结果解读与可视化

  1. 常用图表:
    • 质量控制图: FastQC报告、质量分值分布、碱基组成热图、接头含量图。
    • 注释组成图: 饼图或柱状图展示各类smallRNA的比例。
    • 表达分布图: 箱线图、密度图展示样本间表达分布。
    • 差异表达火山图: 展示差异smallRNA的Log2FC和显著性。
    • 差异表达热图: 展示差异smallRNA在样本间的聚类和表达模式。
    • GO/KEGG富集气泡图/柱状图: 展示显著富集的生物学功能或通路。
    • 网络图: miRNA-靶基因调控网络、ceRNA调控网络。

五、 注意事项与挑战

  1. 样本质量: 降解样本或污染会严重影响结果。严格QC是关键。
  2. 实验偏好性(Bias): 连接酶对特定序列偏好、PCR扩增偏好性、测序偏好性。标准化和生物重复可部分缓解。
  3. 数据库注释不全: 尤其对于非模式生物或新型smallRNA(如tRF, sdRNA, novel miRNA),注释依赖于数据库更新。
  4. 靶基因预测假阳性: 需结合多个预测工具结果及实验证据(如CLIP-seq)提高可靠性。
  5. 标准化方法选择: 不同方法适用场景不同,需根据分析目的谨慎选择。
  6. 批次效应: 不同批次构建的文库可能引入差异。实验设计时需平衡,分析时可用 ComBat 等方法校正。
  7. 生物重复: 每组建议至少3个生物重复以可靠估计组内变异和进行统计检验。
  8. 外源RNA污染: 尤其体液样本(如血浆)需警惕来自环境或食物的污染。

六、 应用领域

  1. 基础研究: 基因表达调控机制、发育生物学、信号通路研究。
  2. 疾病研究: 癌症、神经退行性疾病、心血管疾病等的诊断标志物、预后标志物、治疗靶点发现及发病机制研究。
  3. 非侵入性诊断: 循环miRNA作为液体活检标志物应用于肿瘤早筛、分型、疗效监测。
  4. 药物研发: miRNA模拟物(mimics)或抑制剂(antagomirs)作为新型治疗策略。
  5. 植物科学: 植物抗病、抗逆、生长发育研究。
  6. 病原体研究: 宿主与病原体相互作用,病原体来源smallRNA功能。

七、 总结

smallRNA测序及分析是揭示生物复杂调控网络的有力工具。其流程涵盖精细的样本处理、严谨的文库构建、高通量测序及复杂的生物信息学分析。深入理解各环节原理、挑战和解决方案,结合清晰的生物学问题和合理的数据解读策略,是获得可靠生物学发现的关键。随着测序技术和分析方法不断发展,smallRNA研究将继续在生命科学和医学领域发挥重要作用。

(注:本文严格遵守要求,未包含任何企业名称。)