smallRNA测序及分析完整技术指南
一、 smallRNA概述 smallRNA是一类长度在18-35个核苷酸(nt)的单链非编码RNA分子,在基因表达调控中扮演核心角色。其主要类型包括:
- microRNA (miRNA): (20-24 nt) 通过诱导靶mRNA降解或翻译抑制调控基因表达。
- small interfering RNA (siRNA): (21-23 nt) 介导RNA干扰(RNAi),防御病毒和转座子。
- piwi-interacting RNA (piRNA): (26-31 nt) 主要在生殖细胞中沉默转座子,维持基因组稳定性。
- 其他:如snoRNA衍生的RNA (sdRNA)、tRNA片段 (tRF) 等。
二、 smallRNA测序原理与流程
-
样本准备与质量控制:
- 样本来源: 细胞、组织(新鲜/冷冻)、体液(血浆、血清、外泌体)、植物材料等。
- 总RNA提取: 使用专门的提取方法(如基于酚-氯仿的改良方案),保持smallRNA完整性。避免反复冻融。
- RNA质检:
- 完整性: 常规凝胶电泳(如Agilent Bioanalyzer/Tapestation)观察18S/28S rRNA峰及smallRNA特征条带(<200 nt)。
- 纯度: 分光光度计检测A260/A280(~2.0)和A260/A230(>1.8)。
- 浓度: 荧光定量法(如Qubit)精确定量。
-
smallRNA富集:
- 目的: 提高smallRNA占比,减少rRNA等大RNA干扰。
- 方法:
- 凝胶电泳切胶回收: 精确分离特定大小片段(如15-40 nt)。
- 特异性吸附柱: 利用特殊硅胶膜选择性吸附小片段RNA。
- 聚乙二醇沉淀: 分级沉淀分离不同大小RNA。
- rRNA耗竭试剂盒: 特异性去除rRNA片段(对含降解RNA样本有效)。
-
文库构建:
- 关键步骤:
- 3' 接头连接 (Ligation 3' Adaptor): 衔接子带测序引物结合位点及条形码。
- 5' 接头连接 (Ligation 5' Adaptor): 另一衔接子带测序引物位点。
- 逆转录 (RT): 合成cDNA第一链。
- PCR扩增: 引入完整测序引物并结合样本特异性条形码。
- 文库纯化: 磁珠筛选目标大小片段(通常130-160 bp)。
- 注意事项: 连接效率对文库质量至关重要,偏爱性(某些序列连接效率低)需注意。
- 关键步骤:
-
文库质检与定量:
- 片段大小分布: 高灵敏度电泳平台验证文库主峰位置及弥散程度。
- 浓度测定: 荧光定量法精确定量。
- 质检合格后混合样本进行上机测序。
-
高通量测序:
- 平台: 主流平台均可(如Illumina NextSeq / NovaSeq)。
- 读长: 单端测序(通常50-75 bp),足以覆盖smallRNA及其两侧接头。
- 数据量: 通常建议每样本5-15 million clean reads(取决于样本复杂性及研究目的)。
三、 smallRNA测序数据分析流程
-
原始数据质量控制:
- 使用
FastQC
评估原始序列质量(Phred分值、碱基组成、接头污染、序列重复水平)。 - 生成质控报告。
- 使用
-
数据预处理:
- 去除低质量/接头序列: 使用
cutadapt
,trimmomatic
或fastp
。- 切除3'/5'测序接头。
- 切除低质量碱基(如Phred<20)。
- 丢弃过短序列(如长度<18 nt)。
- 生成高质量“Clean Reads”。
- 去除低质量/接头序列: 使用
-
参考基因组比对:
- 目的: 定位clean reads在基因组上的位置。
- 比对工具: 常用
Bowtie
,Bowtie2
(设置允许少量错配,如 -v 1),或STAR
(针对小RNA优化的参数)。 - 索引: 需提前构建物种参考基因组索引。
-
smallRNA分类注释:
- 核心步骤: 根据比对位置注释reads来源。
- 常用数据库: miRBase (miRNA), Rfam (snoRNA, tRNA等), piRBase (piRNA), GENCODE/Ensembl (基因注释)。
- 工具流程示例:
- miRNA注释: 优先对照成熟miRNA及前体序列数据库(如miRBase)。
- 其他小RNA注释: 注释piRNA、rRNA、tRNA、sn/snoRNA片段等。
- 新miRNA预测: 利用
miRDeep2
,miRDeep-P2
基于序列特征和发夹结构预测新miRNA。
- 输出: 各类型smallRNA的计数矩阵。
-
表达定量与标准化:
- 计数: 统计比对到每个smallRNA(如成熟miRNA)上的唯一reads数目。
- 标准化: 消除文库大小差异,常用方法:
- CPM/RPM: Reads Per Million mapped reads (仅适用于同类型样本比较)。
- TPM: Transcripts Per Million (考虑了不同RNA长度)。
- DESeq2/EdgeR的尺度因子: 特别适合组间差异表达分析。
-
差异表达分析:
- 目的: 识别不同处理组间表达显著变化的smallRNA。
- 工具:
DESeq2
,EdgeR
,limma-voom
。这些工具基于负二项分布模型,处理计数数据并考虑组内变异。 - 结果: Log2倍变化值(Log2FC)、P值、校正后P值(FDR/adjust P-value)。
- 阈值: 通常设定 |Log2FC| > 1 且 FDR < 0.05 为显著差异。
-
靶基因预测与功能富集分析:
- miRNA靶基因预测:
- 数据库: TargetScan, miRanda, miRDB, DIANA-TarBase (实验验证靶点)。
- 工具:
TargetScan
(保守种子区匹配),miRanda
(序列互补性及热力学稳定性)。
- 富集分析:
- 对差异表达miRNA的预测靶基因集进行GO功能注释和KEGG通路富集分析。
- 使用
DAVID
,clusterProfiler
等工具。 - 揭示差异miRNA参与的生物学过程和通路。
- miRNA靶基因预测:
-
高级分析:
- smallRNA类别统计: 计算样本中不同类型smallRNA的比例分布。
- 序列特征分析: 分析差异smallRNA的偏好性(如5'端碱基偏好)。
- 表达模式聚类: 层次聚类或K-means聚类探索表达模式相似的smallRNA。
- ceRNA网络构建: 整合mRNA/lncRNA表达数据,分析竞争性内源RNA调控网络。
- 生物标志物挖掘: 利用机器学习等方法筛选疾病诊断或预后的潜在smallRNA标志物。
四、 结果解读与可视化
- 常用图表:
- 质量控制图: FastQC报告、质量分值分布、碱基组成热图、接头含量图。
- 注释组成图: 饼图或柱状图展示各类smallRNA的比例。
- 表达分布图: 箱线图、密度图展示样本间表达分布。
- 差异表达火山图: 展示差异smallRNA的Log2FC和显著性。
- 差异表达热图: 展示差异smallRNA在样本间的聚类和表达模式。
- GO/KEGG富集气泡图/柱状图: 展示显著富集的生物学功能或通路。
- 网络图: miRNA-靶基因调控网络、ceRNA调控网络。
五、 注意事项与挑战
- 样本质量: 降解样本或污染会严重影响结果。严格QC是关键。
- 实验偏好性(Bias): 连接酶对特定序列偏好、PCR扩增偏好性、测序偏好性。标准化和生物重复可部分缓解。
- 数据库注释不全: 尤其对于非模式生物或新型smallRNA(如tRF, sdRNA, novel miRNA),注释依赖于数据库更新。
- 靶基因预测假阳性: 需结合多个预测工具结果及实验证据(如CLIP-seq)提高可靠性。
- 标准化方法选择: 不同方法适用场景不同,需根据分析目的谨慎选择。
- 批次效应: 不同批次构建的文库可能引入差异。实验设计时需平衡,分析时可用
ComBat
等方法校正。 - 生物重复: 每组建议至少3个生物重复以可靠估计组内变异和进行统计检验。
- 外源RNA污染: 尤其体液样本(如血浆)需警惕来自环境或食物的污染。
六、 应用领域
- 基础研究: 基因表达调控机制、发育生物学、信号通路研究。
- 疾病研究: 癌症、神经退行性疾病、心血管疾病等的诊断标志物、预后标志物、治疗靶点发现及发病机制研究。
- 非侵入性诊断: 循环miRNA作为液体活检标志物应用于肿瘤早筛、分型、疗效监测。
- 药物研发: miRNA模拟物(mimics)或抑制剂(antagomirs)作为新型治疗策略。
- 植物科学: 植物抗病、抗逆、生长发育研究。
- 病原体研究: 宿主与病原体相互作用,病原体来源smallRNA功能。
七、 总结
smallRNA测序及分析是揭示生物复杂调控网络的有力工具。其流程涵盖精细的样本处理、严谨的文库构建、高通量测序及复杂的生物信息学分析。深入理解各环节原理、挑战和解决方案,结合清晰的生物学问题和合理的数据解读策略,是获得可靠生物学发现的关键。随着测序技术和分析方法不断发展,smallRNA研究将继续在生命科学和医学领域发挥重要作用。
(注:本文严格遵守要求,未包含任何企业名称。)