高通量测序OTU检测:解析微生物群落结构的关键桥梁
高通量测序技术(High-Throughput Sequencing, HTS)的飞速发展彻底革新了我们对微生物世界的认知,使得大规模解析复杂环境中微生物群落的组成、多样性和功能成为可能。在微生物生态学研究中,操作分类单元(Operational Taxonomic Unit, OTU) 作为一种核心的生物信息学分析概念,曾长期是解读高通量测序数据(尤其是16S rRNA或ITS等标记基因测序)的基石。
一、 OTU的核心概念
- 定义: OTU是基于核酸序列相似性(通常是指定的序列相似性阈值,如97%用于细菌16S rRNA基因)对高通量测序获得的序列进行聚类或划分所得到的分类单元。
- 本质: OTU本质上是一种操作性的、基于序列的分类单位。它将具有高度相似序列的个体(视为同一个物种或菌株)归为一组,代表一个假定在系统发育或生态功能上相关的微生物群体。
- 阈值: 最常用的阈值是97%相似度(针对细菌和古菌的16S rRNA基因V4区等),这大致对应于微生物“种”水平的分类。但根据研究对象(如真菌ITS可能使用98-99%)和研究目的,阈值可调整(如95%用于属水平)。
二、 OTU检测的核心流程
基于高通量测序数据进行OTU检测是一个标准化的生物信息学流程,主要包括以下关键步骤:
-
原始数据质控与预处理:
- 质量过滤: 去除低质量碱基(通常Q值 < 20或30)、含过多模糊碱基(N)或过短的序列。
- 去接头与引物: 移除测序接头序列和PCR扩增引物序列。
- 去重复(可选): 去除完全相同的序列(精确重复),减少计算量(但需注意可能丢失重要生物学信息)。
- 去嵌合体: 识别并移除由PCR扩增过程中产生的嵌合体序列(由不同亲本序列错误连接而成),这对保证OTU的准确性至关重要。
-
序列比对(可选):
- 对于某些基于参考数据库的OTU聚类方法(如
closed-reference),需要将预处理后的序列比对到参考数据库(如Greengenes, SILVA, UNITE等)。
- 对于某些基于参考数据库的OTU聚类方法(如
-
OTU聚类/生成: 这是OTU检测的核心步骤,主要有三种策略:
- 基于De Novo聚类:
- 原理: 不依赖参考数据库,直接根据序列间的两两相似度进行聚类。
- 常用算法: UCLUST, CD-HIT, VSEARCH等。
- 过程: 算法选择一个种子序列,将与种子序列相似度高于设定阈值的所有序列归入同一个OTU,直至所有序列都被归类。
- 优点: 能发现参考数据库中不存在的新颖微生物类群。
- 缺点: 计算量大;对测序错误敏感,可能导致过度分裂(一个物种被分成多个OTU)。
- 基于参考数据库聚类:
- 原理: 将预处理后的序列比对到参考数据库,将与参考序列相似度高于阈值的序列归入该参考序列代表的OTU;无法比对到参考序列的序列被丢弃。
- 常用算法: 同上,但比对是聚类的前提。
- 优点: 结果直接与已知分类学关联;计算相对较快;不同研究间结果可比性高。
- 缺点: 无法检测参考数据库中不存在的新物种;数据库的质量和覆盖度直接影响结果。
- 混合聚类:
- 原理: 先尝试将序列比对到参考数据库进行聚类。对无法比对上参考数据库的序列,再进行de novo聚类。
- 优点: 结合了上述两种方法的优点,既能利用参考数据库又能发现新类群。
- 缺点: 流程稍复杂。
- 基于De Novo聚类:
-
OTU代表序列选择:
- 每个OTU需要选择一个代表序列(通常是该OTU的中心序列或最丰富的序列),用于后续的分类学注释和系统发育分析。
-
OTU表生成:
- 统计每个样本中每个OTU的序列数量(即read count),构建一个样本(行)× OTU(列)的丰度矩阵,称为OTU表。这是下游分析的基础。
-
分类学注释:
- 将每个OTU的代表序列与参考数据库(如RDP, SILVA, Greengenes for 16S; UNITE for ITS)进行比对或使用分类学分类器(如RDP Classifier, SINTAX, Naive Bayes等),为每个OTU分配一个或多个可能的分类学名称(如门、纲、目、科、属、种)。
三、 OTU检测的意义与应用
OTU检测是解析微生物群落结构的核心步骤,其意义在于:
- 群落多样性评估: 通过计算OTU数量(丰富度)及多样性指数(如Shannon, Simpson指数),量化群落的α多样性(样本内多样性)。
- 群落结构比较: 通过比较不同样本的OTU组成(如PCA, PCoA, NMDS等),分析β多样性(样本间差异),揭示环境因素、宿主状态等对群落结构的影响。
- 指示物种/标志物发现: 识别在特定条件(如疾病状态、污染处理、不同生境)下显著增多或减少的OTU,作为潜在的生物标志物。
- 系统发育分析: 基于OTU代表序列构建系统发育树,研究群落内部的系统发育关系。
- 功能预测(间接): 基于OTU的分类学注释,结合已知微生物功能数据库(如PICRUSt, Tax4Fun),可对群落潜在功能进行预测(尽管存在局限性)。
四、 OTU方法的局限性与替代方法
尽管OTU曾长期是金标准,但也存在公认的局限性:
- 对测序错误敏感: PCR和测序错误可能产生与真实生物变异不同的序列变异,导致过度聚类(不同物种被归为一个OTU)或分裂不足(同一物种被分成多个OTU)。
- 聚类阈值主观性: 97%阈值是经验性的,并非对所有微生物类群都绝对准确。
- 分辨率有限: 即使在高相似度阈值下,OTU也可能包含多个近缘物种或菌株,丢失种内或菌株水平的信息。
- 批次效应可比性: De novo聚类使得不同批次或研究的OTU难以直接比较(除非使用相同的聚类流程和数据库)。
因此,近年来,扩增子序列变体(Amplicon Sequence Variant, ASV) 方法日益普及:
- 原理: ASV是基于测序错误校正后获得的单碱基精度的独特序列变体。它不依赖聚类阈值,旨在区分真实的生物序列变异。
- 优点: 分辨率更高(可区分单碱基差异);结果可重复且在不同研究间可比性好(无需重新聚类);减少了因PCR/测序错误和聚类阈值带来的偏差。
- 代表方法: DADA2, Deblur, UNOISE3等。
- 挑战: 可能包含一些残留的测序错误;对极高深度测序数据需求更高;下游分析(如多样性指数)的解释可能与OTU略有不同。
五、 总结
高通量测序OTU检测是将原始序列数据转化为可解读的微生物群落组成信息的关键桥梁。通过严格的质控、聚类和注释流程,OTU为研究者提供了群落多样性、结构和动态的宏观视图。尽管ASV等新方法在分辨率和可重复性上展现出优势,OTU分析在历史数据比较、特定研究需求以及作为理解微生物生态学基础概念方面仍然具有重要价值。研究者应根据具体的研究目标、样本类型和数据特点,审慎选择最合适的分析单元(OTU或ASV),以获取最可靠的生物学洞见。
参考文献:
- Caporaso, J. G., Kuczynski, J., Stombaugh, J., Bittinger, K., Bushman, F. D., Costello, E. K., ... & Knight, R. (2010). QIIME allows analysis of high-throughput community sequencing data. Nature methods, 7(5), 335-336.
- Edgar, R. C. (2013). UPARSE: highly accurate OTU sequences from microbial amplicon reads. Nature methods, 10(10), 996-998.
- Callahan, B. J., McMurdie, P. J., & Holmes, S. P. (2017). Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME journal, 11(12), 2639-2643.
- Schloss, P. D., Westcott, S. L., Ryabin, T., Hall, J. R., Hartmann, M., Hollister, E. B., ... & Weber, C. F. (2009). Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Applied and environmental microbiology, 75(23), 7537-7541.
- Bokulich, N. A., Kaehler, B. D., Rideout, J. R., Dillon, M., Bolyen, E., Knight, R., ... & Caporaso, J. G. (2018). Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugin. Microbiome, 6(1), 1-17.
(注:本文严格遵循要求,未提及任何企业名称,所有技术名称均为通用的生物信息学方法或概念。)