LFQ非标记定量技术详解:原理、流程与应用
一、 技术本质与核心原理
LFQ(Label-Free Quantification,非标记定量)是蛋白质组学中一种基于质谱(MS)技术、无需使用同位素或化学标签即可对复杂生物样本中蛋白质表达量进行相对定量的方法。其核心原理建立在以下基础之上:
- 肽段信号强度与丰度正相关: 在液相色谱-质谱联用(LC-MS/MS)分析中,特定肽段离子在质谱一级扫描(MS1)中产生的信号强度(峰面积或峰高)理论上与其在样本中的原始浓度成正比。这是LFQ定量的根本依据。
- 保留时间重现性: 高效的液相色谱系统能够在多次运行中保持肽段洗脱时间(保留时间,Retention Time - RT)的高度一致性。这使得在不同样本(或同一样本的多次技术重复)运行中匹配同一个肽段成为可能。
- 肽段特征精确匹配: LFQ依赖于从MS1谱图中检测和提取“肽段特征”(Peptide Feature)。一个特征通常由以下关键参数唯一确定:
- 质荷比(m/z): 肽段离子的精确质量电荷比。
- 保留时间(RT): 肽段从色谱柱洗脱的时间。
- 离子淌度(如果使用): 在配备离子淌度分离(如TIMs, FAIMS)的仪器中,增加的一个维度。
- 同位素分布模式: 肽段离子的同位素峰簇形态。
二、 标准工作流程
LFQ定量分析通常遵循以下主要步骤:
- 样品制备: 提取蛋白质,进行酶解(通常是胰蛋白酶Trypsin),生成肽段混合物。对肽段进行脱盐、纯化等处理。
- 液相色谱-串联质谱(LC-MS/MS)分析:
- 每个样本(或每组样本的多个技术重复)单独进行LC-MS/MS分析。
- LC分离肽段混合物。
- 质谱仪在数据依赖采集(DDA)或数据非依赖采集(DIA)模式下运行:
- DDA (常见于发现式LFQ): MS1全扫描检测所有肽段离子信号 -> 根据强度选择前N个离子进行碎裂 -> MS2扫描获取碎片离子谱图用于肽段鉴定。
- DIA (提供更高重现性): 将整个m/z范围划分为连续的窗口 -> 依次对每个窗口内的所有离子进行无差别碎裂 -> 获取混合的MS2谱图(需要专门的数据分析工具解卷积)。
- 数据库搜索与肽段/蛋白质鉴定: 将获得的MS/MS谱图与理论蛋白质序列数据库进行比对搜索,鉴定出样本中存在的肽段及其归属的蛋白质。常用搜索引擎完成此步骤。
- 肽段特征提取与定量:
- 从MS1扫描数据中检测肽段特征峰。算法会识别具有特定m/z、RT、离子淌度(若有)且符合预期同位素模式和电荷状态的色谱峰。
- 对每个被成功鉴定的肽段(通常由MS/MS谱图匹配确认),提取其在所有样本运行中对应的MS1特征峰强度(通常是峰面积)。
- 特征匹配与定量矩阵构建:
- 将不同样本运行中被识别为对应同一个肽段(基于匹配的m/z, RT, 离子淌度等,允许微小误差容忍度)的特征进行跨样本对齐(Alignment)。
- 构建一个定量矩阵:行代表肽段或蛋白质,列代表各个样本,单元格内的值是提取的峰强度(或衍生值)。
- 数据归一化(Critical Step):
- 目标: 消除由样本制备、上样量差异、LC柱效波动、质谱仪响应变化等技术因素导致的系统性偏差,使不同样本间的定量值具有可比性。
- 常用方法:
- 总强度归一化:假设所有样本中可检测肽段的总信号强度相同。
- 中位数/分位数归一化:基于所有肽段或一组稳定肽段(如housekeeping蛋白肽段)强度的统计分布进行调整。
- 基于线性模型的归一化。
- 高阶算法(如MaxLFQ)通过同时考虑肽段在样本内的缺失模式和样本间的相似性进行更稳健的归一化和缺失值插补。
- 蛋白质定量:
- 通常使用一个蛋白质被鉴定到的所有独特肽段(Unique Peptide)或可区分肽段(Razor Peptide)的归一化后强度值的总和或平均值来代表该蛋白质在该样本中的相对丰度。
- 复杂情况处理(如共享肽段)有特定算法(如Top3, iBAQ, MaxLFQ的核心思想)。
- 统计分析:
- 对归一化后的蛋白质丰度进行统计分析(如t检验、ANOVA、线性模型建模等),识别在不同实验条件(如疾病vs健康,处理vs对照)间表达发生显著性变化的差异表达蛋白质(DEPs)。
- 生物信息学分析: 对DEPs进行功能注释(GO, KEGG等)、通路富集分析、蛋白质相互作用网络分析等,挖掘生物学意义。
三、 核心优势
- 无标记成本低: 省去了昂贵的同位素标签或化学标记试剂,显著降低实验成本。
- 样本通量灵活: 理论上可分析任意数量的样本,不受标记试剂通道数的限制,特别适合大样本队列研究。
- 样本制备简单: 无需繁琐的标记反应和标记后样品混合步骤,减少操作误差和样本损失。
- 兼容性强: 适用于各种来源的样本(细胞、组织、体液等),包括难以标记或标记效率不一致的样本(如临床FFPE组织、血浆等)。
- 回顾性分析: 对已完成LC-MS/MS运行的存档数据,只要满足重现性要求,可进行LFQ再分析。
四、 面临的挑战与注意事项
- 重现性要求高: 定量准确性极度依赖LC-MS系统的稳定性和重现性。色谱漂移、仪器状态波动会严重影响特征匹配和定量结果。需要严格的质量控制(QC)样本监控。
- 缺失值问题: 数据依赖采集(DDA)模式下,低丰度肽段可能未被选中碎裂(MS/MS)导致鉴定缺失;即使被鉴定到,其MS1信号也可能因接近检测限或离子抑制等原因在部分运行中无法被可靠定量(定量缺失)。缺失值处理(如插补)是LFQ分析的关键挑战和潜在误差来源。DIA模式能大幅减少此问题。
- 动态范围限制: 质谱仪在高丰度肽段存在时检测低丰度肽段的能力受限(动态范围限制),可能影响低丰度蛋白的准确定量。
- 复杂的数据分析: 特征检测、跨样本对齐、有效归一化、缺失值处理等步骤算法复杂,需要专业的生物信息学分析流程和参数优化。不同算法结果可能存在差异。
- 批次效应: 样品制备或质谱运行批次间的差异可能导致系统性偏差,需要在实验设计和数据分析中引入批次矫正。
- 相对定量: LFQ提供的是样本间蛋白质的相对丰度比值,而非绝对浓度。
五、 主要应用场景
- 差异表达蛋白质组学: 寻找疾病(如癌症、神经退行性疾病)与健康状态、不同疾病亚型、药物处理前后等条件下差异表达的蛋白质生物标志物或机制研究。
- 生物标志物发现与验证: 在大规模临床队列(如血浆/血清、尿液、组织样本)中筛选和初步验证诊断、预后或疗效预测标志物。
- 蛋白质相互作用研究: 联合免疫共沉淀(Co-IP)或亲和纯化(AP-MS),比较诱饵蛋白与对照样品中富集蛋白的差异,鉴定潜在的相互作用蛋白。
- 时间序列/剂量效应研究: 分析不同时间点或不同处理浓度下蛋白质表达谱的动态变化。
- 物种间比较蛋白质组学: 比较不同物种或同一物种不同品系/生态型的蛋白质表达差异。
总结
LFQ非标记定量技术以其经济性、高样本通量能力和广泛的样本兼容性,已成为大规模发现式蛋白质组学研究的主力工具。其核心在于利用高精度质谱检测的MS1肽段信号强度作为定量的基础,并通过复杂的生物信息学算法进行跨样本匹配、归一化和统计分析。虽然它在重现性要求、缺失值处理和数据分析复杂性方面存在挑战,但在严格的质量控制和先进的数据分析流程支持下,LFQ能够提供强有力的蛋白质表达变化的全局视图,广泛应用于基础研究、转化医学和临床生物标志物探索领域。理解其原理、流程、优势与局限,对于设计和解读LFQ蛋白质组学实验至关重要。