近红外定量模型检测 - 中析研究所生物检测中心

近红外定量模型检测：原理、流程与应用

一、近红外光谱分析技术基础

近红外光谱（NIR）区域指波长范围在780 nm至2500 nm（对应波数12800 cm⁻¹至4000 cm⁻¹）的电磁波。其光谱信息主要来源于含氢基团（如C-H、O-H、N-H、S-H）的倍频与合频振动吸收。相较于中红外光谱，近红外光谱吸收强度弱、谱带重叠严重，看似复杂的图谱实则蕴含丰富的样品组成与结构信息。该技术优势显著：无需样品前处理、可实现无损快速检测、适用于多种形态样品（固体、液体、浆状物）、便于在线或现场实时分析。

二、近红外定量模型的核心：化学计量学建模

由于近红外光谱的直接解析极其困难，定量分析的核心在于建立光谱数据（自变量X）与样品目标性质（因变量Y，如浓度、水分、蛋白含量等）之间的数学统计模型。这一过程依赖于化学计量学方法：

数据采集与预处理：
- 代表性样本集： 收集涵盖预期变化范围（如不同产地、批次、工艺条件）的样本，其目标性质需通过标准参考方法准确定值。
- 光谱采集： 使用光谱仪在适宜的光程、分辨率下扫描样本，获得原始光谱数据。
- 预处理： 消除噪声、基线漂移、光散射等干扰，常用方法包括：
  - 平滑： Savitzky-Golay卷积平滑等。
  - 导数： 一阶、二阶导数（Savitzky-Golay法），增强谱峰分辨。
  - 散射校正： 多元散射校正、标准正态变量变换，减少固体颗粒大小分布影响。
  - 标准化： 矢量归一化等。
特征选择/降维：
- 波长选择： 筛选与目标性质最相关的特征波长区域，减少冗余信息（如相关系数法、区间偏最小二乘）。
- 特征提取： 将高维光谱数据投影到低维空间，保留主要信息（如主成分分析）。
模型建立（回归算法）：
- 多元线性回归： 基础方法，适用于变量少且独立的情况。
- 主成分回归： 先进行主成分分析降维，再用主成分得分进行回归。
- 偏最小二乘回归： 最广泛使用的核心算法。同时分解光谱矩阵X和性质矩阵Y，寻找能最大程度解释Y变异的潜变量（Latent Variables）。能有效处理多重共线性、噪声干扰。
- 支持向量回归： 基于统计学习理论，擅长处理非线性问题。
- 人工神经网络/深度学习： 对于高度复杂的非线性关系具有强大拟合能力，但需更多数据和计算资源。
模型训练与优化：
- 将样本集划分为校正集（训练模型）和验证集（初步评估模型性能，防止过拟合）。
- 使用交叉验证等技术确定最优模型参数（如PLS的潜变量数）。
模型性能验证与评价：
- 使用独立于校正集和验证集的预测集样本进行最终评估。
- 关键评价指标：
  - 决定系数： 反映模型解释Y变异的能力（越接近1越好）。
  - 校正均方根误差： 模型对校正集的预测精度。
  - 交叉验证均方根误差： 模型稳健性的初步指标。
  - 预测均方根误差： 评估模型预测新样本的能力（最重要指标）。
  - 相对分析误差： RPD = SD / RMSEP，用于评估模型的实际预测能力分级（>3 优秀；2.5-3 很好；2-2.5 可用；<2 差）。
  - 偏差： 预测值与参考值平均差异。

三、模型的验证、维护与传递

模型验证：
- 内部验证： 使用预测集评估。
- 外部验证： 在模型应用阶段，持续使用新样本进行验证，确保模型在实际场景下的可靠性。
- 统计检验： 如t检验（检查预测值与参考值均值是否有显著差异）、F检验（检查预测值与参考值的方差是否有显著差异）。
模型维护：
- 定期核查： 使用标准样品或已知性质样品定期运行模型，监控预测值是否漂移。
- 模型更新： 当样本特性发生显著变化（如原料来源变更、工艺调整、仪器状态变化）导致模型性能下降时，需纳入新样本重新校正或扩充模型。
- 异常样本识别： 利用马氏距离、光谱残差等指标识别光谱与校正集差异过大的样本，其预测结果不可靠。
模型传递：
- 将在主仪器（Master）上建立的模型应用于其他同型号或不同型号的从仪器（Slave）时，常因仪器间差异导致预测结果偏差。
- 常用传递方法：
  - 直接标准化： 利用在两台仪器上测量的相同标准样品光谱建立转换关系。
  - 斜率/截距校正： 对预测值进行线性调整。
  - 模型更新： 在从仪器上补充少量代表性样本重新校正模型。

四、近红外定量模型的应用领域

该技术凭借其快速、无损、多组分同时分析的优势，广泛应用于：

农业与食品： 谷物（水分、蛋白、淀粉、油脂含量）、油料作物（含油量、脂肪酸组成）、乳制品（脂肪、蛋白、乳糖、固形物）、肉制品（脂肪、蛋白、水分）、水果（糖度、酸度、内部品质）。
制药： 原料药鉴别、水分含量、活性成分含量、混合均匀度、包衣厚度、溶出度预测。
石油化工： 原油及油品性质（辛烷值、十六烷值、馏程、密度、硫含量）、聚合物特性（密度、熔融指数、共聚单体含量）。
纺织： 纤维成分（棉麻丝毛化纤混纺比）、水分、染料浓度。
环境： 土壤养分（有机质、氮磷钾）、水质参数。
过程分析： 在线实时监控反应过程、混合过程、干燥过程的关键质量指标。

五、挑战与发展趋势

挑战： 模型建立依赖大量代表性样本和准确的参考值；对复杂基质或痕量组分检测灵敏度有时不足；模型维护和传递需要专业知识；结果解释需要结合化学背景。
发展趋势：
- 高光谱成像： 结合空间信息，用于不均匀样品分析。
- 微型化与便携化： 推动现场快速检测。
- 在线与实时分析： 深度融入智能制造过程控制。
- 深度学习与大数据： 挖掘更复杂的谱效关系，提升模型预测精度和鲁棒性。
- 多源信息融合： 结合其他传感器数据（如拉曼、中红外、物理特性）构建更稳健模型。

结论

近红外定量模型检测是一种强大的现代分析技术。其核心在于通过严谨的化学计量学方法，建立光谱与目标性质之间的可靠数学关联。成功的模型不仅依赖于高质量的光谱数据和先进的算法，更需要完善的验证、维护和传递策略来保证其在实际应用中的长期准确性和稳定性。随着硬件技术的进步、算法的优化以及应用经验的积累，近红外定量模型必将在更广泛的领域发挥其高效、便捷的分析优势，为科研、生产和质量控制提供有力支撑。