基于可见/近红外光谱技术的红提成熟度判别模型

高升,徐建华

(1.青岛理工大学信息与控制工程学院,山东青岛 266520)(2.青岛国际机场集团有限公司运行指挥中心,山东青岛 266000)

红提富含营养物质、可口多汁,深受人们的喜爱[1]。成熟度是水果品质的重要评价指标,直接影响着果实产量、营养和口感[2],也决定着后期果实的加工和贮藏方式[3]。如果红提采收过早,会造成产量变低、品质变差、营养价值不高等问题;
如果采收过晚,则会因为过于成熟,出现水果营养流失、品相差、不耐贮藏、果肉易变质等问题[4]。因此,建立红提成熟度判别分类模型,对红提成熟度进行精确判断,有助于合理规划红提的采收和分类,也可提高红提种植者的经济收入,促进产业发展。

以往红提成熟度的判断是依据果实的外观、硬度、盛花期天数、尺寸等指标进行主观判断,或者结合生化方法检测水果内部成分含量进行果实成熟度分级[5,6]。但这些方法存在破坏性大、主观性强、耗时长、准确度低等缺点,直接影响着果农的收益[7]。光谱技术已被大量研究证实适合应用于水果品质参数及成熟度的无损检测[8,9]。Pu等[10]利用光谱技术建立了荔枝成熟度检测的分类模型,并证明了使用近红外技术可实现荔枝成熟度的分类。Zhang等[11]利用高光谱技术采集了草莓的高光谱图像,成功建立了支持向量机的草莓成熟度分类模型,并实现了对不同成熟度草莓的准确分类。Rungpichayapichet等[12]利用漫反射光谱检测技术,建立了芒果成熟度判别模型,所建立的芒果成熟度判别模型实现了对未熟芒果的准确判别,其准确率高达87.5%。上述研究也充分证明了对水果成熟度已成为近年来研究的热点,对于红提成熟度的研究同样显得非常重要。目前对红提进行成熟度分类的研究还未见报道,市场迫切需要一种便捷无损的检测方法实现对红提成熟度的判别。

本文利用可见/近红外光谱技术,分别选取红提生长过程的4个阶段(未成熟、半成熟、成熟、过熟)的样本并进行光谱信息采集。分别将经过Savitzky-Golay(SG)卷积平滑处理法预处理的光谱利用竞争性自适应加权算法(Competitive Adaptive Reweighted Sampling,CARS)、无信息变量消除算法(Uniformative Variable Elimination,UVE)和连续投影算法(Successive Projection Algorithm,SPA)进行特征波长提取,分别建立支持向量机(Support Vector Machines,SVM)、极限学习机(Extreme Learning Machine,ELM)和偏最小二乘法判别分析(Partial Least Squares Discriminant Analysis,PLS-DA)的分类模型并进行对比分析模型的优劣,最终确定红提成熟度的最佳预测模型,为红提成熟度的检测找到了一种无损快速的方法。

1.1 材料

本实验选取生长过程中的红提作为研究样本。选取的红提植株开花的时间为2019年5月1日,实验周期为两个月。参考当地果农经验和水果生长的过程,将生长期红提划分为未成熟、半熟、成熟和过熟4个阶段,未成熟:整个果实表面呈青色,颗粒较小;
半熟:果实的绿色外观逐渐改变,果实大小基本固定,一半果实呈现红色;
成熟:整个果实表面大都着色,颗粒饱满且有弹性,香味浓郁;
过熟:颗粒出现干瘪,弹性下降。图1为不同成熟度的样本。

图1 不同成熟度的样本Fig.1 Samples at different levels of maturity

红提果粒成熟周期约为两个月,实验每隔5 d进行1次样本采集,每次于实验当天随机采集5串葡萄,共进行12次采集,试样样本总数为60串。然后从每串葡萄上无差别摘取葡萄果粒进行实验,建模样本总数为360粒。为保证实验精度,需要对样本进行预处理,本实验的预处理方法为将当日采集的样本放入温度(22±1)℃,湿度65%的温恒湿箱保存12 h。

1.2 实验方法

为采集样本的光谱数据,本实验特搭建了可见/近红外光谱采集系统,如图2所示,该采集系统主要由Maya 2000 Pro型海洋光学光谱仪、聚光透镜(定制直径为15 mm,长度为45 mm)、LS-3000可调卤钨灯光源20 W、石英光纤(定制芯径为8 mm,长度为1.5 m)及笔记本计算机组成。Maya 2000 Pro光谱仪的一端通过光纤与84 UV准直镜连接,光谱仪的另一端通过 USB接口与计算机进行信息交互;
卤素灯(LS-3000)光源通过石英光纤连接到聚光透镜上。样本光谱采集时,首先将样本放置到隔板上,然后可直接通过笔记本计算机安装的Spectra Suite软件采集样本光谱数据。设置光谱采集时参数:积分时间为100 ms,平均次数为4,平滑度为3。实验时首先进行黑白校正:关闭光源并在暗箱中进行黑校正,然后中间隔板位置放置白板,调节卤素灯光源的亮度,当光照强度达到58 000时,进行白校正。将样本放入已搭建的采集系统进行光谱采集,在红提果粒的赤道位置进行光谱采集,每次采集的部位大约间隔60 °,每个红提样本采集3次光谱信息,采集到的信息进行平均化处理得到平均光谱作为该样本实验数据。

图2 可见/近红外光谱采集系统图Fig.2 Red globe grapes visible / near infrared spectrum acquisition system

1.3 样本集划分及光谱数据预处理和特征波长选取方法

未成熟红提、半熟红提、成熟红提、过熟红提样本各 90个,按照 2:1的比例利用随机划分算法(Random Selection,RS)将样本集划分为训练集和测试集,其中训练集样本240个(未成熟红提、半熟红提、整个成熟红提、过熟红提样本各60个);
测试集样本共120个(未成熟红提、半熟红提、整个成熟红提、过熟红提样本各30个)。

受到实验环境影响,采集的光谱数据存在大量无关信息,为提高模型的稳定性和精度,需进行对对采集到的光谱进行预处理。采用SG卷积平滑处理法对原始光谱数据进行预处理以提升预测模型的精确度和稳定性[13]。

特征提取算法可以剔除干扰信息,从而降低数据维数,简化模型,避免模型过拟合,提高模型的稳定性和精度。CARS算法利用PLS模型筛选回归系数绝对值大的波长点,然后利用十折交叉验证挑选RMSECV最小的波长点。SPA算法是一种前向变量选择法,从一个波长变量开始,每次循环计算它在剩余波长上的投影,并将最大投影所对应的波长作为待选波长,直到达到设定的波长数为止。UVE算法是基于PLS模型的回归系数b所建立的一种波长变量选择方法。该方法在光谱矩阵中添加一定数目的随机变量,建立偏最小二乘交互式验证模型,通过分析回归系数矢量均值及标准差的商的稳定性,根据其绝对值挑选光谱变量。本文中添加与变量个数相同的随机变量进行分析。本文利用CARS算法、SPA算法和UVE算法三种方法选取特征变量。

1.4 建模方法

极限学习机作为一种单隐含层前馈神经网络的新算法,入层与隐含层的权值和隐含层神经元的阈值在运算过程中随机产生,只需设置隐含层的神经元数目就可自动得到最优解,本文中经过实验选择隐含层神经元数目为20 000个,激活函数选择为hardlim函数。

偏最小二乘判别分析利用到统计学原理,偏最小二乘判别法是结合主成分分析和多元线性回归的一种综合判别分析方法,可通过投影分别将预测变量和观测变量投影到一个新空间,并通过转化后的新空间寻找一个线性回归模型并进行分类。本文选择留一法交叉验证得到均方根误差RMSECV,当RMSECV较小时取得最优解,本文最优模型所选择因子数LVs为20。

支持向量机分类模型是光谱分析中的常用分析方法,广泛应用于回归、分类等问题[14-16]。本文 SVM模型参数:选择RBF核函数,利用交叉验证方法寻找最佳c、g参数,本文最优模型所选择的c为84.449,g为0.002。

2.1 光谱数据分析

数据分析时去掉样本光谱首尾噪声部分,选择波长范围550 nm~1 000 nm共1 031个波长点进行光谱特征分析。由图3可知,处在不同时期的红提样本的光谱曲线变化趋势相同:676 nm附近光谱波谷是由红提中类胡萝卜素和叶绿素吸收光谱引起[17,18],956 nm附近吸收峰与红提内部水分有关,分别为O-H三级和二级倍频特征吸收峰[19,20]。

图3 红提样本平均光谱曲线Fig.3 Average spectral profile of red globe grapes samples

从图3中可知,在红提在未成熟时,存在545 nm和725 nm两个波峰,成熟期存在632 nm和725 nm两个波峰,成熟后期存在642 nm和725 nm两个波峰的。由此可知,红提从未成熟到成熟的整个过程中,只有第一个波峰位置的位置慢慢的变大;
第二个波峰的位置基本固定。第一个波峰的变化也证明了在成熟的过程中红提中类胡萝卜素和叶绿素发生了巨大的变化。不同成熟状态下红提果粒的光谱特性可以反映出红提的生长状态,从而达到无损检测成熟度的目的。

2.2 光谱预处理与特征变量选择

SG平滑滤波预处理可有效地消除干扰信息。在SG平滑滤波的原理是通过改变滤波器的窗口宽度及其多项式拟合阶次来达到平滑及去噪的目的[21]。本文通过不断调整滤波器窗口宽度和多项式拟合阶次,最终选择11和3分别作为SG预处理的最佳滤波器窗口宽度和多项式拟合阶次。经过SG预处理的光谱共有1 031个特征波长点,因特征波长点数目较多,建模的速度较慢、精度较低。使用CARS算法、UVE算法和SPA算法分别对预处理后的光谱数据进行特征选取,找出能够判别红提成熟度的特征变量组合,达到进一步优化模型效果。特征波长提取过程如下:

(1)通过 CARS对预处理后的光谱提取特征波长的过程见图4a~4c,设定蒙特卡罗采样为50次,5折交叉验证。当RMSECV值最小值时,为所建PLSR模型的最优结果,当运行为图中竖线的位置时,RMSECV值最小为0.265,采样运行了22次。

图4 提取特征波长过程Fig.4 The process of extracting characteristic wavelengths

(2)进行预处理后的光谱利用UVE提取特征波长的后选取的结果见图4d,将剔除阈值设定为噪声矩阵最大稳定性绝对值的99%,将两条虚线内部的信息划定为无效信息并剔除,虚线外侧的为有用信息予以保留。

(3)预处理后的数据为例说明SPA算法进行特征波长提取的结果见图4e,当RMSE取得最小值时,此时RMSE取得最小值,选择的波长数目为34个,所保留的信息建模效果最优。

2.3 模型建立与分析

进行特征波长提取后,所建红提果粒成熟度SG-SPA-ELM分类模型的最优特征波长如表2所示。提取的671 nm附近波长是由红提中类胡萝卜素和叶绿素吸收光谱引起[17,18],956 nm附近吸收峰与红提内部水分有关,分别为 O-H三级和二级倍频特征吸收峰[19,20],表明红提中类胡萝卜素及水分在生长期发生了较大的变化,同样证明了所提取特征波长的正确性。

表1 不同建模方法对红提样本的分类结果Table 1 Results of the classification of red globe grapes samples based on different modelling methods

表2 红提成熟度SG-SPA-ELM分类模型的最优特征波长列表Table 2 List of optimal characteristic wavelengths for the SG-SPA-ELM model for the maturity of red globe grapes

由表2可知,结合最佳预处理和特征波长提取算法建立的红提成熟度最佳模型为SG-SPA-ELM模型,该最佳模型的训练集和测试集的分类结果的散点图如图5所示,图中值分别为1、2、3、4时分别代表未成熟、半成熟、成熟和过成熟样本。该模型的测试集准确率为97.500%,训练集中共60个未成熟样本,其中有2个样本被误判为半成熟样本;
训练集中共60个半成熟样本,其中有2个样本被误判为成熟样本;
训练集中共60个成熟样本,其中有2个样本被误判为半成熟样本。测试集中共30个未成熟样本,其中有1个样本被误判为半成熟样本;
测试集中共30个半成熟样本,其中有 2个样本被误判为成熟样本;
测试集中共 30个成熟样本,其中有1个样本被误判为半成熟样本。由最佳模型的训练集和测试集的预测结果可知,进行判断时半成熟和成熟样本容易相互判断错误,未成熟和过熟的样本相对容易判别,能够实现对红提半成熟及成熟度的准确判别分类是实现红提成熟度判别分类的关键。

图5 基于SG-SPA-SVM的分类结果Fig.5 Classification results based on the SG-SPA-SVM

2.4 结果与讨论

从图1中看,未成熟与过熟的红提颜色特征明显相对比较明显,可以用表面颜色特征进行判别,但是半成熟中的红提颜色既有青色的又有红色的,较难通过颜色判断进行成熟度的判别。有些半成熟的红提颜色与成熟红提颜色相近,有些成熟红提与过熟的红提颜色相差不大,同样很难进行准确判别。因红提的成熟度与果实的硬度也同样有密切相关,硬度较软的果实更加容易腐烂,本文参考当地果农经验和水果生长的过程,将生长期红提划分为未成熟、半熟、成熟和过熟4个阶段的过程时,结合了颜色、大小、硬度等指标并结合果农自身的经验,通过颜色进行成熟度的判别时,较多的半成熟(颜色呈青色的红提)的红提错判为未成熟红提,较多的成熟(颜色呈紫红色的红提)的红提错判为未成熟红提。本文利用近红外光谱技术可以有效的去除颜色特征带来的干扰,从内部物质含量及变化的角度,利用近红外光谱技术探寻红提生长过程中光谱的变化规律及内部含量的变化。从生长期内部品质变化的角度寻找到一种无损、判别更加准确的方法。但利用近红外对红提成熟度进行判别时,60个未成熟样本判定为半成熟样本,未成熟样本的判别准确性低于利用图像颜色信息(RGB,HSV、Lab)建立的模型。但整体利用近红外光谱技术对红提成熟度的判别准确率高于通过图像所建模型结果。后期在本文的基础上将深入研究融合图像颜色、尺寸和光谱信息,建立红提成熟度的判别分类方法,提高红提成熟度的判别准确性。

本研究以红提生长过程的4个阶段(未成熟、半成熟、成熟、过熟)的红提样本为研究对象,探究基于光谱技术预测成熟度的可行性并建立最佳判别分类模型。主要结论如下:

(1)样本原始光谱经过 SG算法预处理后进行SPA算法提取特征波长所建立的ELM模型效果最佳,SVM模型次之,PLS-DA模型最差。红提成熟度的最佳判别分类模型为SG-SPA-ELM,该模型的训练集和测试集的准确率分别为97.50%和96.67%。

(2)利用建立的红提成熟度最佳判别分类模型进行预测时,半成熟和成熟样本容易相互判断错误,未成熟和过熟的样本相对容易判别。实现对红提半成熟及成熟度的判别分类是实现红提成熟度判别分类的关键。

(3)研究结果表明利用可见/近红外光谱技术对红提成熟状态进行判别分类是可行的,可以用可见/近红外光谱技术来实现检测红提成熟度的无损检测。

猜你喜欢成熟度波长预处理求解奇异线性系统的右预处理MINRES 方法温州大学学报(自然科学版)(2022年2期)2022-05-30产品制造成熟度在型号批生产风险管理中的应用航天工业管理(2020年9期)2020-12-28整机产品成熟度模型研究与建立航天工业管理(2020年1期)2020-04-20不同成熟度野生水茄果实的种子萌发差异研究种子(2018年9期)2018-10-15刚好够吃6天的香蕉学苑创造·B版(2018年12期)2018-03-04基于预处理MUSIC算法的分布式阵列DOA估计制导与引信(2017年3期)2017-11-02日本研发出可完全覆盖可见光波长的LED光源中国照明(2016年4期)2016-05-17浅谈PLC在预处理生产线自动化改造中的应用工业设计(2016年11期)2016-04-16RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量中国当代医药(2015年26期)2015-03-01便携式多用途光波波长测量仪物理实验(2015年9期)2015-02-28

推荐访问:判别 光谱 提成