CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于便携式近红外光谱仪和随机森林方法快速鉴别蜂蜜品种
作者:乔宁 饶敏 黄雪媛 肖媛 张岑
乔宁 饶敏 黄雪媛 肖媛 张岑
摘 要 为实现口岸现场快速无损鉴别不同植物源蜂蜜品种,本文以椴树蜜、洋槐蜜、枣花蜜、油菜蜜为研究对象,采用便携式近红外光谱仪与随机森林方法相结合,建立了4个品种蜂蜜的快速鉴别模型,模型的判别正确率达97.58%。结果表明,便携式近红外光谱仪结合随机森林方法快速鉴别蜂蜜品种,方法准确、快速、无损且高效环保,适用于口岸现场快速分析,可有效满足现场监管需求,为提高通关效率、保障蜂蜜类产品快速通关提供技术参考。
关键词 近红外光谱;随机森林;蜂蜜;品种鉴别
Rapid Identification of Honey Varieties Based on Portable Near-Infrared Spectroscopy and Random Forest Algorithm
QIAO Ning 1 RAO Min 1 HUANG Xue-Yuan 1 XIAO Yuan 1 ZHANG Cen 1
Abstract To achieve rapid, non-destructive identification of different plant-origin honey varieties at the port of entry and exit, this study focuses on four types of honey: linden honey, acacia honey, jujube blossom honey, and rapeseed honey. A rapid identification model for these honey varieties was established by combining portable near-infrared spectroscopy with the random forest algorithm, with a model discrimination accuracy rate of 97.58%. The results indicate that the method of using a portable near-infrared spectrometer in conjunction with the random forest algorithm for the rapid identification of honey varieties is accurate, fast, non-destructive, and highly efficient and environmentally friendly. It is suitable for rapid analysis at the port of entry and exit, and can provide technical reference for improving customs clearance efficiency, meeting the needs of customs smart control and law enforcement.
Keywords near-infrared spectroscopy; random forest; honey; variety identification
蜂蜜是由蜜蜂采集植物的花蜜、分泌物或蜜露,与自身分泌物混合后,经充分酿造而成的天然甜物质[1]。蜂蜜的主要成分是糖类,还有少量矿物质和维生素、有机酸和蛋白质,以及酚酸和黄酮类活性成分[2]。蜂蜜因其营养丰富,且具有较高的食用、药用价值,深受国内外消费者喜爱。我国是蜂蜜生产和贸易大国,蜂蜜的产量和出口量均居世界首位[3],主要出口市场包括英国、日本和比利时等国 [4]。
根据植物源种类,蜂蜜可以分为单花种蜂蜜和杂花蜜,主要蜜源来自单种植物的称为单花种蜂蜜,来自多种植物的为杂花蜜。我国蜜源植物种类丰富,约有千种以上,但数量较多的主要蜜源植物产出的蜜有20多种[5]。不同品种的单花种蜂蜜具有各自蜜源植物特征性化学成分,具有特殊的风味品质和生物活性,因此单花种蜂蜜具有较高的营养价值和市场价格[6]。蜂蜜的价格与品种关系密切,一些不法商家为了追求利益,用杂花蜜来冒充单花蜜,甚至将低价蜜掺入高价单花蜜中,国际养蜂工作者协会联合会将这种行为称为蜜源掺假(Monofloral Honey Botanical Origin Adulteration)。蜜源掺假易操作、成本低、难鉴别,因此开展蜂蜜的真实性鉴别研究具有重要意义。
近红外光谱(Near-Infrared spectra,NIRs)根据美国材料与试验协会(American Society for Testing and Materials,ASTM)的定义是指波长在780~2526 nm的电磁波,是人们最早发现的非可见光区域[7]。近红外光谱分析技术因其高效、快速、无损、成本低、绿色环保等优点,已广泛应用于食品[8-9]、医药[10-11]、农业[12-13]等领域。有研究者将近红外光谱应用于蜂蜜的品质检测和掺假鉴别中[14-15],取得较好效果,具有传统实验室检测方法不可比拟的优点。目前关于该技术应用于蜂蜜品种鉴别的报道较少。本研究采用便携式近红外光谱仪结合随机森林方法快速鉴别蜂蜜品种,突破色谱法、质谱法、荧光光谱法等传统实验室检测方法检测步骤繁琐、检测周期较长的局限,适用于现场快速分析,以期实现口岸现场快速无损鉴别不同植物源蜂蜜掺伪,为提高蜂蜜类产品的通关效率提供技术参考。
1 材料与方法
1.1 材料
为了更好体现国内蜂蜜品种和产地特性,本试验采集了吉林、黑龙江、陕西、河南、山西、湖北、江西、安徽等全国各蜂蜜主产区的椴树蜜样品42个、洋槐蜜样品50个、枣花蜜样品34个、油菜蜜样品12个,共计138个样品,样品采集后置于4℃条件下贮藏。
1.2 仪器
近红外光谱仪(Micro NIR-1700),配备液体透射附件,购自美国JDSU公司。
仪器工作条件:钨灯光源;InGaAs检测器;吸光度模式;扫描次数100次;波长范围为908~1676 nm。仪器参数见表1。
表1 近红外光谱仪的参数
Table 1 Instrument parameters of near-infrared spectrometerr
仪器参数 | 设定值 |
采集方式 | 透射 |
光谱采集范围 (nm) | 908 ~1676 |
采样间隔 (ms) | 29 |
扫描次数 (次) | 100 |
光程 (mm) | 10 |
1.3 光谱采集方法
试验前,将待测的蜂蜜样品进行编号,将蜂蜜样品置于室温下静置,将结晶样品置于40℃水浴锅震荡摇匀至晶体完全融化,取出恢复至室温后待测。测量前,将近红外光谱仪预热30 min。试验时,保持室内的温度和湿度基本稳定,每个样本分别取样3次,每次取样采集3次光谱数据。为降低试验环境和人员对光谱数据的影响,在测量过程中每隔1 h进行一次背景扫描。
1.4 数据分析
近红外光谱数据中包含了大量反映蜂蜜样品的分子基团的信息,但由于其变量多、特征信息人工提取不易等,难以直接根据谱图找出差异,往往需要借助化学计量学方法来充分挖掘光谱数据中的深度信息,从而建立准确度较高的蜂蜜品种鉴别模型。
随机森林(Random Forest,RF)是一种以Bagging方法(平均法)作为集成形式的集成学习算法模型[16]。它是基于多个决策树的分类器,在构建每个决策树分类器时随机地从所有变量中选择一部分进行节点的劈分,按照集成学习的思想,将多个决策树进行集成学习。该方法内部执行交叉验证,对于复杂和非线性数据,有很好的预测效果,并且有训练速度快、不易过拟合、对包含奇异值和噪声的数据预测结果比较稳健等优点[17]。
本次试验使用R软件构建模型。
2 结果与分析
2.1 蜂蜜样品的近红外光谱分析
不同品种蜂蜜近红外原始光谱如图1所示。从图中可以看出,第一个吸收峰位于950~1050 nm之间,对应的是N-H和O-H基团的二倍频振动,与醇类、胺类、水、蛋白质等物质的特征吸收有关[18],这与蜂蜜中存在着大量来自糖分、各种酶、芳香类物质及水等的NH或者OH基团相吻合[19]。1210 nm附近的吸收峰对应的是C-H键的二级倍频伸缩振动峰,第3个吸收峰位于1450 nm~1500 nm之间,对应的是N-H键的反对称伸缩和对称伸缩的一级倍频振动,1620 nm~1640 nm之间的吸收峰对应的是C-H键的一级倍频振动,与烯烃类物质的特征吸收相关[7,20]。
图1 蜂蜜样品的近红外原始光谱
Fig.1 Original near-infrared spectra of honey samples
2.2 光谱预处理
NIR光谱数据中不仅包含了蜂蜜样品的原始信息,还包含了基线漂移、光散射、高频随机噪声等信息,为了消除上述因素对样品光谱的影响,获取有效信息,在建立鉴别模型之前,需要对原始光谱数据进行预处理。本研究采用了卷积平滑法(Savitzky-Golay,S-G)和多元散射校正法(Multiplicative Scattering Correction,MSC)对原始光谱进行预处理。S-G卷积平滑法是通过多项式对移动窗口内的数据进行多项式最小二乘拟合,多元散射校正方法是现阶段多波长标定建模常用的一种数据处理方法,经过散射测试后得到的光谱数据可以有效地消除散射的影响,增强了与成分含量相关的光谱吸收信息[21]。光谱预处理对蜂蜜近红外光谱的影响如图2所示。
图2 SG平滑+MSC预处理对蜂蜜近红外光谱的影响
Fig.2 Effect of SG smoothing and MSC pretreatment on the near-infrared spectrum of honey
2.3 主成分分析
主成分分析可以将原始变量进行线性变换获得少量数目的新变量,采用新变量来表征原始变量的数据特征,是一种降低维度的方法[22]。对4种蜂蜜样品进行主成分分析,各主因子的方差贡献率如图3所示。前3个主成分的方差贡献率分别为74%、9%、6%,累计方差贡献率达89%。贡献率最大的前3个主成分的得分分布图如图4—7所示。由图中可得,不同品种蜂蜜样品虽然有部分重叠的情况,但从整体来看分类趋势较为明显,不同品种蜂蜜样品的分布相对集中且独立,说明基于近红外光谱技术用于不同植物源蜂蜜品种鉴别是可行性的。然而主成分分析仅能提供聚类和距离的趋势,并不能对不同品种蜂蜜样品进行准确的鉴别。为了得到更为准确和直观的结果,将借助随机森林算法进行计量学模型进一步的分析。
2.4 随机森林判别模型
在使用随机森林建模过程中,本研究采用网格搜索,通过有放回的重抽样策略,进行5折交叉验证,并重复3次。为了提高模型鉴别效果,本研究以训练集的判别正确率作为指标,进行模型参数优化,建模参数对模型准确性的影响如图8所示。首先要调整的参数就是训练过程中生长树的数量。从图8可以看出,预测准确率并不会随着生长树的增多而增多,训练结果不会过拟合。当生长树的数量为240时,预测准确率最高且趋于稳定,达到97.82%。同理,试验中观察到最佳节点数为3,最佳线程数为14。
在随机森林算法中,选择了数据量的70%为训练集,数据量的30%为预测集,使用上述最优模型参数,建立鉴别模型,对预测集的判别效果见表2。模型对预测集的总判别正确率达97.58%,其中洋槐蜜的判别效果最佳,判别正确率高达99.25%,油菜蜜的判别正确率最低,为93.75%。上述结果表明,采用便携式近红外光谱仪结合随机森林方法鉴别蜂蜜品种具有可行性。
表2 随机森林模型判别效果
Table 2 Discriminant effect of random forest model
类别 | 椴树蜜 | 油菜蜜 | 洋槐蜜 | 枣花蜜 | 判别正确率 (%) | |
组间 | 整体 | |||||
椴树蜜 | 112 | 0 | 0 | 0 | 99.12 | 97.58 |
油菜蜜 | 0 | 30 | 1 | 0 | 93.75 | |
洋槐蜜 | 0 | 2 | 134 | 5 | 99.25 | |
枣花蜜 | 1 | 0 | 0 | 87 | 94.57 |
3 结论
本研究以椴树蜜、洋槐蜜、枣花蜜、油菜蜜为研究对象,采用便携式近红外光谱仪采集样品光谱数据,用卷积平滑法和多元散射校正法对光谱数据进行预处理后,使用随机森林方法建立了4个品种蜂蜜的快速鉴别模型,模型的判别正确率达97.58%。试验结果表明,近红外光谱技术结合随机森林方法适用于不同植物源蜂蜜的品种鉴别,能够达到满意的效果。便携式近红外光谱仪不仅价格低、体积小,轻便易携带且操作简便快捷,可在口岸现场使用。随机森林方法需要优化的参数少,判别正确率高,且具有较好的抗过拟合能力,稳定性好,易于推广。综上所述,本研究建立的方法能够满足口岸一线现场检验需求,实现口岸现场快速无损鉴别不同植物源蜂蜜掺伪,是提升海关对蜂蜜类出口产品的监管效能的有益探索。
参考文献
[1] GB 14963—2011 食品安全国家标准 蜂蜜[S]. 北京: 中国标准出版社, 2011.
[2]郝彬秀, 应剑, 刘婷, 等. 蜂蜜活性和功效的研究进展[J]. 食品研究与开发, 2015(1): 148-152.
[3]曾蜜,周伟良,颜伟玉,等.中国蜂蜜出口和进口分析[J].应用昆虫报, 2023, 60(3): 741-754.
[4]陈永朋,赵芝俊,高芸.中国蜂产业国际竞争力及影响因素研究——基于产业内外部效应的视角[J].农业现代化研究, 2024, 45(3): 377-386.
[5]张复兴. 现代养蜂生产[M]. 北京: 中国农业大学出版社, 1998: 285-303.
[6]祝敏. 西北五种特色单花种蜂蜜花源特征性成分及其对酒精性胃损伤的保护作用研究[D]. 西安: 西北大学, 2021: 1-7.
[7]陆婉珍. 现代近红外光谱分析技术[M]. 北京:中国石化出版社, 2006: 1-11.
[8]刘燕德, 徐海, 孙旭东, 等. 不同品种苹果糖度近红外光谱在线检测通用模型研究[J]. 光谱学与光谱分析, 2020, 40(3): 922-928.
[9]白京, 李家鹏, 邹昊, 等. 近红外特征光谱定量检测羊肉卷中猪肉掺假比例[J]. 食品科学, 2019, 40(2): 287-292.
[10]顾志荣, 马转霞, 孙岚萍, 等. 近红外光谱法快速测定锁阳中多指标成分含量[J]. 药物分析杂志, 2020, 40(6): 1076-1089.
[11]岑忠用, 雷顺新, 雷蕾, 等. 近红外光谱法鉴别6种根茎类中药材[J]. 华中农业大学学报, 2021, 40(3): 271-277.
[12]张爱武, 宋雪健, 王欣卉, 等. 基于近红外漫反射光谱及不同算法对泰来绿豆的产地溯源研究[J]. 中国粮油学报, 2021, 36(10): 166-173.
[13]张强. 基于近红外光谱技术的稻谷中霉菌和毒素检测研究[D]. 哈尔滨: 东北农业大学, 2015.
[14]赵正阳. 基于近红外光谱技术的蜂蜜品质检测[D]. 成都: 四川农业大学, 2019.
[15]张妍楠, 陈兰珍, 薛晓锋, 等. 基于近红外光谱检测技术鉴别洋槐蜜中掺入大米糖浆的可行性研究[J]. 光谱学与光谱分析, 2015, 35(9): 2536-2539.
[16] DIÁNA N S Á, MÁRTA L, ZSUZSANNA V, et al. The effect of grapevine variety and wine region on the primer parameters of wine based on 1H NMR-spectroscopy and machine learning methods[J]. Diversity, 2022, 14, 2: 74.
[17] Li B , Wei Y , Duan H ,et al. Discrimination of the geographical origin of Codonopsis pilosula using near infrared diffuse reflection spectroscopy coupled with random forests and k-nearest neighbor methods[J]. Vibrational Spectroscopy, 2012, 62(5): 17-22.
[18] Akikazu, Sakudo, Yukiko, et al. Non-invasive prediction of hematocrit levels by portable visible and near-infrared spectrophotometer[J]. International Journal of Clinical Chemistry and Diagnostic Laboratory Medicine, 2009.08.005: 123-127.
[19]陈桂云, 吴威, 黄玉萍, 等. 基于短波近红外光谱技术的原蜜高果糖浆掺假度鉴别[J]. 南京农业大学学报, 2014, 37(6): 165-170.
[20]高荣强, 范世福. 现代近红外光谱分析技术的原理及应用[J]. 分析仪器, 2002(3): 9-12.
[21]芦永军, 曲艳玲, 宋敏. 近红外相关光谱的多元散射校正处理研究[J]. 光谱学与光谱分析, 2007, 27(5): 877-880.
[22]刘燕德, 林晓东, 高海根, 等. 基于叶绿素荧光光谱技术的茶叶藻斑病模型研究[J]. 光谱学与光谱分析, 2021, 41(7): 2129-2134.
基金项目:国家重点研发计划(2018YFC0809101);南昌海关科研项目(2022HK40-06)
第一作者:乔宁(1988—),女,汉族,河北邯郸人,硕士,高级工程师,主要从事进出口商品检验工作,E-mail: qiaoning10017@163.com
1. 赣州海关 赣州 341000
1. Ganzhou Customs, Ganzhou 341000
图3 主成分贡献率分布图
Fig.3 Distribution diagram of the contribution rate of principal components
图6 主成分2与主成分3的得分分布
Fig.6 Score distribution of principal components 2 and 3
图4 主成分1与主成分2的得分分布
Fig.4 Score distribution of principal components 1 and 2
图5 主成分1与主成分3的得分分布
Fig.5 Score distribution of principal components 1 and 3
图7 前3个主成分的3D散点图
Fig.7 3D scatter plots of the first three principal components
A: 线程数和生长树数量的影响; B: 节点数和生长树数量的影响
图8 建模参数对模型准确性的影响
Fig.8 Impact of modeling parameters on model accuracy