CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
近红外光谱结合无监督算法识别印度尼西亚烟煤
作者:刘 曙1 洪子云1,2 王 娇3 李 晨1 吴晓红1*
刘 曙1 洪子云1,2 王 娇3 李 晨1 吴晓红1*
由于煤炭的天然属性及加工特点,进口煤炭中存在的风险,如环保项目超标、检疫不合格、夹杂物超标、瞒报误报等,往往与产地相关,所以产地是风险来源的重要指示因子。传统煤炭产地鉴别方法通常需要基于煤炭内在水分、挥发分、固定碳含量等品质指标[1],测试过程复杂耗时,因此,建立快速、高效的煤炭产地识别方法,支撑现场查验放行,具有重要意义。
近红外光谱(Near infrared spectrum, NIRS)具有快速无损分析、操作简单、低成本等优势,通过近红外波段能量的吸收、反射和散射[2],反映样品内部化学成分和外部物理结构的信息,在中药[3]、食品[4]的地理来源识别领域发挥了重要作用。李明等[5]采集澳大利亚、加拿大、俄罗斯、印度尼西亚和我国煤炭的近红外光谱,结合粒子群算法优化的支持向量机(PSO-SVM),以及改进的随机森林(RF)算法[6]、不同核函数的支持向量机(SVM)[7]、广义分类学习机(BL)[8]、核偏最小二乘判别分析(K-PLS-DA)[9],建立了基于采集样本的煤炭原产地识别模型,分别获得96.67%、97.92%、98.8%、97.05%和97.21%的预测准确率。研究发现,不同煤种近红外光谱在吸光度、光谱斜率、特征吸收峰上的差异显著,但同一煤种不同原产地煤炭近红外光谱区分度则不明显。采用近红外光谱建立煤炭原产地识别模型,应充分考虑煤种、样品代表性等因素,才能使模型更具有准确性。
本文的研究思路是基于近红外光谱开展同一煤种的原产地识别方法研究。收集了来自俄罗斯、澳大利亚、印度尼西亚、蒙古国和加拿大5个国家的烟煤代表性样品,从近红外光谱吸光度、光谱斜率、特征吸收峰3个方面探讨印度尼西亚烟煤与其他4个国家烟煤的特征,并结合主成分分析(Principal component analysis, PCA)和t-分布邻域嵌入算法(t-distributed stochastic neighbor embedding, t-SNE),建立了印度尼西亚烟煤的快速识别方法。
1 材料和方法
1.1 试验样品
试验所用烟煤样品来自我国主要烟煤进口国俄罗斯、澳大利亚、印度尼西亚、蒙古国和加拿大,共计222批,具体数量见表1。所有样品按照GB 474-2008《煤样的制备方法》制备为粒度小于0.2 mm的化学分析样。
表1 烟煤样品汇总
Table 1 Summary of bituminous coal samples
类别 | 国家 | 测试样本数 | 验证样本数 | 总样本数 |
1 | 俄罗斯 | 49 | 12 | 61 |
2 | 澳大利亚 | 72 | 18 | 90 |
3 | 印度尼西亚 | 22 | 6 | 28 |
4 | 蒙古国 | 22 | 6 | 28 |
5 | 加拿大 | 12 | 3 | 15 |
总计 | 177 | 45 | 222 |
1.2 测试方法
使用Antaris Ⅱ傅立叶变换近红外光谱仪,扫描方式设置为积分球漫反射模式,所有样品均被放入配套的石英样品杯中,高度约为样品杯的1/2。光谱收集范围为10000~4000 cm-1,光谱分辨率设置为4 cm-1。每个煤样扫描32次,取光谱平均值作为原始光谱,光谱变量为1557。
1.3 数据分析
1.3.1 主成分分析
PCA是一种常用的线性降维方法[10]。其目标是从输入数据中提取主要或重要信息,将其转化为1组新的正交变量,称为主成分(PCs)。第1个主成分定义了输入的最大可变性,第2个主成分解释了第二大可变性,以此类推。
在降维的情况下,保留数据集中贡献度最大的变量。提取的PCs定义了一个新的正交基集,可用于将数据从高维空间转换到由PCs解释的低维空间。从降维角度来看,PCA可理解为最小化重构误差的平方。重构误差的最小化将导致信息在高维空间中呈现的最大化,而这些信息是由大量的PC在低维空间定义的。要解释二维或三维图中的数据,可以选择各自的PC并用于转换到由PC表示的正交轴。
本文中,1557维的近红外光谱数据经PCA降维后被转换为394维,选择贡献率最高的几个主成分来进行数据可视化。
1.3.2 t-分布邻域嵌入算法
t-SNE作为一种常用的非线性降维算法[11],由 Laurens van der Maaten 和 Geoffrey Hinton在2008年提出来。该算法非常适用于高维数据降维至二维或者三维,并进行可视化。t-SNE是根据邻域嵌入算法(stochastic neighbor embedding, SNE)改进而来的。该算法首先将SNE应用于数据点,再将数据点之间的高维欧氏距离转换为表示相似性的条件概率。数据点与数据点的相似性由条件概率pj|i表示,其分布符合高斯概率,定义如公式(1)所示。
(1)
式(1)中,表示数据点与数据点距离的平方,是以为中心的高斯方差。条件概率表示在基于以为中心的高斯概率密度比例下,选择作为邻近点的概率。如果这些点靠近,那么pi|j的值将比远处的点高。因此,t-SNE根据设置公式(2),使条件概率被对称化,以减少异常值的影响,公式(2)中n表示数据集的大小。
(2)
基于点的成对距离,该方法自动确定方差,使得有效邻域数与数据大小一致。为避免过度拥挤,在低维空间上,t-SNE采用单自由度的t分布代替高斯分布。利用该分布,高维空间数据点之间的条件概率被改进为与低维空间模拟数据点的联合概率。联合概率qj|i可在数学上定义为公式(3)。
(3)
本文中,将1557维的近红外光谱数据输出为二维和三维,绘制对应的散点图并与PCA可视化结果进行对比。
1.4 分析软件
使用Matlab2019自带脚本进行分析,t-SNE使用时对如下参数进行了修改:no_dims参数默认值为2,可以输出二维散点图,后将其设置为3,输出三维散点图进行对比;perplexity参数设置与样本密度有关,样本密度越高,其值越大,推荐设置范围为0~50,本试验中设置为30。数据可视化输出采用origin2017完成。
2 结果和讨论
2.1 印度尼西亚烟煤近红外谱图特征分析
2.1.1 吸光度
不同国家烟煤的近红外谱图如图1所示。在同一纵坐标下可以看出,印度尼西亚烟煤与俄罗斯、澳大利亚、蒙古国和加拿大烟煤最明显的谱图特征差异体现在吸光度上。10000 cm-1处俄罗斯烟煤的吸光度为0.95~1.45,澳大利亚烟煤的吸光度为1.05~1.35,蒙古国烟煤的吸光度为1.13~1.25,加拿大烟煤的吸光度为1.15~1.35,印度尼西亚烟煤的吸光度为0.8~1.08,明显低于另外4个国家。这是由于印度尼西亚烟煤的变质级别多为中低级别,该级别的煤炭具有高水分、高挥发分的特性[12],从而导致煤炭中固定碳含量相对较低,而烟煤近红外吸光度大小又与固定碳含量呈正相关[13],使得印度尼西亚烟煤漫反射近红外吸光度普遍较低。
2.1.2 光谱斜率
从5个国家的烟煤样品中分别选取5个代表性品,计算其位于10000~5400 cm-1近红外波段的光谱斜率,俄罗斯烟煤的光谱斜率为5.633×10-5~1.038×10-4,澳大利亚烟煤的光谱斜率为5.400×10-5~8.750×10-5,蒙古国烟煤的光谱斜率为5.338×10-5~7.503×10-5,加拿大烟煤的光谱斜率为6.614×10-5~8.3×10-5,印度尼西亚烟煤的光谱斜率为8.130×10-5~1.144×10-4,明显高于另外4个国家。煤炭漫反射近红外光谱斜率与煤炭芳构化程度呈负相关[14],而芳构化趋势与煤炭煤化程度息息相关。印度尼西亚的含煤地层属于始新世到上新世,从形成年代上属于新生煤[15]。此外,印度尼西亚煤炭具有埋藏浅、煤层厚的特点,导致印度尼西亚烟煤煤质普遍较差,煤炭芳构化程度较低。
2.1.3 主要特征吸收峰
印度尼西亚烟煤与其他4个国家烟煤的近红外谱图特征峰的差异主要集中在5199 cm-1处和4655~4000 cm-1波段。印度尼西亚烟煤在这2处有明显的特征吸收产生,其中,5199 cm-1处的特征吸收属于O-H伸缩和O-H变形组合振动,与烟煤中的水分含量有关,4655~4000 cm-1波段的近红外吸收与各种有机组分有关,与烟煤中的挥发分含量有关。图2(a)是不同国别烟煤挥发分含量箱线图,图2(b)是不同国别烟煤水分含量箱线图,以中位值和四分位值进行分析,印度尼西亚烟煤中的挥发分含量和水分含量明显高于其他4个国家的烟煤。分析其原因,是由于印度尼西亚烟煤中有机腐植酸转化为稳定碳结构的比例较低,导致挥发分含量较高;烟煤中内在水含量高,经空气干燥难以去除,一旦在空气流中受热便会蒸发,从而导致水分含量也高[15]。
2.2 数据分析
2.2.1 PCA
采用PCA对近红外光谱进行降维,光谱变量从1557个降至394个,前3个主成分共解释了99.63%的特征差异,其中,PC1解释了总方差的98.3%,PC2解释了总方差的1.3%,PC3解释了总方差的0.3%。根据前3个PCs,建立来自不同国家的烟煤样品的PCA散点图。图3是基于PC1、PC2的二维散点图,图4是基于PC1、PC2、PC3的三维散点图。从图中可以看出,无论是二维空间还是三维空间,印度尼西亚烟煤都能很好地和其他4个国家的烟煤分离开来,而俄罗斯、澳大利亚、蒙古国和加拿大烟煤散点相互交叉,说明印度尼西亚烟煤特征性明显。
PCA载荷图描述的是主成分和变量之间的相关性。图5中PC1的载荷图显示,与PC1相关性最强的是位于6233 cm-1处的吸收峰,属于C-H伸缩振动的二倍频吸收,与烟煤中挥发分对近红外的吸收有关,说明将印度尼西亚烟煤与其他国家烟煤识别开来的主要依据是烟煤中挥发分的含量,图2(a)也证明了印度尼西亚烟煤的挥发分含量与其他4个国家有明显区分。
图5 PC1载荷图
Fig.5 PC1 load diagram
图6 基于t-SNE的二维散点图
Fig.6 Two-dimensional scatter diagram based on t-SNE
2.2.2 t-SNE
与最初的SNE算法相比,t-SNE在低维空间中采用了t分布,能有效减少SNE算法中可能出现的优化困难和拥堵问题[16]。图6是基于t-SNE的二维散点图,从图中可以看出,印度尼西亚烟煤主要集中在右上角位置,与另外4个国家的烟煤分离明显。与PCA相比,t-SNE产生的聚类效果更集中,并且在t-SNE中印度尼西亚烟煤与其他国家烟煤区分更明显。这是由于t-SNE定义了局部和全局数据结构之间的软边界,使得不同类样品之间特征差异更大。
俄罗斯烟煤、澳大利亚烟煤、蒙古国烟煤和加拿大烟煤由于近红外谱图特征的相似性,在二维空间和三维空间中聚类效果都较差。分析其原因,都是由其地理成因所致。俄罗斯和加拿大烟煤都属于太平洋扩张前二叠纪时期的陆相煤,有一定的相似性,都位于劳鲁西亚大陆,气候、植被和地理位置相似[6]。澳大利亚和蒙古国烟煤在二叠纪形成于相似的纬度[17-19]。而印度尼西亚烟煤形成于白垩纪的低海拔热带地区[19],与其他4个国家烟煤所处环境差异很大,导致印度尼西亚烟煤容易被识别。
3 结论
通过对印度尼西亚、俄罗斯、澳大利亚、蒙古国和加拿大烟煤样品的近红外谱图进行分析发现,印度尼西亚烟煤在吸光度、光谱斜率和主要特征吸收峰3个方面与其他4个国家烟煤存在明显差异,结合PCA和t-SNE可对印度尼西亚烟煤进行快速识别。与PCA相比,t-SNE能提取光谱之间的非线性相似特征,使得同类样品之间聚类更集中。由于俄罗斯、澳大利亚、蒙古国和加拿大烟煤样品的近红外特征存在相似性,无论是结合PCA还是t-SNE,聚类效果都较差。在同一煤种下,如何采用近红外光谱识别俄罗斯烟煤、澳大利亚烟煤、蒙古国烟煤和加拿大烟煤,仍然是近红外光谱应用分析的一大挑战。
图1 不同国家烟煤近红外谱图
Fig.1 NIR spectra of bituminous coal from different countries
图2 不同国家烟煤挥发分、水分含量箱线图
Fig.2 Box chart of volatile content andmoisture content of bituminous coal in different countries
图4 基于PC1、PC2、PC3的三维散点图
Fig.4 Three-dimensional scatter diagram based on PC1, PC2 and PC3
图3 基于PC1、PC2的二维散点图
Fig.3 Two-dimensional scatter diagrambased on PC1 and PC2
参考文献
[1] Russell M C, Belle J H, Liu Y. The impact of three recent coal-fired power plant closings on Pittsburgh air quality: a natural experiment[J]. Journal of the Air & Waste Management Association, 2017, 67(1): 3-16.
[2] Tejerina D, Contador R, Ortiz A. Near infrared spectroscopy (NIRS) as tool for classification into official commercial categories and shelf-life storage times of pre-sliced modified atmosphere packaged Iberian dry-cured loin[J]. Food Chemistry, 2021, 356: 129733.
[3] Lv C, He Y, Kang C, et al. Tracing the Geographical Origins of Dendrobe (Dendrobium spp.) by Near-Infrared Spectroscopy Sensor Combined with Porphyrin and Chemometrics[J]. Journal of Analytical Methods in Chemistry, 2020, 2020: 1-8.
[4] Chen H, Tan C, Lin Z. Identification of ginseng according to geographical origin by near-infrared spectroscopy and pattern recognition[J]. Vibrational Spectroscopy, 2020, 110(103149): 1-8.
[5] 李明, 陈凡, 雷萌, 等. 基于LVQ与SVM算法的近红外光谱煤产地鉴别[J]. 光谱学与光谱分析, 2016, 36(9): 2793-2797.
[6] Lei M, Yu X, Li M, et al. Geographic origin identification of coal using near-infrared spectroscopy combined with improved random forest method[J]. Infrared Physics & Technology, 2018, 92: 177-182.
[7] Lei M, Zhang L, Li M, et al. Near-Infrared Spectrum of Coal Origin Identification Based on SVM Algorithm[C]. Proceedings of the 37th Chinese Control Conference, 2018.
[8] Lei M, Rao Z, Li M, et al. Identification of Coal Geographical Origin Using Near Infrared Sensor Based on Broad Learning[J]. Applied Sciences, 2019, 9(6): 1111.
[9] Yu X H, Guo W D, Wu N, et al. Rapid discrimination of coal geographical origin via near-infrared spectroscopy combined with machine learning algorithms[J]. Infrared Physics & Technology, 2020, 105: 103180.
[10] Mishra P, Nordon A, Tschannerl J, et al. Near-infrared hyperspectral imaging for non-destructive classification of commercial tea products[J]. Journal of Food Engineering, 2018, 238: 70-77.
[11] 李鸿博, 曹军, 蒋大鹏, 等. t-SNE降维的红松籽新旧品性近红外光谱鉴别[J]. 光谱学与光谱分析, 2020, 40(9): 2918-2924.
[12] 梁富康, 苏新旭. 印度尼西亚的煤炭资源及开发前景[J]. 中国煤炭, 2019, 45(4): 128-132.
[13] Song Z, Kuenzer C. Spectral reflectance (400-2500 nm) properties of coals, adjacent sediments, metamorphic and pyrometamorphic rocks in coal-fire areas: A case study of Wuda coalfield and its surrounding areas, northern China[J]. International Journal of Coal Geology, 2017, 171: 142-152.
[14] Cloutis E A. Quantitative characterization of coal properties using bidirectional diffuse reflectance spectroscopy[J]. Fuel, 2003, 82(18): 2239-2254.
[15] 陈昕栋, 周丽华. 印尼煤全水分测定方法的研究[J]. 广东化工, 2015, 42(23): 198-199.
[16] Gisbrecht A, Schulz A, Hammer B. Parametric nonlinear dimensionality reduction using kernel t-SNE[J]. Neurocomputing, 2015, 147: 71-82.
[17] 张泓, 晋香兰, 李贵红, 等. 世界主要产煤国煤田与煤矿开采地质条件之比较[J]. 煤田地质与勘探, 2007, 35(6): 1-9.
[18] 郭婵妤, 李华, 杨恺, 等. 蒙古国煤炭资源评价[J]. 中国煤炭地质, 2019, 31(12): 25-29.
[19] Widodo S, Oschmann W, Bechtel A, et al. Distribution of sulfur and pyrite in coal seams from Kutai Basin (East Kalimantan, Indonesia): Implications for paleoenvironmental conditions[J]. International Journal of Coal Geology, 2010, 81(3): 151-162.
(文章类别:CPST-C)
第3卷 第11期
2021年11月
应用研究 / Applied Research