CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
机器学习算法研究与海关应用
作者:马群凯1 文 杨1 冯立胜1 武祥瑞1 邬 桐1 王佳蕾1
马群凯1 文 杨1 冯立胜1 武祥瑞1 邬 桐1 王佳蕾1
摘 要 本文聚焦常见机器学习算法的比较研究及在海关的应用。研究结构化数据算法、图像识别算法、自然语言处理算法等三大类14种主流机器学习算法,并从泛化能力、运行速度、可解释性和数据利用能力四个方面进行优缺点评估。选取卷积神经网络算法构建重点商品规范申报智能模型。经过验证,模型准确率达95%以上且未出现过拟合,取得较好实战效果。
关键词 机器学习;卷积神经网络;规范申报
Research and Customs Application of Machine Learning Algorithm
MA Qun-Kai1 WEN Yang1 FENG Li-Sheng1 WU Xiang-Rui1 WU Tong1 WANG Jia-Lei1
Abstract The paper focuses on the comparison and customs application of common machine learning algorithms. There are 14 algorithms which can be classified into structured data algorithms, image recognition and NLP. They are compared and evaluated from generalization, velocity, explanation and data using. Based on CNN, a smart model for the standardized declaration of main commodities was established. The model was tested to be quite effective in practice, with an accuracy of over 95%.
Keywords machine learning; CNN; Standardized declaration
海关“十三五”规划明确指出,要“运用大数据技术提升海关管理智能化水平”。《海关全面深化业务改革2020框架方案》提出“依托大数据、情报信息、人工智能和专家研判等,强化人工风险分析,突出布控精准性”。
随着机器学习技术的发展,机器正在开始完成很多过去必须用人的智力才能完成的任务,比如医疗诊断、资料搜索、处理文件、撰写稿件等等。而由于算力的提升,深度学习作为实现机器学习的一项技术,在近几年得到迅猛发展,对处理各种复杂问题起着重要作用。近几年涌现了许多经典的深度学习网络模型,如卷积神经网络、递归神经网络等。其中,卷积神经网络能够通过卷积运算等方式,充分学习待认知事物特征,提升文字处理效率和文本挖掘深度,降低人工成本,成为图像识别、文本分析等领域最常用的深度学习算法之一。
1 理论研究
机器学习算法可以从泛化能力、运行速度、可解释性和数据利用能力四个方面进行评估。泛化能力是指算法对新样本的适应能力,这是评估机器学习算法性能的最重要指标;运行速度分为训练速度和预测速度,在实际应用中需要选择合适的算法在训练速度和测试速度方面的表现都能接受;可解释性是指在得到结果的同时希望了解为什么得到这样的结果;数据利用能力是指能够从含有大量噪声、不一致、不完整的脏数据、不平衡数据中学习到有效信息的能力[1]。根据海关应用场景,可以将算法分为结构化数据、图像识别和自然语言处理三类。
1.1 结构化数据算法
逻辑回归算法优点是比较简单,计算量小,可以较快地生成模型,而且生成的模型体积比较小。局限是泛化能力一般。朴素贝叶斯算法对于小规模数据集表现好,适合多分类任务。缺点是适用范围有限,因为朴素贝叶斯分类成立的条件是各特征之间互相独立,而现实中两个特征之间多少有关联关系,对于不完全符合假设的情况,准确率会有一定程度下降。K近邻算法(KNN)通过多数表决方式进行预测,优点是训练时间少且简单。缺点是对于大小不平衡的数据容易偏向大容量数据,数据量较大时训练效率低,泛化能力比较一般,数据利用能力一般。决策树算法优点是数据利用能力比较好,因为允许有部分数据错分,也只影响部分结果的准确性。另外可解释性比较好,产生的分类规则易于理解。缺点是泛化能力比较一般。支持向量机算法(SVM)可实现非线性分类,泛化性比较好。缺点是对数据利用能力比较一般,容易受错误数据的影响。Bagging系列算法训练速度很快,可解释性比较好。缺点是数据利用能力不够好,在某些噪音比较大的样本集上,容易陷入过拟合。另外对于取值划分比较多的特征容易对RF决策产生更大的影响,从而影响拟合模型的效果。Boosting系列算法泛化能力很好,不容易过拟合。因为使用树结构,可解释性也很好。缺点是训练速度相对较慢,对于某些数据较差的情况容易过拟合,数据利用能力比较一般[2]。
1.2 图像识别算法
图像识别领域曾经一直被传统目标识别算法(特征提取+分类器)所压制。直到2012年AlexNet横空出世,在ImageNet挑战赛一举夺魁,使得卷积神经网络再次引起人们的重视,卷积神经网络的研究如雨后春笋一般不断涌现,推陈出新,占据了图像识别领域的主导地位。
AlexNet主要是采用了Relu激活函数代替了Sigmoid激活函数,并引入了dropout结构用于解决模型训练过程中容易出现过拟合的问题。该算法在各方面都比原有算法有所增强。VGG相比Alexnet采用更小的卷积核,并提升了网络的深度,在一定程度上提升了神经网络的效果。该算法在各方面都比Alexnet算法有所增强。NIN创造性的使用1x1的卷积层来代替全连接层,大大降低了参数。该算法在各方面都比VGG算法有所增强。ResNet让原始信号可以跳过一部分网络层,直接在更深的网络层传递。而这种“短路”结构使得原始信号直接传入神经网络的深层,可以训练出更深的神经网络。该算法在各方面都比NIN算法有所增强[3]。
1.3 自然语言处理算法
早期自然语言处理主要使用符号类算法,使用逻辑推理、编成语言范式来解决自然语言处理的问题。但近年来随着计算能力的提升,主要使用神经网络来处理自然语言问题。
RNN模拟了人阅读一篇文章的顺序,可以更好地理解之后的文本。这种神经网络极大地提高了对文章信息的获取能力,现代自然语言处理可以说是从RNN开始的。LSTM通过门控机制可以对有价值的信息长时间记忆,从而减小循环神经网络的学习难度。该算法在各方面都比RNN算法有所增强[4]。Transformer创造性地使用注意力(Attention)机制,可以对整篇文章进行学习而不只是顺序学习。该算法在各方面都比LSTM算法有所增强[5]。
以上是对14种常见机器学习算法的分析和比较,下边将结合海关重点商品规范申报审核场景,介绍卷积神经网络算法在提高审单覆盖率和标准透明化方面的应用。
2 应用案例
为规范进出口企业申报行为,提高通关数据质量,加快通关速度,促进贸易便利化,海关总署关税司编制了《中华人民共和国海关进出口商品规范申报目录》(以下简称《目录》)。进出口收发货人及其代理人在报关时,应严格按照《目录》中关于规范申报商品品名、规格型号要求,认真填制报关单。
在实际的海关进出口活动当中,除了企业需要按照相关规章制度正确的进行商品归类外,作为执法部门,海关更需要在通关前、中、后三个阶段对商品规格型号信息进行相应的监管和审查。但是光靠人工审单来确认商品信息的正确性存在一定的局限性。为了能够进一步辅助人工审单决策,提高商品信息填报正确率和效率, 提升贸易便利化水平,课题组基于 TextCNN 算法建立规范申报人工智能模型,使用报关单信息自动研判商品规格型号填报是否规范。
2.1 整体思路
建模时聚焦“第2章肉及食用杂碎”“第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物”两章重点商品。第一步判断实际申报要素与规范申报要素数目是否相同,如果不同,则直接判断为申报不规范。第二步使用规则和模型方式判断实际申报与规范申报每组对应的要素字段是否匹配。如果全部匹配,那么申报规范;如果不是全部匹配,则指出哪个申报要素字段不规范。
2.2 模型构建
2.2.1 数据预处理
对要素参数表、报关单规格型号数据整理成相同格式,根据每个规范申报要素的复杂度,确定该要素的判断方法。如可以通过简单规则直接判断,则制定判断规则;如无法直接判断,将人工研判历史数据标记正负样本。最终确定第2章肉及食用杂碎有20余个要素采用专家经验判断,近10个要素采用机器学习判断,共计近20万条数据;第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物有30余个要素采用专家经验判断,近5个要素采用机器学习判断,共计近10万条数据。
2.2.2 模型算法选择
在构建过程中对不同章节需要考虑是构建一个多分类模型,还是构建多个二分类模型。根据建模经验,当有些申报要素内容相似度较高,多分类容易产生混淆,可以考虑构建多个二分类模型。当各申报要素数据相似度较低时,可以考虑使用多分类,能达到较高的识别率。
2.2.3 模型训练
将预处理后的申报要素数据集按照65%、25%、10%的比例划分为训练集、测试集和验证集。
如图1所示,在模型输入层,分别将第2章肉及食用杂碎、第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物报关单商品申报要素的内容通过随机字嵌入编码后,作为TextCNN的输入。输入向量维度为15×1,嵌入层尺寸15×64。
在模型卷积层,对字嵌入编码进行卷积操作,卷积后的特征图(Feature Map)是一个宽度为1的向量。卷积核数目为256,卷积核尺寸为 5×64。
在模型池化层,对特征图进行最大池化(MaxPooling)操作,神经元激活比例为0.5。
在模型全连接层,主要是带有Dropout的全连接层和Softmax分类器“申报要素规范和非规范2类”,全连接层神经元数量为128个。
其他参数设置方面,学习速率设定为1e-3,每批训练数据量设定为64条,所有数据迭代10次。
图1 卷积神经网络图例
Fig.1 Diagram of CNN
2.2.4 模型效果
第2章肉及食用杂碎模型测试集的准确率、验证集的准确率、模型的整体准确率均在95%以上。第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物模型测试集的准确率、验证集的准确率、模型的整体准确率均在96%以上。经与业务人员共同确认,测试集和验证集效果相近,表明该模型较为稳健,未出现过拟合。
3 未来展望
3.1 继续结合海关业务场景研究充实机器学习算法库
到目前为止,没有一种普适的机器学习算法,需要根据具体的业务场景灵活选择。对于处理结构化数据的问题,总体而言Boosting系列算法比较合适,目前海关洋垃圾风险防控模型就是使用其中的catboost算法建模。对于图像识别项目,建议使用卷积神经网络,目前智能审图使用该算法大大增强了图像识别的准确程度。对于自然语言处理类任务,建议使用深度神经网络模型进行开发,规范申报智能审核模型就使用其中的TextCNN算法对文本进行了分类。未来随着以机器学习为代表的新技术得到更广泛、更深入的应用,将不断丰富上述应用场景,更新算法库,让机器学习技术更好地服务于海关各项事业。
3.2 继续完善规范申报智能模型
未来将从以下几个方面入手。一是增加卷积神经网络的层级。第2章肉及食用杂碎和第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物数据量相对较少,因此卷积神经网络模型网络层级较少,也取得不错的效果。当面对更大数量级的数据时,准确率可能会下降。后续会进一步测试和验证,把握好模型复杂度和建模效果的平衡度。二是拓展至全章节。海关统计商品目录包括98章商品,当前的模型只能够判断一小部分,距离全章节规范申报智能审核尚有差距。未来希望能够将第2章肉及食用杂碎、第3章鱼、甲壳动物、软体动物及其他水生无脊椎动物的建模经验推广至全部章节。最终是构建98个模型还是根据各章节数据特点进行适当合并仍需不断探索。
4 结束语
本文根据海关建模经验,按照结构化数据算法、图像识别算法、自然语言处理算法等三大类比较分析了14种主流机器学习算法的优缺点。根据重点商品规范申报应用场景特点,选取卷积神经网络算法分析文本信息,构建智能模型。经与业务联合验证,模型准确率达95%以上且未出现过拟合,效果较好。未来将继续研究充实机器学习算法库,不断优化重点商品规范申报智能模型。
【该文经CNKI学术不端文献检测系统检测,总文字复制比为3.7%。】
参考 文献
[1]陈康,向勇,喻超.大数据时代机器学习的新趋势[J].电信科学, 2012, 28(12): 88-95.
[2]杨剑锋,乔佩蕊,李永梅,王宁.机器学习分类问题及算法研究综述[J]. 统计与决策, 2019, 35(06): 36-40.
[3]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报, 2017, 40(06):1229-1251.
[4]胡新辰. 基于LSTM的语义关系分类研究[D].哈尔滨工业大学, 2015.
[5]梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展, 2017, 54(08): 1724-1735.
(文章类别:CPST-A)