CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于人工智能算法的商品归类研究与应用
作者:商志坚 熊涛 刘强 李鼎一 钱胜胜 孙学忠 张明光
商志坚 熊涛 刘强 李鼎一 钱胜胜 孙学忠 张明光
摘 要 准确高效的商品归类有助于进出口企业提升通关速度、降低通关成本。为帮助进出口企业传统商品归类在效率和准确率等方面实现进一步提升,本文利用企业申报数据,构建了基于双向转换编码器表征(Bidirectional Encoder Representations from Transformers,BERT)与文本卷积神网络(Text Convolutional Neural Network,TextCNN)联合模型的商品归类算法,并完成归类系统开发及验证。以企业实际商品申报数据进行测试,归类准确率达95%以上,取得了较好的应用效果。
关键词 商品归类;文本卷积神经网络(Text CNN);双向转换编码器表征(BERT)
Research and Application of Commodity Classification Based on Artificial Intelligence Algorithm
SHANG Zhi-Jian1 XIONG Tao1 LIU Qiang2 LI Ding-Yi2
QIAN Sheng-Sheng3 SUN Xue-Zhong1 ZHANG Ming-Guang4
Abstract Accurate and efficient commodity classification helps import and export enterprises to improve the speed of customs clearance and reduce the cost of customs clearance. To improve efficiency and accuracy in classifying traditional goods for import and export enterprises, this paper uses enterprise declaration data to construct a commodity classification algorithm based on a combined model of Bidirectional Encoder Representations from Transformers (BERT) and Text Convolutional Neural Network (TextCNN), and completes the development and verification of the classification system. According to the test of the actual commodity declaration data of those enterprises, the single accuracy rate is over 95%, achieving good application results.
Keywords commodity classification; Text Convolutional Neural Network (Text CNN); Bidirectional Encoder Representations from Transformers (BERT)
随着国际贸易量的持续增长,对外贸易已在我国经济体系中占据了重要地位。为推动贸易便利化以及确保商品归类的准确性,世界海关组织(World Customs Organization,WCO)制定了一套名为协调制度(Harmonized System,HS)的编码体系。这套体系通过数字编码的形式,为跨境贸易中的货物提供了统一且明确的识别标准。海关商品归类,即根据商品归类的依据和进出口商品申报描述的信息,确定进出口货物商品编码的行为。准确的商品归类,对于海关在关税计算、贸易统计等方面的工作至关重要。同时,该体系有助于企业加快通关速度、减少成本支出,为企业带来更大的利润增长空间[1-2]。
近年来,随着人工智能技术的发展,通过系统来辅助商品归类已经成为可能,并已经有相关研究。谢维等[3]设计了一个HS编码查询知识库,在人工干预的情况下,可以对商品名进行语义识别,并基于知识库推理得到可能结果集,最后计算出相关置信度并返回结果。龚丽娟等[4]使用词向量转换(Word to Vector,Word2vec)和支持向量机(Support Vector Machine,SVM)技术对报关商品文本进行词向量处理和归类,在只关注局部文本信息的前提下,取得了不错的分类效果。朱立平等[5]通过实验对比了文本循环神经网络(Text Recurrent Neural Network,TextRNN)和SVM,证明了在大数据量的前提下深度学习方法的有效性。另外,一些研究[6-7]基于异构神经网络、图神经网络等技术对商品归类技术作了有益的探索。但目前由系统来实现商品归类还存在一些问题:一是相关研究往往使用较小的数据集,可能影响研究成果的准确性。二是智能归类的方法和工具在效率和准确率方面仍有待提高。三是研究结果缺乏在企业实际应用场景的验证和反馈。
中国电子口岸数据中心(以下简称“数据中心”)承建的中国国际贸易“单一窗口”(以下简称国际贸易“单一窗口”)为企业提供通关预申报、物流、企业备案等多项便利化服务。为进一步优化涉企服务,数据中心在面向企业的调研座谈中了解到企业在进出口服务中的痛点,并针对这些问题,利用企业申报数据和人工智能技术构建了商品归类算法,以期帮助企业提升商品归类准确性,提升企业通关速度。
本文首先介绍进出口企业商品归类的典型应用场景及现状,其次基于BERT与TextCNN联合模型构建商品归类算法,并基于该算法实现商品智能归类系统,最后以用户真实场景开展算法和系统测试,验证归类算法的准确性和效率。
1 企业预录入申报商品归类场景及现状分析
1.1 商品归类典型应用场景
进出口贸易企业或委托代理报关企业要完成商品归类并申报,首先需要报关人员根据商品型号、描述等形成商品申报要素,根据《中华人民共和国进出口税则》(以下简称《税则》)及相关归类依据进行商品归类,并通过国际贸易“单一窗口”完成向海关申报,海关再将结果反馈给企业。典型的应用场景如图1所示。
①: 发送预录入信息; ②: 向海关报送;③: 海关返回结果; ④: 结果返回企业
图1 进出口企业申报典型场景
Fig.1 Typical scenarios for declaration by import and export enterprises
在此过程中,如果企业申报的商品税则号列不准确,海关会反馈不通过,该申报就会被退单。退单意味着企业需要重新确定商品归类和申报,这将对企业的通关效率产生影响,错误的归类也可能导致关税计算不准确。因此,提高商品归类的准确率和泛化能力成为了进出口企业亟待解决的问题。
1.2 现状分析
通过与进出口企业座谈及现场调研,目前进出口企业在商品归类环节还面临着以下挑战:一方面是人工操作效率有待提升。由于目前大多数进出口企业的商品归类工作主要依赖于人工操作,归类过程耗时偏长,且人工方式只能逐个商品作归类,暂无法进行批量归类操作。另一方面是人工操作正确率有待提升。由于商品归类的复杂性以及进出口企业报关人员对《税则》理解的差异,可能会对商品归类结果造成一定影响。根据研究表明,约30%的申报提交使用了错误的商品编码[2]。此外,归类效率低会对企业的经营成本和核算成本产生影响。针对企业面临的商品归类痛点,本研究通过采集典型企业进出口申报数据,基于人工智能技术开展商品归类算法研究,为企业解决堵点、难点,具有较为显著的社会效益和经济效益。
2 智能归类模型设计与实现
2.1 文本分类算法简介与选择
软件算法实现商品归类的思路是通过给定的商品名称和描述的文本信息,利用文本分类技术,判定该商品所属的类别。文本分类作为自然语言处理(Natural Language Processing,NLP)领域中的经典应用场景之一,近年来累积了很多解决方法。基于深度学习的文本分类有facebook开源的快速文本分类器(Fast text classifier,FastText)文本分类模型,文本卷积神网络(Text Convolutional Neural Network,TextCNN)文本分类,TextRNN文本分类,基于Word2vec文本分类模型等。对于一切用深度学习技术解决文本分类的问题,文本的向量化都是最基础而关键的环节,预训练向量效果的好坏会直接影响下游分类任务的准确性,因此需要选用合适的预训练模型。现有预训练模型可以大致分为两类:一类是像Word2vec、FastText这样的静态词向量模型,这类模型无法解决一词多义问题;另一类是像语言模型嵌入(Embeddings from Language Models,ELMo)、生成式预训练转换器(Generative Pre-Trained Transformer,GPT)、双向转换编码器表征(Bidirectional Encoder Representations from Transformers,BERT)这样的动态词向量模型,这类模型结合了上下文信息,在不同的语料中对同一文本的向量表示不同,实现了一词多义的功能。其中,ELMo是一个双向的长短期记忆网络,GPT则采用半监督的方式训练模型,不同的是对下游任务进行了微调。而对于BERT模型,与其他动态词向量模型的不同在于,它是一个双向的预训练模型,而GPT和ELMo模型都是采用的单向网络结构。另外,BERT为了能够双向训练,还使用了掩码语言模型(Masked Language Model,Masked LM)机制,并使用下文预测(Next Sentence Prediction)机制来获取句子间关系。综上所述,BERT作为一个深层的双向语言模型,表达的信息量更加丰富,因此本研究使用BERT作为预训练模型。
虽然BERT预训练模型表达的信息量丰富,且学习到了上下文关系信息,但是由于模型中内部参数值变化较小,容易导致出现过拟合,在非训练数据上表现较差,同时模型存在仅学习到字特征的问题。为避免以上问题,本研究融合了TextCNN分类器,利用多种卷积核提取句子中不同长度的词特征,进而捕捉关键词信息,弥补BERT预训练模型的缺陷,且TextCNN可并行训练。
2.2 商品归类智能归类算法设计
根据上述分析,本研究提出了一种基于BERT和TextCNN的联合模型的智能归类算法,该联合模型原理如图2所示。
2.2.1 BERT特征提取层
BERT被用于对句子级文本的语义信息进行动态词向量表示,输入为文本序列化向量,输出为经过多层Transformer编码器的特征向量。具体而言,首先BERT对输入文本序列进行语义编码得到词嵌入、段嵌入以及位置嵌入编码,并将3种编码信息相加的特征表示传入至12层转换编码器(Transformer Encoder)中,且其注意力层共享参数。在每层Encoder中,BERT首先基于多头自注意力机制进行计算,得到文本序列的增强语义向量表示。其次,利用双层的全连接前馈神经网络,通过一组线性权重、偏置将每个注意力结果映射到一个更大维度的特征空间中,并通过高斯误差线性单元(Gaussian Error Linear Units,GELU)激活函数增强模型非线性表达力后,再利用另一组线性权重、偏置将特征表达恢复到初始维度。最后,通过多层Transformer编码器处理后的特征向量全面、准确地捕获了文本自身及上下文语义信息。
图2 智能归类模型结构
Fig.2 Structure for intelligent categorization model
2.2.2 TextCNN特征提取层
TextCNN特征提取层的作用在于利用一维卷积和池化操作,在BERT全局特征的基础上,对句子文本的局部特征进行捕获。其输入为BERT词向量化后每个融合自身与上下文语义的子词Token表征,输出则是一个融入局部信息的一维特征表示。具体来说,所有的Token级特征组成一个词向量表示,然后使用不同大小的卷积核,对输入词向量进行卷积与池化操作,同一类型卷积后的特征向量拼接在一起后,再通过二次拼接成为一维的特征表示。
2.2.3 分类层
由一个全连接网络与Softmax分类器构成的商品编码分类层,先对TextCNN层提取到的融合句子整体上下文语义与局部信息的特征表示进行线性映射,然后利用Softmax回归将特征归一化到0和1之间,归一化后向量中的每一个元素表示相应商品编码标签的概率值,此时最大元素对应的商品编码标签即为分类结果。
综上所述,基于BERT和TextCNN的联合模型是一种具有创新性和实用性的智能归类算法,它能够充分利用BERT和TextCNN两种网络在序列数据处理方面的优势,并且通过多种技术手段提高模型表达能力、泛化能力、稳定性和收敛速度。该算法也可以大大提升商品归类的效率和准确率。
3 应用实践
3.1 模型训练及测试
基于第3部分的设计方案构建智能归类算法,使用企业对近一年的申报数据中与商品归类相关的字段进行模型训练。数据集涵盖了4种不同行业的历史数据,对于数据集内的每件商品,都给出了完整的商品描述信息以及其所对应的10位HS编码。
为了验证模型的性能,本研究使用准确率(Precision)作为模型的评价指标。准确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。准确率的计算公式如下:
式中,TP(True Positive)表示真正例,即预测值与真实值相同;FP(False Positive)表示假负例,即预测值与真实值不同。
按照算法设计流程对全量数据进行统计分析,构造训练集、验证集和测试集。在训练数据中存在明显的“大类”分布,其中有843种税号对应数据35527857条,共占训练数据的78.5%,对这部分数据的学习主导了训练过程。经过6轮训练之后,在训练集上的测试结果表明,模型对训练数据量大于等于1000条的税号的预测准确率为94.53%,对训练数据量大于等于100条但小于1000条的税号的预测准确率为89.62%。实验结果表明随着数据量的增大模型的拟合效果越好,预测准确率越高。模型训练完成后,使用构造测试集测试模型性能,最终模型的准确率达到了95.3%。
为了进一步验证模型的性能,笔者随机抽取了2个月的数据进行测试,并为了验证模型能否用于生产实际中,从企业真实申报数据中抽取出5万条数据用于测试模型性能。表1展示了实验结果,其中单一准确率为模型推出的第一个税号即为目标税号,表示推理成功,三候选准确率即模型推理出的前三个税号中存在目标税号即为推理成功。测试结果见表1。
表1 模型在测试集上的表现
Table 1 The performance of the model on the test set
数据 | 单一准确率 (%) | 三候选准确率 (%) |
第1个月数据 | 89.6 | 90.0 |
第2个月数据 | 89.5 | 89.9 |
企业真实报关数据 | 95.4 | 99 |
由以上实验结果可知,智能归类算法在不同的数据集上都达到了非常高的准确率,表明了算法设计的有效性和正确性。
3.2 智能归类系统
基于上文的智能归类算法,我们设计并实现了智能归类系统,给用户提供可视化的操作界面,从而便于算法的实际验证。
3.2.1 商品名称及申报要素输入
用户根据系统提示,按照要求填写商品名称、规格信号、商品材质、商品用途等商品信息,例如,商品名称:前照灯总成,规格型号:汽车 HACMAN|W/DZ95189724020S,商品用途:车辆行至照明装置保证车辆安全驾驶室视野,用于排量9.7 L的重型卡车,输入界面如图3所示,填写完成后点击查询按钮,后台会得到用户输入的数据,调用模型进行推理。
3.2.2 模型归类结果展示
模型推理出3个最有可能的税号,按照可能性从高到低排序,推理出的结果包括:商品税号、商品名称、准确率、申报要素、商品相关税率等信息,图4呈现了模型的推理结果。根据上面输入的信息模型推理出的3个税号分别是8512201000、8512209000、9405499000,其中8512201000为正确结果。
4 结语
提升商品归类准确性对于进出口企业提高报关申报效率与通关速度至关重要。针对当前进出口企业在报关单申报过程中普遍面临的痛点,本研究创新性地提出了基于BERT与TextCNN联合模型的商品归类算法,并以这一算法为基础构建了智能归类系统。在实际场景测试中,该系统展现出显著优于传统归类方法的性能,用企业真实数据测试,单一归类准确率超过95%。随着人工智能技术的持续进步,后续可以考虑利用文字识别技术(Optical Character Recognition,OCR)实现商品信息的自动化提取,并借助大型模型技术进一步优化申报要素,旨在进一步提升商品归类的准确性和速度,在推动智能归类系统的持续创新与发展的同时,也可以为进出口企业提供更加高效、准确的报关申报解决方案。
参考文献
[1]许重建, 李险峰. 基于深度学习的HS_Code产品归类方法研究[J]. 现代计算机, 2019(1): 11-19.
[2]阮启铭, 过弋, 郑楠, 等. 基于层级多任务BERT的海关报关商品分类算法[J]. 计算机应用, 2022, 4(1): 71-77.
[3]谢维, 李银胜, 邵永臻, 等. HS编码查询知识库设计与实现[J]. 计算机应用与软件, 2008, 25(8): 143-146.
[4]龚丽娟, 王昊, 张紫玄, 等. Word2Vec对海关报关商品文本特征降维效果分析[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[5]朱立平, 张紫玄, 邓三鸿, 等. 多层次文本分类法的模型构建及实验分析——以进出口商品归类问题为例[J]. 情报科学, 2021, 39(10): 178-184.
[6]康风建. 基于知识图谱的跨境商品海关编码预测系统研究与实现[D]. 济南: 山东大学, 2022.
[7]杜少华. 基于图神经网络的商品HS编码分类方法研究[D]. 北京: 北京交通大学, 2022.
[8]葛辰佳. 报关商品归类错误给外贸企业带来的风险及其防范[J]. 中国商论, 2018(32): 64-65.
[9]高秋萍. 基于实例的商品归类错误分析及启示[J]. 对外经贸实务, 2020(12): 61-64.
[10] Joulin A, Grave E, Mikolov P B T. Bag of Tricks for Efficient Text Classification[C]. Proceedings of the 15th Conference of the {E}uropean Chapter of the Association for Computational Linguistics, 2017: 427-431.
[11] Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[C]. Advances in neural information processing systems, 2015: 649-657.
[12] Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C]. Twenty-ninth AAAI conference on artificial intelligence, 2015: 2267-2273.
[13] Lilleberg J, Zhu Y, Zhang Y. Support vector machines and word2vec for text classification with semantic features[C]. 2015 IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI* CC), IEEE, 2015: 136-140.
[14] Peters M E., Neumann M, Iyyer, M, et al. Deep Contextualized Word Representations[c]. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2018: 2227-2237.
[15]黄佳伟. 人机对话系统中用户意图分类方法研究[D]. 武汉: 华中师范大学, 2018.
[16] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019: 4171-4186.
第一作者:商志坚(1974—),男,汉族,河北故城人,硕士,主要从事海关信息化建设、架构管控、技术管理等工作,E-mail: shangzhijian@126.com
1. 中国电子口岸数据中心 北京 100011
2. 中远海运物流供应链有限公司 北京 100025
3. 中国科学院自动化研究所 北京 100190
4. 东方口岸科技有限公司 北京 100020
1. China E-Port Data Center, Beijing 100011
2. COSCO SHIPPING Logistics & Supply Chain Management Co., Ltd., Beijing 100025
3. Institute of Automation, Chinese Academy of Sciences, Beijing 100190
4. East Port Technology Co., Ltd., Beijing 100020
图3 用户输入商品名称申报要素截图
Fig.3 Screenshot of the user inputting the declaration elements of the product name
图4 模型归类结果截图
Fig.4 Screenshot of the model classification results