CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
深度学习技术在海关风险甄别中的应用研究
作者:闫宇宁1苏晓伟1万振龙1
闫宇宁1苏晓伟1万振龙1
摘要 随着互联网的高速发展和人工智能时代的到来,越来越多从前必须由人脑完成的工作能够利用计算机技术来完成,而深度学习的出现更解决了传统机器学习算法在计算机视觉领域、自然语言处理领域表现不佳的问题,使机器也能够拥有准确感知图像和语音的能力。人脸识别是深度学习网络最常见的应用场景之一,具有自然、直接、方便的特点,且不需要检测对象配合,因此非常适合用于公共安全领域的风险检测。研究充分结合海关实际需求,搭建基于深度学习技术的人脸识别模型,提供对通关旅客进行实时风险甄别的解决方案,以及海关通关风险防控场景的理论参考,为后续深度学习技术在海关业务的研究提供支撑。
关键词 深度学习;人脸识别;神经网络;风险甄别
Preliminary Study on Application of Deep Learning Technology in Customs Risk Screening
YAN Yu-Ning1SU Xiao-Wei1WAN Zhen-Long1
Abstract With the rapid development of the Internet and Artificial Intelligence, more and more tasks which must be completed by human brains can be completed using computer technology. The emergence of deep learning has improved the poor performance of traditional machine learning algorithms in the field of computer vision and natural language processing, which provides machines the ability to accurately perceive images and speech. Face recognition is one of the most common application scenarios for deep learning networks. It is natural, direct, convenient, and does not require the cooperation of detection objects, so it is very suitable for risk detection in the field of public safety. According to the needs of customs, we built a face recognition model based on deep learning technology, put forward a solution for real-time risk discrimination of customs passengers, and proposed a theoretical reference for the risk prevention and control of customs clearance. Also, our research provided supports for the follow-up study of deep learning in customs business.
Keywords Deep learning; face recognition; neural network; risk discrimination
引言
自海关实现关检融合以来,对于通关效率及通关风险识别精准度的要求日益严格,仅依靠人工进行把控,不能够保证达到最佳的效果。人工逐个比对会增加现场关员的工作繁重程度,且查询比对过程也需要一定时间。若对每位通关旅客都进行详尽仔细比对,势必会造成通关时间的增加。若不如此,则难以保障通关风险识别精准度。因此,探索一种能够兼顾通关效率和安全、并且能够减少人力的方法势在必行。深度学习技术的优势在此时凸显出来,既可以实现对通关旅客的严格把控,又能够不影响旅客的正常通行。通过定位旅客的人脸部位,提取人脸特征信息,就能够自动识别出旅客的身份信息,并进一步与数据库中的相关信息进行比对,甄别是否存在通关风险以及是否需要对该旅客实施布控。目前,人脸识别技术已经在机场、火车站、酒店等各种大型公共安全场所广泛使用,均取得了良好的风险甄别效果。
旅客在申请通关后,机场的海关工作人员需要对其进行检查,检查内容包括申请人是否持有身份证件,以及本人与所持身份证件是否相符等相关内容。因此,需要对旅客的脸部信息进行采集,并通过运行训练完成的人脸识别模型,对旅客进行人脸识别,进而通过识别结果与相关信息进行比对。最终,将信息比对结果和可能存在的风险情况,返回给现场工作人员。工作人员通过所掌握的信息,根据业务经验对该名旅客的通关风险进行甄别与判断。
旅客作为风险甄别的对象,需要保证其通关的便捷与高效,模型识别必须快速、准确。因此,研究采取卷积神经网络的模型架构,以提高模型的准确率。并且对预期应用模型进行了设计,通过离线训练与在线甄别相结合的方式,确保通关效率。
1 深度学习技术概述
深度学习的概念来源已久,可以追溯到20世纪50年代,早在1957年康奈尔大学心理学教授Rosenblatt就利用神经网络原理首次成功制作了能够读入并识别简单字母和图像的电子感知机[1]。但随着研究的深入,人们发现了神经网络应用中存在差异或逻辑无法解决、梯度不稳定、计算能力不足、以及没有足够量的数据等问题,导致深度学习技术发展进入寒冬期。直到2006年,“深度学习之父”Hinton教授提出深度信念网络概念和新的训练方法[2],冲破了神经网络训练的瓶颈,再度掀起深度学习的研究热潮,使得深度学习得以快速发展,应用范围也日趋广泛。
深度学习本质上就是一个不断进行特征描述的过程,即分层级的特征提取过程。含多个隐层的神经网络具有强大的特征学习能力,可以通过训练模型对原始输入数据进行准确分类[3]。近年来,深度学习技术以人工神经网络为基础,突破了三层结构的限制,在计算机视觉领域取得了成功[4]。其中,卷积神经网络尤其适合处理二维数据,是图像处理和识别领域的重要应用。
卷积神经网络(CNN)是一种深度监督学习下的机器学习模型,能挖掘数据局部特征,提取全局训练特征和分类,在模式识别各个领域都得到成功应用。CNN在图像处理、人脸识别领域有着最高水平的结果。卷积神经网络包括卷积层、池化层和全连接层。常见的几种卷积神经网络有:AlexNet网络、VGGNet结构及ResNet结构等。
AlexNet共8层网络结构,包含5个卷积层和3个全连接层。池化层采取最大池化方法,Relu作为激活函数,成功解决了深度学习网络加深过程中可能出现的梯度弥散情况,证明了卷积神经网络在计算机视觉领域的有效性。
VGGNet结构较之AlexNet更深。常用的VGGNet版本有VGG16、VGG19结构。把网络加深到16-19层,能够有效地提升深度学习的准确性,很多卷积神经网络都是以VGG结构作为网络基础。
ResNet残差神经网络解决了神经网络加深过程中,网络结构加深到一定程度时准确率反而下降的问题,使得训练更深的神经网络成为可能,简化学习过程和学习难度,是一个推广性极强的网络。
2 技术路线
本研究主要依据海关通关风险防控需求,基于深度学习算法,搭建采取卷积神经网络的人脸识别模型,并预期结合到机场海关旅检通关工作中,实现深度学习技术的融合与应用。
首先,应充分理解海关旅检通关流程,明确相关业务需求,并分析旅检数据间的关联及应用场景,设计深度学习模型的结构。明确业务需求后,初步建立模型设计思路,同时搭建模型实验环境。在此基础上,可以进一步对人脸图像数据进行数据预处理,包括人脸检测、数据增强、灰度化处理等,并设计适合的深度学习算法结构。出于性能和效果等方面的考虑,对模型网络结构进行了分析探索,最终设计出了一种适合海关风险通关场景的网络结构,在此基础上完成了模型搭建,并模拟了模型的未来应用场景。
具体研究步骤如下:
(1)明确业务需求,分析应用场景;
(2)梳理业务需求与数据源之间的关系,搭建实验环境;
(3)采集人脸图像数据并进行预处理,实现人脸定位及检测;
(4)设计人脸识别模型算法架构,进行训练、测试及验证;
(5)设计潜在应用场景,为后期在相关海关工作领域实现应用落地提供基础。
3 实验过程
3.1 数据预处理
为保证模型运行效果,在进行模型训练前对所采用的数据集进行了数据预处理工作,包括:人脸检测、人脸对齐、数据增强、灰度化处理、归一化处理以及尺寸变换等。最终进入模型训练的数据集[5],共包含30000张人脸图片,分别来自60个人。每人有500张图片,每张照片大小为128*128像素。每组图片分别存放在顺序编号的文件夹内,即每个人均具有唯一编号。
人脸检测是指对图片中的人脸区域进行识别,利用截取的方法去掉背景影响因素的过程。通常拍摄到的照片中,人脸仅占较小面积,而大部分面积被衣服和背景占据。如果直接对这些照片进行训练,模型效果会受到这些背景的干扰,训练的结果必然不够理想。因此,首先需要对照片进行人脸检测处理。人脸检测的方法通常可以分为两类,一类是传统的基于统计学习分类器的人脸检测方法,另一类是基于深度学习的人脸检测方法。本研究采用的是第一类方法,基于OpenCv的Haar级联分类器对人脸部位进行加框,并将框内的部分截取出来,替换掉原始图片,作为新的人脸数据图片保存起来。一张图片中会出现多个候选框,参数min_neighbors的作用是判断一定区域内候选框的密集程度,密集程度越高的部分越有可能是人脸部分。因此,为了保证人脸数据的精准性,将参数min_neighbors的值提高,使筛选标准由松弛变得更加严格,从而尽可能剔除掉所有非人脸数据,如脖子、衣服等。处理前后的图片对比如图1所示。
数据增强是在不实质性增加采集数据的情况下,让有限的数据产生更多数据的价值,保证模型的精度。数据增强分有监督数据增强和无监督数据增强,本研究采取的是有监督数据增强的方法,因此无监督数据增强不进行详细介绍[6]。有监督数据增强包括单样本数据增强和多样本数据增强,单样本数据增强是指对单个图片样本进行几何变换和颜色变换,多样本数据增强则是利用多个图片样本类进行组合叠加,通常用来解决数据分布不平衡问题。本研究主要运用了单样本数据增强的方法,对数据进行了颜色变换和几何变换。几何变换包括随机裁剪、旋转、翻转和缩放等。其中旋转和翻转不改变图片大小,通常用于对图片方向不敏感的任务如图片分类。只有缩放操作会使图片产生失真。颜色变换包括对颜色、亮度和对比度进行调节,模糊,添加噪声、擦除等。数据增强后的效果如图2所示,第一张为原图;第二张使用了色度增强,增强参数为1.5;第三张使用亮度增强,增强参数为1.5;第四张逆时针旋转30度,边缘使用黑色填充。
图片灰度化是指将彩色图片转换为灰度图像,以去掉RGB三个颜色通道,仅以矩阵形式保留图片的轮廓、线条、纹理等特征,目的是丢弃不重要的颜色特征,减少图片处理计算量。灰度化处理前后的对比示意图,如图3所示。
图像数据归一化是指将图像数据限定在固定的标准范围之内,使图像能够抵御几何变换带来的影响,并且加快模型的收敛。图片尺寸变换通常包括裁剪、缩放、填充等操作,目的是使进入模型的图片尺寸统一,避免由于尺寸不一致问题对模型造成影响。首先,将图片数据转换为浮点型,再将图像数据从[0,255]的整数区间归一化到[0,1] 的浮点区间。最后,将图片数据尺寸变换为128*128,完成图像数据预处理。
3.2 模型算法
模型算法详细网络结构如图4所示,共11层卷积层和1层全链接层。其中,第一层卷积是对图像基本特征如边缘、线条和角等的提取,然后从第二层到第六层与从第七层到第十一层是一个相同的可复用结构,用来对更深层次的特征进行提取。这个结构是这样的,首先将输入x分别进行一层卷积conv_1(x)和两层卷积conv_2(x) 、conv_3(conv_2(x)),然后把这两部分相加得到第一次输出conv_1(x)+ conv_3(conv_2(x)),记为y,其次对第一次输出进行两次卷积conv_4(y)、conv_5(conv_4(y)),接下来把第一次输出与其两次卷积相加得到第二次输出y+ conv_5(conv_4(y))。将此结构执行两次后使用均值池化对图片进行压缩,最后使用全连接层并用激活函数Softmax进行输出。这种架构下的模型运算速度较快,且最终的模型验证准确率也较高,因此选取作为本研究的模型算法架构。
3.3 模型训练
本研究的人脸数据集划分为训练集、验证集和测试集分别为18000、6000、6000张图片。抽样方式采用分层抽样,即每组图片会随机有300张分在训练集、100张验证集、100张测试集。标签为0-60文件编号,对60类标签进行one-hot编码,使每一类都是一个60维的向量,在其对应类的位置数值为1,其它位置为0。
为了节约计算资源,本研究的卷积核大小为(3,3),个数为16或32,填充方式为0填充,步长为(1,1)或(2,2);卷积层和池化层的激活函数都为ReLU函数;在所有卷积层之后进行了全局平均池化,再接一个全连接层;全连接层的激活函数为Softmax,用来输出类别;模型损失函数为多分类交叉熵损失。模型采用小批次梯度下降算法,批次大小为12,并使用自适应学习率调整算法优化损失函数。
3.4 模型效果
训练集、验证集、测试集模型损失分别为0.036、0.33和0.27,准确率分别为0.997、0.979和0.972,如图所示。可见,模型在数据集上的拟合情况比较好,训练集与测试集准确率相差不大,可以认为无过拟合情况。
如图5所示,左侧是训练集、验证集损失随训练周期的变化情况,右侧是训练集、验证集准确率随训练周期变化情况,一共迭代了40个周期,训练集、验证集损失逐渐下降,准确率逐渐上升趋势,最终损失收敛到一个很小的值,准确率趋近于1。模型会自动保存验证集损失最小权重系数,以防止过拟合。
使用数据集之外其它图片对模型进行了测试,发现模型也会给出一个60人之中分类,说明模型在已知类别的准确率虽然很高,但是不能泛化到从未见过的60人之外的类别。查看其结果向量,发现模型对此类别预测概率很高,都在0.98以上,无法通过设置阈值对外部图片进行排除。
3.5 模拟应用展示
为了提供给后期应用落地阶段更多实践经验及理论参考,研究模拟了人脸识别深度学习模型与生产系统对接的过程,在测试环境下完成了模拟应用落地。
测试过程与实际应用的整体流程相似,采取离线训练与在线甄别相结合的方式进行。具体表现为,离线训练是利用模型对处理好的人脸数据集进行训练,获得存有模型权重的模型文件。在线甄别过程为,拍摄一张标准正脸人脸照片输送到服务器中,经过图像预处理后进入训练好的模型文件中进行人脸识别。识别结果包含唯一身份编号和一张资料库标准图,利用身份编号与数据库中身份信息相匹配,最后输出此人身份信息及资料图。具体流程如图6所示。
与实际应用过程不同的是,真实情况下人脸拍摄环境及设备与测试阶段不同,可能受到光照等因素影响,照片质量会下降。但真实环境中人脸数据库数据量肯定远大于测试环境数据量,因此可能需要对模型进行进一步的调试和优化。
4 总结
本研究对于深度学习技术在海关业务领域应用进行了探索和实践,并基于潜在海关应用场景进行了模拟应用,为预期实际应用落地提供了丰富的理论基础和实践经验。充分体现了深度学习技术在风险甄别方面的优势,并对未来该技术在海关的深化应用进行了探究。
此外,深度学习技术在海关各风险甄别场景还有很多可应用之处,如木材识别、昆虫识别等方向。部分不法企业在填报报关单数据时,对其填报的物品存在瞒报行为,而现场关员对于较为冷门的木材和昆虫识别存在一定困难。深度学习技术能够帮助现场关员精准识别货物,并保证甄别效率。
预期将对深度学习与海关风险甄别场景的结合进行更深入地探索,采用更先进的技术来优化模型算法,完善应用体系,扩展应用范围。
第一作者:闫宇宁(1994-),女,硕士,数据挖掘工程师,研究方向为图像识别,E-mail:a728973000@163.com,Tel:18811346583
1.全国海关信息中心,北京 100005
1. The National Information Center, General Administration of Customs, Beijing 100005
图1 人脸检测示意图
Fig.1 Schematic diagram of Face Detection
图2 数据增强效果示意图
Fig.2 Schematic diagram of Data enhancemen
图3 灰度化处理示意图
Fig.3 Schematic diagram of Grayscale processing
图4 深度学习网络结构图
Fig.4 Network structure diagram of Deep learning
图5 模型效果展示图
Fig.5 Diagram of Model effect
图6 模拟人脸识别流程示意图
Fig.6 Schematic diagram of Simulation of Face recognition
参考文献
[1] 景晨凯,宋涛,庄雷,刘刚,王乐,刘凯伦.基于深度卷积神经网络的人脸识别技术综述[J].计算机应用与软件,2018,35(01):223-231.
[2] 田启川,王满丽.深度学习算法研究进展[J].计算机工程与应用,2019,55(22):25-33.
[3] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(01):1-17.
[4] 杨巨成,刘娜,房珊珊,谢迎.基于深度学习的人脸识别方法研究综述[J].天津科技大学学报,2016,31(06):1-10.
[5] 本研究所采用数据集为自制数据集,人像图片均由海关信息中心员工拍摄采集得到。
[6] 王天庆.Python人脸识别从入门到工程实践[M].机械工业出版社,2019.