CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于深度学习的海关危险化学品数智监管新模式及应用
作者:马全宇 张茂盛 丁宗超 邴柏春 邓瑞丰 白景莲 梁丽丽 李超
马全宇 张茂盛 丁宗超 邴柏春 邓瑞丰 白景莲 梁丽丽 李超
摘 要 加强危险化学品安全监管是当前一项重要工作任务,关系到人民群众的生命健康和国家的经济安全。深度学习通过模拟人脑神经网络的结构和功能,实现了对海量数据的自动学习和分析,为海关危险化学品智慧监管提供了新思路。在服务企业、快速通关、缩短检验流程的大背景下,本文提出构建基于“前端数字化识别+智能化审核+结果感知”的危险化学品数智监管新模式,通过多源化数据资源汇聚、数字化知识经验转化和智能化监管装备研发,AI辅助关员识别研判商品危险性。在大连海关试点应用中,该模式有效提升了关员作业效率和执法专业性,加强了危险化学品监管的有效性和针对性,为海关危险化学品智慧监管改革提供了参考。
关键词 危险化学品监管;智能装备;海关监管;深度学习;神经网络
The Building and Application of a New Model of Digital Intelligence Supervision and Control of Customs Hazardous Chemicals Based on Deep Learning
MA Quan-Yu1 ZHANG Mao-Sheng1 DING Zong-Chao2 BING Bai-Chun1
DENG Rui-Feng1 BAI Jing-Lian1 LIANG Li-Li3 LI Chao1*
Abstract Strengthening the safety supervision and control of hazardous chemicals is an important task at present, which is related to the life and health of the people and the economic security of the country. By simulating the structure and function of the human brain neural network, deep learning realizes the automatic learning and analysis of massive data, providing a new perspective for customs intelligent supervision and control of hazardous chemicals. In the context of serving enterprises, accelerating customs clearance and shortening the inspection process, this paper proposes to build a new model of digital intelligence supervision and control of hazardous chemicals based on “front-end digital identification + intelligent review + result perception”. Through the aggregation of multi-source data resources, transformation of digital knowledge and experience, and development of intelligent supervision and control equipment, AI assists customs officers in identifying and judging the danger of goods. The successful pilot run in Dalian Customs shows that this model can effectively enhance work efficiency and law enforcement of customs officers, strengthen the effectiveness and pertinence of hazardous chemicals supervision and control, and therefore provide a reference for customs reform of smart supervision and control of hazardous chemicals.
Keywords supervision and control of hazardous chemicals; intelligent equipment; customs supervision and control; deep learning; neural network
第一作者:马全宇(1973—),男,汉族,辽宁营口人,本科,高级工程师,主要从事海关科技管理工作,E-mail: 13500775779@139.com
通信作者:李超(1989—),男,汉族,山东淄博人,硕士,助理工程师,主要从事海关进出口危险化学品监管工作,E-mail: lichao_2324@qq.com
1. 大连海关 大连 116001
2. 大连东软信息学院 大连 116001
3. 中国电子口岸数据中心大连分中心 大连 116001
1. Dalian Customs, Dalian 116001
2. Dalian Neusoft University of Information, Dalian 116001
3. China Electronic Port Data Center Dalian Sub-center, Dalian 116001
根据《危险化学品安全管理条例》(国务院令第591号)规定,海关负责对进出口危险化学品及其包装实施检验。近年来,海关聚焦危险化学品“滞留”和“瞒报”,组织开展专项行动,健全长效机制,完善相关配套制度,监管工作成效显著。危险化学品的特殊性质使其存在较大的安全风险,海关是监管链条中的一环,不同监管部门之间数据还需进一步比对印证。
近年来,以机器视觉、深度学习为代表的新一代人工智能技术的日渐成熟对社会各行各业产生了深远影响。通过深度学习算法可对危险化学品随附单证和外包装标签标识进行准确快速识别,并对关联信息进行自动检索、匹配,为构建数字化感知、智能化分析的海关危险化学品监管新模式提供了全新的范式[1-3]。随附单证的识别应用的是光学字符识别技术(Optical Character Recognition,OCR),是一种将图像中的文字信息转化为可编辑、可检索的文本格式的技术[4]。黄玮[5]提出了一种基于深度学习的采购订单表格识别方法,将表格识别分为表格区域检测、表格结构提取、表格文本检测和识别3个阶段,可以对单表文档中的表格结构和文本信息进行较为准确的检测和识别。刘曙[6]针对多模态文档布局解析问题,提出了基于序列到序列的中文布局解析及内容理解预训练模型,模型能端到端的生成文本内容和HTML布局符号,从而实现对多模态文档中各类复杂信息的处理。石杰等[7]提出多级网络钢板表面喷码识别框架,快速定位喷码区域并截取,通过逐行分割模型及先验知识精确提取钢板号位置,实现独立钢板号的识别。岳大磊等[8]依托“化学品危险特性综合信息平台”计算机软件系统,通过产品成分快速推算该化学品的分类,智能判断产品是否属于《危险化学品目录》所列明的危险化学品,探索智能识别安全标签及智能审核。
智慧海关建设和“智关强国”行动对危险化学品监管数据的互联共享、随附单证的智能化识别以及现场智能检查手段的完善提出了更高的要求。本文提出通过强化监管部门间信息的互联互通,建立关区危险化学品数据库,探索图单识别等新技术的应用,研发危险化学品数智监管平台及配套防爆AR眼镜等执法工具,加强属地查检执法装备配置,以数字化和智能化为手段,聚焦“滞、瞒、逃、骗、害”全要素风险,打造危险化学品数智监管新模式(以下简称“危感知”模式),提升危险化学品监管效能和智慧管控水平。
1 危险化学品数智监管平台的构建
1.1 平台整体架构设计
危险化学品数智监管平台整体架构由外到内划分为:展示层、应用层和数据层。总体技术架构如图1所示。展示层包含两部分:一是“危感知”APP应用,主要应用于佩戴AR眼镜的现场作业;二是PC端页面应用,主要用于企业危险化学品记录以及相关查询统计等。应用层用于业务流程控制、各环节间的协调、内外系统的交互和核心功能实现。应用服务采用基于JAVA的前后端分离的分布式架构,前后端交互以及系统间交互均采用API实现,为保障交互安全,引入了业务网关,由网关完成交互鉴权验证。AI模型处理业务非结构化数据,实现对报关单及随附单证和现场货物外包装的拍照识别,应用环节主要包括“报关单识别”“安全数据表组成成分识别”“中文危险公示标签审核”和“危险货物包装标记释义”。数据层包括了危险化学品目录、危险化学品数据库和查验记录库等基础数据。
图1 平台总体技术架构图
Fig.1 Diagram of the overall technical architecture of the platform
1.2 关区进出口危险化学品数据库
依托大连海关实验室历年来的检测数据,结合企业历史申报的安全数据表、中文标签等资料,建立以“企业申报信息、危险化学品名称、GHS分类、安全公示信息审核要素”为核心的数据库,丰富监管数据资源,为现场执法作业提供参考。数据库结构如图2所示,其中报关单要素、组成成分信息和辅助信息来自企业申报,通过“多对一”关系,确定危险化学品的GHS分类信息,进而匹配对应的中文标签要素信息、包装信息、理化信息和不合格历史信息。海关关员可通过平台端收集审核企业上传的安全数据表、中文标签等资料,分为危化目录纯净物数据库和关区典型混合物数据库,为危险化学品审单、现场检验环节提供大数据支撑。
1.3 部门间危险化学品申报数据的互联共享
危险化学品监管数据以企业申报数据为主,来源较为单一,拓展政府部门、企业各方主体合作,为危险化学品精准监管提供多维度数据支撑迫在眉睫。危险化学品数智监管平台汇聚中国国际贸易“单一窗口”、大连港“危险货物申报系统”等外部数据,解决了海关现场查验环节无法获取商品“报危”信息问题,打破了危险化学品监管只能参考企业申报数据的局限性,通过不同部门、不同阶段、不同用途的申报数据自动比对、印证,辅助分析伪瞒报风险。
图2 数据库结构
Fig.2 Database Structure
1.4 配套防爆AR装备
AR眼镜属于精密电子设备,对温度、湿度、静电等环境因素比较敏感,不适合危险化学品查验场景。大连海关经过技术攻关,针对危险化学品现场查验的特殊环境,自主研制集成智能识别模型和智能辅助研判功能的防爆AR眼镜(云眼3.0),如图3所示。该装备已通过国家防爆电气产品质量检验检测中心检验,并获得国家实用新型专利。佩戴“云眼”的海关关员在查验单证和实货时,“云眼”的摄像头会自动调节焦距,拍摄当前物品照片,调用智能模型进行识别,并以AR形式将自动识别的信息呈现在海关关员视野中。
2 “危感知”模式关键技术
2.1 报关单及随附单证关键信息识别
根据规定,企业申报时需提供《进口危险化学品企业符合性声明》、添加抑制剂或稳定剂的说明(适用时)、中文危险公示标签(散装除外)和中文安全数据单等材料。企业申报信息中的申报单位、HS编码、货物品名和随附单证中安全数据表成分组分信息共同匹配调用平台中数据库商品信息,其中安全数据表成分组分信息无法直接通过国际贸易“单一窗口”申报信息获取,需要对安全数据表中信息予以提取识别,成分组分信息通常为表格形式且无固定版式。
本文采用卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)模型实现表格识别[9],模型网络结构由卷积层、循环层和全连接层3个主要部分组成,它通过卷积操作在CNN层中提取图像特征,并在RNN层中使用双向LSTM(长短时记忆)网络对序列进行建模。最后,采用CTC(Connectionist Temporal Classification)算法来解码生成最终的文本输出。CRNN处理时序数据能力强、复杂度较低,可以捕捉局部和全局特征。
通过收集作业环节不同版式表格样本,涵盖各种场景、字体、大小、颜色等,对数据集进行标注,如图4所示,按照6∶3∶1的比例划分为训练集、测试集和验证集。数据集训练过程中,采用监督学习的方式,通过最小化预测文本与真实标签之间的损失函数来优化模型参数。模型训练后,对包含CAS号、化学成分、含量等的结构文本识别准确率达98%以上。
AR眼镜扫描报关单号后经平台调取国际贸易“单一窗口”申报信息和商品“报危”信息,申报信息中的提运单号、运输工具名称及航次号关联外单位申报系统,辅助研判,AR眼镜识别组成成分后界面如图5所示。
2.2 危险货物包装标记释义
危险货物包装标记(UN标记)是用于证明包装、柔性散装容器、可移动罐柜货多元气体容器满足《国际海运危险货物规则》(IMDG)中的相关规定。本文采用基于YOLOv5的目标检测模型识别图片中UN标记区域,如图6所示,为后续的OCR处理作准备。
图6 UN标记位置检测
Fig.6 UN mark position detection
UN标记OCR部分依托百度飞桨平台实现,该平台提供一站式的智能标注、模型训练、服务部署等全流程功能。PP-OCRv4是PaddleOCR于2023年5月最新发布的超轻量文本识别模型,是一个两阶段的OCR系统,其中文本检测算法选用DBNet,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器,以应对不同方向的文本识别。
UN标记的特征多种多样,有的在同一行显示,有的跨越多行,甚至有的贴在柱状物体上导致拍摄角度弯曲,不同场景、角度和光照条件的影响,导致识别准确率可能产生一定的偏差。为了提高识别精准度,通过PaddleOCR开源套件训练模型对不同情况下的图片训练,逐步优化模型,从而提升UN标记识别的准确性和稳定性。AR眼镜中UN标记释义界面如图7所示,通过包装标记释义,可以辅助现场关员验核包装类型是否与申报一致。
图7 UN标记释义界面
Fig.7 UN mark definition interface
2.3 中文危险公示标签特征信息提取与审核
中文危险公示标签应符合GB 15258—2009《化学品安全标签编写规定》、《全球化学品统一分类和标签制度》(GHS)等标准的要求,至少包含化学品标识、象形图、信号词、危险说明、防范说明和供应商标识6项内容。中文危险公示标签特征信息提取属于多模态文档布局解析及内容理解(Doucment Layout Parse and Content Understanding,DLU)。实际业务中标签要素齐全但版式不统一,本文采用OCR模型、目标检测模型以及结构化信息抽取算法,协同完成标签信息的精准检测,从而实现对标签的智能化识别,流程如图8所示。
图8 中文标签识别流程
Fig.8 Chinese label recognition process
1)利用OpenCV图像处理算法库对输入的图像进行色彩模式转换、去噪处理、透视矫正、冗余部分裁切等精细化的预处理。
2)完成图片预处理后,进入象形图检测子流程。采用YOLOv5目标检测模型,针对GHS标准中规定的9个象形图进行数据标注和模型训练。利用训练好的模型,能够精确地获取标签中所有象形图的位置、尺寸以及编码信息,如图9所示。
图9 中文标签象形图识别
Fig.9 Chinese label pictogram recognition
3)象形图识别的同时,并行地对预处理后的图片进行文字OCR识别。采用PaddleOCR模型,提取标签中的所有文字信息,并获取每个文字的精确四点坐标信息。
4)对OCR模型得到的文字碎片(标签集)进行数据整合与处理,转化为结构化的文字段落,如图10所示。
①采用MD5算法为每个标签生成唯一性编码(文本+坐标值),确保在后续处理中能够准确识别与追踪每一个标签。②计算每个标签的内容宽度、内容高度、文字高度和文字宽度等属性。③采用矩形轮廓膨胀处理技术,对标签的边界进行拓展和优化,以修正OCR识别过程中可能出现的边界误差,提高标签定位的精度。④通过分析矩形标签之间的交叉重叠情况、文字大小、左侧间距以及水平关系等逻辑特征,将原始的OCR数据转化为结构化的文字段落。
5)在加工后的OCR段落数据中,通过关键字匹配对“危险”“警告”等警示词进行精准匹配。当OCR段落数据中的某个关键字与预设的警示词列表匹配成功,并且该关键字的字体大小大于标签中文字的平均字体大小时,判定为有效的警示词。
6)将jieba分词库作为分词和词性标注的工具[10],针对化学品名、危险说明、预防措施、事故响应、安全储存、废弃处置等类型的样本内容按词性提取专有名词,建立特征词库。对每个结构化段落文本和特征词库进行匹配,通过推理实现基于特征词库的文本段落分类。
7)提取后的各文本段落内容与后台数据库对应部分比对,实现中文标签关键信息的智能审核,其中文本信息采用语义相似度计算,如图11所示。
图11 中文标签智能审核界面
Fig.11 Chinese label intelligent review interface
8)基于每个标签识别不断积累分词库,实现分词库的自我补充和完善,并以这种“自学习”的方式实现更多类型标签的识别和词库收纳[11]。
3 “危感知”模式的实现及应用
3.1 “危感知”模式整体框架
海关对进出口危险化学品进行查验,重点关注商品与申报内容是否一致,是否存在瞒报、伪报、夹带以及走私等违规违法事项,确保进出口危险化学品的安全、卫生、健康、环境保护、防止欺诈等各方面符合我国及目的国相关法规要求。危险化学品数智监管平台数据来源包括内部数据和外部数据,集成基于深度神经网络算法的智能识别模型,整体框架如图12所示。
图12 “危感知”模式整体框架
Fig.12 Overall framework of the “danger awareness” mode
海关关员在查验单证和实货时,AR眼镜或平板对接平台图像识别接口,OCR识别报关单及随附单据结构化信息,实现与数据库关联信息进行自动检索匹配。AR眼镜摄像头会自动调节焦距,拍摄危险化学品包装中文标签、运输标记、UN标记照片,通过API请求,解析图片数据,调用模型算法进行识别,通过与数据库关键信息比对,智能审核安全公示要素,如图13所示。疑似伪瞒报提示、运输标签和中文标签审核结果、UN标记释义、理化数据等以AR形式呈现在海关关员视野中,通过语音即可进一步检索、匹配后台危险化学品数据源,获取专业支持。
图13 智能审核流程
Fig.13 Intelligent review process
3.2 “危感知”模式在海关属地查检工作中的应用
“危感知”模式立足监管实际需求,为一线提供了务实管用的智能辅助工具,目前在大连海关隶属金普海关湾里综合保税区开展试点应用,具体的应用效果如下。
1)有效提升查发能力。通过科技赋能,拓宽了海关获取、验证危险化学品信息的渠道,实现监管数据来源多源化,为海关精准识别商品信息提供多维度数据支撑,对危险化学品申报真实性的检查、核实能力进一步增强,大力提升防范“治、瞒、逃、偏、害”风险水平。
2)有效提升执法专业性。海关关员通过智能眼镜,自动抓取并准确识别报关单及安全数据表关键要素,降低人工作业时出现的遗漏和错误。通过多渠道数据源的构建,将危险化学品专业知识、实践经验全面数字化,补齐海关关员知识储备差异,为执法关员提供权威、便捷、高效的专业支持,有效防范海关执法风险。
3)有效提升执法效率。“危感知”模式实现了危险化学品的疑似HS编码、不合格记录、危化目录成分含量比例、成分品名与CAS号匹配性、中文标签和运输标签审核结果、UN标记释义、理化数据等信息的自动提示。拓展了危险化学品现场智能检查手段,大幅减少海关关员查询相关资料的时间,经测算,“危感知”模式下,审单作业时间可由原来10 min压缩至3 min,现场查验作业由15 min压缩至5 min,执法效率提升3倍以上,同时减轻了执法关员工作强度和压力。
4 结语
本文提出的“危感知”模式是大连海关根据危险化学品业务监管特点的探索,该模式破除了监管数据以企业申报为主的局限性,实现危险化学品监管与知识经验、智能装备的有机融合,有助于提升通关便利化水平,推动企业减负增效,营造更优营商环境。在后续工作中,随着样本数量的增加,安全公示要素识别算法对复杂样本查验的准确率会逐步提升。
参考文献
[1]张彩丽, 胡首鹏, 王洛高, 等. 进出口危险化学品监管工作质量提升初探[J]. 质量方法, 2023, 10: 58-61.
[2]徐玮. 上海市危险化学品政府监管中跨部门数据共享问题研究[D]. 上海: 华东师范大学, 2022.
[3]魏燕华, 陆梦, 龚旭平, 等. 人工智能赋能港口危险化学品安全监管及路径[J]. 中国港口, 2021(11): 57-59.
[4]王栋. 人工智能 OCR 技术的应用研究[J]. 电子技术与软件工程, 2022(1): 122-125.
[5]黄玮. 基于深度学习的表格识别系统的研究与实现[D]. 济南: 山东大学, 2022.
[6]刘曙. 多模态文档知识库问答研究及应用[D]. 上海: 华东师范大学, 2023.
[7]石杰, 郭亚男, 杨朝霖, 等. 基于多级网络的钢板表面喷码识别方法[J]. 冶金自动化, 2023, 47(6): 103-111.
[8]岳大磊, 梁柏俊, 肖前, 等. 危险化学品智能辅助系统的开发与应用[J]. 广东化工, 2021(19): 9-10.
[9] Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
[10]蒋瀚. 危化品领域专业分词库构建与应用研究[J]. 安全管理, 2022, 22(6): 66-70.
[11]祝永志, 荆静. 基于 Python 语言的中文分词技术的研究[J]. 通信技术, 2019, 52(7): 1612-1619.
图3 防爆AR眼镜(云眼3.0)
Fig.3 Explosion-proof AR glasses (CloudEye 3.0)
图4 训练数据标注
Fig.4 Training data annotation
图5 组成成分识别界面
Fig.5 Component identification interface
图10 标签文字信息提取
Fig.10 Label text information extraction