CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于DeepSeek的多智能体在海关危险化学品随附单证识别中的研究与应用
作者:邢军 黄孙杰 李珺 李军 王旭 吴佳明
邢军 黄孙杰 李珺 李军 王旭 吴佳明
邢 军 1 黄孙杰 1 李 珺 1 李 军 1 * 王 旭 2 吴佳明 3
摘 要 面对危险化学品随附单据在审单与查验环节中人工审核任务繁重的现状以及快速通关的需求,本文以深圳海关针对危险化学品进出口管理中随附单据审单与查验的研究为例,运用多模态智能识别算法及知识图谱技术,基于国产大模型DeepSeek-R1的671B、70B、32B多模型联合推理,研发并推出“危险化学品数据表单智能识别工具”。应用效果显示,该工具可有效提升危险化学品查验通关的自动化与智能化水平,为危险化学品进出口监管提供技术支撑。
关键词 危险化学品随附单据;数据表单智能识别工具;多模态智能识别算法;知识图谱技术
Research and Application of Multi-Agent Systems Based on DeepSeek in the Recognition of Attached Documentation for Dangerous Chemical Goods at Customs
XING Jun 1 HUANG Sun-Jie 1 LI Jun 1 LI Jun 1* WANG Xu 2 WU Jia-Ming 3
Abstract Faced with the heavy workload of manual review of attached documentation for dangerous goods in the review and inspection process, as well as the urgent need for expedited customs clearance, this paper takes Shenzhen Customs’ study on the review and inspection of attached documentation for the import and export control of hazardous chemicals as an example. By using multimodal intelligent recognition algorithms and knowledge graph technology, and based on multi-model joint inference of domestic large-model DeepSeek-R1-671B, 70B and 32B, an Intelligent Identification Tool for Dangerous Chemicals Data Forms has been developed and launched. The application of this tool significantly enhances the automation and intelligence of dangerous chemicals inspection and clearance, offering robust technical support for the import and export control of such chemicals.
Keywords attached documentation for hazardous chemicals; intelligent recognition tool for data forms; multimodal intelligent recognition algorithm; knowledge graph technology
基金项目:深圳市国外技术性贸易措施研究项目(242000023002316)
第一作者:邢军(1984—),男,汉族,湖北武汉人,本科,高级工程师,主要从事海关信息化工作,E-mail: 83302308@qq.com
通讯作者:李军(1975—),男,汉族,四川雅安人,本科,主要从事海关信息化工作,E-mail: 54678872@qq.com
1. 深圳海关信息中心 深圳 518000
2. 深圳大学 深圳 518000
3. 河南科技大学 洛阳 471023
1. Shenzhen Customs Information Center, Shenzhen 518000
2. Shenzhen University, Shenzhen 518000
3. Henan University of Science and Technology, Luoyang 471023
面对危险化学品进出口业务体量大、种类繁杂、伪瞒报现象频发的现状,以及企业“快审”“快查”“快放”的需求,本研究团队基于“大数据+大模型”技术,以高质量数据为训练基础,突破传统算法在风险识别、趋势预测等复杂场景中的局限性,探索将大模型与海关业务场景中的口岸查验深度耦合,通过应用多智能体新技术-来解决这些问题。
1 技术路线
为持续推进海关大数据的深化应用,深圳海关信息中心联合深圳大学研发团队利用数据、计算以及图形处理器(Graphics Processing Unit,GPU)资源的显著优势,基于6710亿(671B)、700亿(70B)、320亿(32B)多种不同参数总量的大模型联合并发推理,研究随附单据智能识别的业务难题。
1.1 基于DeepSeek的大模型设计思路
1.1.1 推理模型选型
推理模型选型 (DeepSeek-R1)是我国科技公司开源的通用人工智能(Artificial General Intelligence,AGI)推理模型,擅长处理复杂任务且可免费商用。其功能可以直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。如图1所示,本研究团队选择DeepSeek-R1版本,因其具备强大的推理能力、低成本高效益、开源灵活性和数据安全等特性,同时硬件要求低,适合低成本训练应用以及本地化部署。
1.1.2 任务分解的提示语链设计
任务分解的概念源于问题解决理论和系统工程学。将任务分解应用于提示语设计,实际上是在模拟人类处理复杂问题的方式。这种方法主要以分而治之原则、层级结构理论以及认知负荷理论作为其理论基础。为了更好地理解和设计提示语链,可采用CIRS模型。这个模型概括了提示语链设计的4个关键环节,其中,Context(上下文)确定任务所需的上下文信息,包括数据输入、背景知识等;Instruction(指令)根据上下文信息,给出具体的指令或操作要求;Refinement(优化)对初步结果进行优化和调整,以提高准确性和适用性;Synthesis(综合)将优化后的结果进行综合,形成最终的输出或决策,如图1所示。
1.2 智能比对系统
该系统能够自动比对包装标签、安全数据表单、公示标签声明、企业符合性声明等4种单据,配合海关新一代查验管理系统使用,实现了危险化学品实物、安全数据表单、危险化学品公示标签、企业符合性声明的四单一致性比对,大幅减轻审单压力,极大地提高了工作效率和准确性。同时,引入GPU运算,实现通关单证审核批量预处理,这一改进将每单危险化学品随附资料审核由小时级压缩至2 min,大幅缩短业务现场审单时长,实现实时验放,不仅为企业大幅节省了时间,还让企业能够更加高效地开展贸易活动,提升了整个贸易流程的流畅性和时效性。
此外,本研究团队还利用大数据分析等技术,建立危险化学品伪瞒报风险评估模型,及时识别随附单据中的潜在风险信息,自投入使用以来,已经成功查发并处置了3起案件,有效提升了海关防控能力,引领全国海关危险化学品监管智能化升级。
2 多智能体研发应用
基于以上技术,团队联合研发了一个基于知识图谱增强的海关危险化学品数据表单识别多智能体识别工具。该工具综合应用了图像处理、象形图和文字识别、知识图谱、大模型和智能体协同学习等技术,实现了对随附表单的感知、提取、推理和识别的复杂认知计算,为危险化学品的风险评估和管理提供了全面、准确的数据支持,为后续的风险分析和处置措施提供了数据量化基础。
2.1 随附表单拓扑结构识别智能体
随附表单在拍摄和扫描过程中,原始表单会发生扭曲变形和图片噪声,图片表单包含样式、纹理和印章等复杂结构,传统的逐行识别技术难以识别表单的结构内容。该智能体首先采用图像处理方法,去除表单图像的水印、印章、手写签名、折痕等干扰项,接着应用图像纹理映射算法,将扭曲的表单图片展平成规则平面,最后结合预训练的端到端表格检测识别网络,实现复杂表单章节和表格布局结构、层次拓扑结构的识别和信息提取,提高表单识别的全面性和准确性。
2.2 象形图和文字识别智能体
危险化学品表单象形图识别智能体通过快速端到端的目标检测深度学习算法,在随附表单中同时准确定位和判别危化品象形图标,实现危化象形图像识别能力。
危化品表单文字识别智能体集成应用了文本检测、文本检测框校正和文本识别技术,实现了一体化的超轻量级光学字符识别(Optical Character Recognition,OCR)技术。其中,文本检测能力通过可微分二值化方法,实现基于简单分割网络的文本检测器;文本检测框校正能力通过使用基于回归的校正方法,解决文本检测时出现的框偏移问题,实现文本框的精准识别;文本识别能力通过应用卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN),实现高效识别图片中序列化文本数据。
2.3 危险化学品垂直领域知识图谱
危险化学品垂直领域知识图谱-首先利用海关沉淀的历史数据,如报关单数据、查验结果数据等,提取危险化学品关键的品名、品牌、成分、危险性说明、危险类别、UN编码(United Nations Number,联合国危险货物运输专家委员会为危险物质制定的唯一标识编号)、预防性措施、企业信息等,通过抽取危险化学品单据识别关键实体,构造危险化学品知识关系网络。然后,结合实体对齐和实体消歧技术,实现同类实体的识别与合并,完成危险化学品垂直领域的知识图谱构造。危险化学品表单识别过程中,基于危险化学品知识图谱中积累的先验知识,对拟识别的危险化学品随附表单的品名、品牌、成分、危险性说明等关键要素识别内容的缺失项、错误项、模糊项等进行推理,大幅提升智能体在复杂、噪声识别环境下对随附表单的认知推理准确率和工作效率。
2.4 知识图谱增强的大模型推理智能体
在处理复杂表单和模糊文本时,常常受到字符错误识别和语义理解不足的限制,大模型推理智能体具备强大的自然语言处理能力,能够理解文本的上下文并进行复杂的语义推理。针对复杂场景中OCR算法识别精度不稳定的挑战,智能体可以对识别出的文本进行语义分析,根据上下文消除潜在错误。例如,在识别化学成分和危险性说明等关键要素时,智能体可以通过预测下一个可能出现的词语,主动纠正OCR识别中的不准确之处。
危险化学品垂直领域知识图谱包含高质量的先验知识,如常见的危险化学品申报要素和随附表单实体节点、属性及关系网络。知识图谱增强的大模型推理智能体-,通过比对识别出的词语与知识图谱中的数据,智能体能够自动纠正常见的字符误识,特别是专业术语和易混淆词汇的识别,辅助纠正大模型出现幻觉的弊端,这种智能体不仅能够提高文本识别的准确性,还能赋予表单识别工具更强的语义理解和推理能力。
2.5 多智能体协同的风险评估与预警
危险化学品数据表单智能识别的场景中,多智能体协同的风险评估与预警系统通过各智能体的分工协作,实现对危化品信息的精确识别和动态风险监控。首先,随附表单拓扑结构识别智能体对目标表单进行图像预处理和表单拓扑结构识别,精准分割拟识别的对象区域。接着,象形图和文字识别智能体分别对表单中的目标图像和文字进行提取,如危险化学品象形图、危险化学品化学成分等。随后,结合知识图谱增强的大模型推理智能体、知识图谱智能体会验证这些提取的数据,确保其准确性和一致性,并识别潜在的异常信息,例如针对不规范的危化品描述或错误的分类。风险评估智能体协同以上智能体的输入,结合历史查获记录、影子商品特征、天气数据等多种因素,构建危险化学品伪瞒报和涉危货物安全风险评估模型。实时对危险化学品风险的全面评估,并发出风险提示,帮助海关及时采取防控措施。
3 应用效果
自“危险化学品数据表单智能识别工具”在深圳海关所属皇岗海关投入测试以来,其高效能得到了充分验证。目前,该工具已具备信息自动提取与自动核对功能,支持每日快速识别申报单证文件超过3万页,识别准确率超过95%以上。另外,经于皇岗口岸进行实测,审单时间及效率实现了跨越式提升,有效减少在检危险化学品滞留口岸时间,大幅提升关区危险化学品智慧检验监管水平,有效降低了安全风险,更为查验科室释放了人力资源。智能提示功能还查发处置了多起案件,展现了研究的技术支撑作用。
除了显著提升了通关效率,该智能识别工具还通过搭建危险化学品伪瞒报和涉危货物安全风险评估模型,为海关提供了强大的风险预警能力。这一模型综合考虑了多种关键因素,如货物性质、来源地、目的地以及历史违规记录等,对危险化学品所带来的风险进行全面而精准的评估。它通过实时发出的风险提示,能够及时采取预防措施,从而有效增强了海关对危险化学品风险的预判和防控能力。
4 结语
随着该智能识别工具的持续优化与广泛推广应用,可以预见,未来海关在保护国家安全和促进贸易便利化方面将发挥更加重要的作用。下一步,研究团队将继续围绕海关业务部门的难点、痛点需求,持续推进大数据、人工智能赋能深度合作,以危险化学品随附单证比对和查验机器人单证识别需求为抓手,持续开展多模态融合感知、多模态知识图谱构建、多模态推理与人机交互等关键技术的研发和赋能,构建海关多模态“智慧大脑”的底座。同时,积极探索海关业务全流程“数据闭环”理念,自研业务流程数据闭环工具链,实现业务数据从采集到治理、从算法训练与部署到前端交互的全流程自动化,推动涵盖终身学习和持续进化的具身多模态“智慧大脑”在海关各业务的赋能,以提高数据挖掘水平,强化数据分析能力,为海关工作提供有力支持。
参考文献
[1]毕晓彬, 程超. 浅谈射频识别技术(RFID)对危险化学品的管理和管控[J]. 天津化工, 2024(38): 122-124.
[2]万可风, 高月, 张宏哲, 等. 光谱检测方法在危险化学品识别中的应用[J]. 安全、健康和环境, 2022, 22(8): 1-6.
[3]魏燕华, 陆梦, 包叶群, 等. 人脸识别技术在港口危险化学品安全监管中的应用[J]. 中国水运(下半月), 2022, 22(6): 26-28.
[4]孟岩舟, 王祥, 尹洧. 危险化学品的信息化、智能化监管[J]. 安全, 2021, 42(3): 31-35.
[5] Efendi Y, Wanto A H, Domai T. Analysis of Supporting and Inhibiting Factors in the Supervision of Importation of Dangerous Goods[J]. Pena Justisia: Media Komunikasi dan Kajian Hukum, 2024, 23(3): 2353-2363.
[6]管晓倩.海关危化品信息化监管问题及对策研究[D]. 上海: 上海海关学院, 2023.
[7] DeepSeek-AI, Guo D, Yang D, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[J/OL]. https://arxiv.org/abs/2501.12948.
[8] Okur F B, Eyüpoğlu C. Dangerous Goods Detection and Warning Approach Based on Image Processing Techniques[J]. Turkish Journal of Science and Technology, 2025, 20(1): 235-248.
[9] Zhang Q, Wen Y, Zhou C, et al. Construction of knowledge graphs for maritime dangerous goods[J]. Sustainability, 2019, 11(10): 2849.
[10] Zheng X, Wang B, Zhao Y, et al. A knowledge graph method for hazardous chemical management: Ontology design and entity identification[J]. Neurocomputing, 2021, 430: 104-111.
[11]张成辉, 罗景, 涂新辉, 等. 基于大语言模型的语料库查询自动生成方法[J/OL]. 计算机工程, (2024-10-11)[2025-04-29]. https://link.cnki.net/urlid/31.1289.TP.20241010.2014.001.
[12]张学飞, 张丽萍, 闫盛, 等. 知识图谱与大语言模型协同的个性化学习推荐[J]. 计算机应用, 2025, 45(3): 773-784.
[13]唐晓晟, 程琳雅, 张春红, 等. 大语言模型在学科知识图谱自动化构建上的应用[J]. 北京邮电大学学报(社会科学版), 2024, 26(1): 125-136.
[14]王春雷 ,王肖, 刘凯. 多模态知识图谱表示学习综述[J]. 计算机应用, 2024, 44(1): 1-15.
图1 CIRS模型设计图示
Fig.1 CIRS model design diagram
图2 大模型推理智能体自然语言处理能力
Fig.2 Natural language processing ability of large-model inference agent
危险化学品垂直领域
知识图谱