CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
海关大数据知识图谱构建技术及应用
作者:赵碧君1 信 鸽1
赵碧君1 信 鸽1
摘 要 海关业务改革的不断深化对海关管理提出了新的要求。本文结合信息爆炸时代海关管理面临的挑战及业界知识图谱的应用情况,全面分析了在海关管理中引入知识图谱的必要性,提出了海关大数据知识图谱的构建技术流程及应用场景,旨在为智慧海关建设提供参考。
关键词 大数据;知识图谱;构建技术流程
Construction Technology and Application of Customs Big Data Knowledge Graph
ZHAO Bi-Jun1 XIN Ge1
Abstract The deepening of Customs business reform has put forward new requirements for Customs management. Combining the challenges faced by Customs management in the era of information explosion and the application of knowledge graph in industry, the paper comprehensively analyzes the necessity of introducing knowledge graph into Customs management, and proposes the construction process and application scenarios of Customs big data knowledge graph, aiming to provide reference for the construction of smart Customs.
Keywords big data; knowledge graph; construction process
2017年7月,国务院发布《新一代人工智能发展规划》,明确“建立新一代人工智能关键共性技术体系”,首先提出建立“知识计算引擎与知识服务技术”,强调要“重点突破知识加工、深度搜索和可视化交互核心技术”,“形成涵盖数十亿实体规模的多元、多学科和多数据类型的跨媒体知识图谱”。当前我国外贸迅猛发展所带来的进出口业务量骤增对海关监管服务提出更高要求,同时,海关信息化建设不断加快所集聚的海量数据也为海关传统数据管理及应用模式带来新的挑战,如何有效打破各类结构复杂的业务数据间的信息壁垒,快速从海量数据中获取关键信息,最大程度挖掘数据的隐藏价值,打造“管得住、放得开、效率高”的智能化海关监管服务体系,成为海关业务管理中亟须解决的问题。海关“十三五”规划明确指出,要运用大数据技术提升海关管理智能化水平;《海关全面深化业务改革2020框架方案》明确指出,要“依托大数据、情报信息、人工智能和专家研判等,强化人工风险分析,突出布控精准性”。通过建立海关各业务领域知识图谱,梳理海关通关业务各主体间的关系,将碎片化的业务知识进行有效整合形成统一的知识体系,将为海关业务分析提供一种新思路,对实现海关管理由人工转向智能具有重要意义。
1 构建海关大数据知识图谱的必要性
知识图谱(Knowledge Graph)作为人工智能从感知智能向认知智能进阶的关键技术组成部分,最早由Google出于优化搜索结果的目的于2012年提出,随后便在工业界与学术界受到广泛关注。知识图谱是一个将现实世界映射到数字世界、由节点和边组成的语义网络,其中,节点代表现实世界中的实体或概念,边代表实体的属性或实体间的关系。与传统的数据管理及应用模式相比,知识图谱具有以下优势[1]。
1.1 重构数据价值,实现对多源异构数据的统一、规范管理
海关信息化建设的快速发展为海关各业务系统集聚了海量数据,其中包括文本、图片、视频等。目前海关虽已初步建成大数据资源平台,但平台内的数据仍以结构化数据为主,海关监管过程中产生的大量音视频、文本等非结构化数据仍分散在不同业务系统中无法得到有效利用。知识图谱作为一种新型的知识表示与数据管理模式,其本质是结构化的语义知识库,逻辑上由模式层与数据层构成。其中,模式层类似于关系型数据库中的表结构。通过模式层统一确定和规范知识图谱中的本体、本体属性及本体之间的关联关系;然后针对模式层,采用知识抽取技术对分散在各系统中的结构化数据、半结构化数据、非结构化数据进行高度提炼融合,形成包含大量先验知识的结构化、高度关联的高质量知识体系,可以有效解决多源异构数据源数据不一致、不完整等问题。
1.2 创新数据应用模式,提供从“关系”角度分析解决问题的能力
目前海关业务人员对数据的应用模式仍主要基于传统的关系型数据库,通过关联多张结构化的数据表开展分析工作。该模式不仅对海关业务人员的技术水平有一定要求,同时也不利于快速直观地从海量数据中定位有用信息。而海关知识图谱通过将碎片化的信息进行充分融合,建立起数据之间的关联关系,形成海关通关业务各主体间的巨大关系网络,并以图形化的方式进行展示,可以很好地帮助业务人员准确、快速、直观地从海量数据中发现内在规律、找出关键信息。同时,以利用知识图谱相关技术形成的结构化网络为基础,借助知识推理、图计算等,业务人员可以从“关系”出发,挖掘复杂关系中隐藏的潜在关系,从而发现新线索。
1.3 赋予机器认知智能,提高人机协同解决问题的精准性
机器学习模型虽已被广泛应用于海关各业务领域的风险监测与防控,但其预测结果的准确性严重依赖大规模的标注数据,且预测结果缺乏可解释性。因此,要实现更高级别的人工智能,提高机器预测的可解释性,必须让机器具备理解和解释能力,而这种能力的获得与知识库密不可分。通过知识图谱形成的包含实体、关系、属性的符号化知识结构,不仅符合人类的思维模式,同时也能很好地满足机器理解与解释数据的需求。基于知识图谱性的知识,机器可以更加精准地理解用户需求,并针对需求提供更加可靠可用的决策辅助。
2 海关大数据知识图谱构建技术流程
知识图谱的构建目前主要有两种模式:一种是自底向上(Bottom-Up)的方法,利用知识抽取技术自动得到数据层,再由数据层抽象出模式层,适用于没有完整知识体系的数据,通用知识图谱的构建多采用该模式;另一种是自顶向下(Top-Down)的方法,先构建模式层,再利用知识抽取技术对模式层进行数据填充得到数据层,适用于知识体系完备的数据,领域知识图谱的构建多采用该模式。海关大数据知识图谱属于领域知识图谱,主要采用自顶向下模式进行构建,涉及知识建模、知识抽取、知识融合、知识存储及知识应用等5个阶段[1-4](具体流程详见图1)。
图1 海关大数据知识图谱构建技术流程
Fig.1 Construction Process of Customs Big Data Knowledge Graph
2.1 知识建模
知识建模是建立知识图谱模式层的过程。该过程需要工程师与业务专家不断交互,根据业务特点,抽象出本体、属性、关系等信息,涉及节点及节点属性标签确定、关联关系设计等步骤。
2.2 知识抽取
知识抽取是指从不同来源、不同结构的数据中提取知识,并存入知识图谱的过程,包括实体抽取、关系抽取与属性抽取,是构建知识图谱的重要环节。知识图谱的数据源主要包括三类:一是结构化数据,包括关系型数据以及开放链接数据;二是半结构化数据,包括各类百科数据等;三是以文本为代表的非结构化数据。目前结构化数据和文本数据是知识图谱最主要的知识来源。
知识抽取一般通过图谱构建工具实现,涉及自然语言处理、深度学习等技术。
2.3 知识融合
知识融合是指将不同来源的知识进行对齐、合并,形成全局统一的知识标识和关联。通过知识融合可以有效解决不同数据源知识重复、知识间关联不够明确等问题,提高知识质量及应用价值,是确保知识质量的重要步骤。
2.4 知识存储
知识存储是对构建完成的知识图谱设计底层存储方式,完成知识存储。知识存储方式的选择直接关系到知识图谱的应用效率。目前知识存储主要有三种模式:第一种是基于RDF的存储,该模式以三元组方式存储数据,常用数据库包括RDF4J、gStore、GraphDB等;第二种是基于原生图数据的存储,该模式以属性图方式存储数据,常用数据库包括Neo4j、JanusGraph、OrientDB等;第三种是基于关系数据库的存储,该模式以表格的形式存储数据。
2.5 知识应用
知识图谱应用是指将知识图谱特有的应用形态与领域数据和业务场景相结合,辅助业务开展。知识图谱的应用依赖于图的挖掘计算与知识推理等技术。
3 行业典型应用范例
知识图谱为多源、异构、动态海量数据的表达,管理及应用提供了一种更为有效的方式。国内关于知识图谱的研究虽仍处于起步阶段,但已在金融、医疗、司法、电商、政府管理等领域得到了广泛应用并取得成效。
3.1 服务政府管理,助力疫情防控与复工复产
面对严峻复杂的新冠肺炎疫情形势,为满足国家在疫情防控与复工复产方面的迫切需求,以国家卫生健康委员会、交通运输部、铁路总公司等单位提供的权威数据作为数据源,利用知识图谱技术,围绕病例、疫区、交通工具和活动地点等本体建立疫情知识图谱,通过个人密接情况查询、基层住户健康情况精准管控、交通站点流动人员健康情况自动识别、企业员工健康状态掌握等服务,及时发现感染病例,为政府、企业及个人的疫情防控与复工复产提供参考依据。
3.2 服务公共安全,筑牢平安中国的社会治理防线[3]
近年来,在公共安全领域的很多案件中不难发现,犯罪分子作案手法愈发隐秘,案件破获的难度也越来越大。围绕公共安全领域重点关注的人、事、地、物、组织、虚拟身份等本体,以案件、轨迹、通讯、社交、个人背景、工商、税务、银行交易等信息为数据源构建公共安全知识图谱,借助知识推理帮助警务人员快速掌握涉案人员关系,推理预测涉案人员家庭、社交、隐藏关系人等情况,快速、精准锁定目标。
3.3 服务公众健康,实现寻医问诊足不出户[1]
医学知识博大精深,医疗领域专家在实践过程中积累了丰富的临床经验,并针对各类疾病形成了完整的知识体系。围绕疾病、症状、药品、临床路径、医生等本体构建医学领域知识图谱,可以帮助患者快速查询到与所关注疾病相关的临床表现、治疗方法等;通过挖掘症状与药品、症状与体征、症状组合与药品之间的关系等,帮助临床医生进行决策。
4 海关应用场景举例
围绕海关业务中涉及的企业、人、运输工具、口岸、国家地区、商品/物品、执法信息等对象,充分融合海关内外部包括外汇、报关单、提运单、工商总局企业注册登记、互联网文本等各类信息,构建海关大数据知识图谱,可以有效协助海关业务人员快速准确地发现关键信息,实现海关监管服务中效率与安全兼顾的目标。
4.1 进口商品风险甄别与防控
通过梳理整合境外疫情疫区信息、进境食品和化妆品风险信息、进出口商品假冒伪劣及知识产权侵权风险信息、海关内部企业注册信息、海关检验检疫要求、货物通关等数据,形成包括进口冷链商品检验、危化品检验、食品和化妆品检验、知识产权侵权、假冒伪劣商品检验等在内的进口商品检验检疫知识图谱,海关业务人员可以通过知识图谱检索及时了解全球疫情疫区变动情况、不同商品检验检疫要求、知识产权侵权、假冒伪劣商品种类及产销地等;通过图谱拓展,从特定商品出发,准确直观地获取相关商品的轨迹及企业信息,并利用图计算等技术,迅速掌握商品携带疫情的几率,有效阻止传染病和检疫性有害生物的传播。此外,海关业务人员可以通过图谱的关联性直观获取假冒伪劣商品的产销地及收发货企业等情况,提前在准入阶段对风险较高的商品进行布控,实现精准打击。
4.2 跨境电子商务商品进口征税
以海关内部与跨境电子商务相关的进口商品订单、支付单、运单、商品征税税率及外部的商品条形码等信息为数据源,以商品、订购人、电商平台、电商企业等为本体,构建跨境电子商务商品进口征税知识图谱。通过对知识图谱进行一致性检验,海关业务人员可以从特定风险点出发,快速定位到与该风险点相关的订单、企业、商品;通过图形化的方式展示同一商品条形码所对应商品的申报计量单位的差异,帮助海关业务人员精准定位到存在偷逃税风险的商品或企业。
4.3 防范团伙走私
围绕通关过程中涉及的企业、人等对象,以海关内外部的企业注册、吊销等信息,建立企业与企业、企业与人、人与人之间的关系图谱。以此为基础,从特定的商品、运输工具等线索出发,借助知识挖掘、知识推理、社群检测等技术,海关业务人员可以快速发现相关线索所涉及主体间的潜在关系及关系的亲密程度,找到具有异常通关行为的团体,进而锁定作案对象。
5 结语
通过建设海关大数据知识图谱,不仅可以有效整合海关各业务领域的各类数据资源,沉淀专家经验,直观展示海关通关业务中各个主体之间的关系,为海关管理提供新模式、新思路,同时基于知识图谱开展机器学习,可以进一步提高模型预测结果准确性与可解释性,为实现“智慧海关”提供“脑力支持”。未来知识图谱必将在推进海关治理能力和治理体系现代化建设进程中发挥重要作用。
【该文经CNKI学术不端文献检测系统检测,总文字复制比为6.2%。】
第一作者:赵碧君(1988—),女,汉族,山西人,硕士,高级数据分析师,主要从事进出口数据分析、建模相关工作,E-mail:bijunzhao@qq.com
1.全国海关信息中心(全国海关电子通关中心) 北京 100005
1. National Information Center of GACC(National E-Clearance Center of GACC), Beijing 100005
参考文献
[1]王昊奋,漆桂林,陈华钧.知识图谱方法、实践与应用[M].电子工业出版社, 2019: 1-270, 420-461.
[2]马忠贵,倪润宁,余开航.知识图谱的最新进展、关键技术和挑战[J].工程科学学报, 2020, 42(10): 1254-1266.
[3]周鹏,胡运涛,苗世茂.知识图谱在公安领域的构建与应用研究[C].第八届中国指挥控制大会论文集, 2020: 378-384.
[4]雷瑛,李军让,曾熠,等.多源数据融合的军事知识图谱构建[C].第八届中国指挥控制大会论文集, 2020: 220-225.
(文章类别:CPST-A)