CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
海关大数据资源一体化管理与共享架构的研究
作者:徐龙宁 何长庚 孙建明
徐龙宁 何长庚 孙建明
摘 要 本文围绕海关大数据资源管理、大数据资源共享一体化的要求,研究海关跨集群、跨平台、跨地域的大数据资源管理、大数据资源共享的新架构。该架构以数据资源目录为基础,构建全国海关大数据资源“一本账”,实现全国海关大数据资源一体化共享。同时,强化海关大数据应用服务保障能力,助力形成横向打通、纵向贯通、一体化、智能化的数据共享、数据管理新格局。
关键词 大数据;数据资源目录;数据资源管理;数据资源共享
Research on Integrated Management and Sharing Architecture of Customs Big Data Resources
XU Long-Ning 1� HE Chang-Geng 1 SUN Jian-Ming 1
Abstract Based on the requirements of the integration of customs big data resource management and big data resource sharing, this paper studies the new architecture of customs big data resource management and big data resource sharing across clusters, platforms and regions. By establishing a data resource catalog as the foundation, the research aims to create a “unified registry” for nationwide customs big data resources, achieving integrated sharing across China’s customs system. It emphasizes enhancing big data application service capabilities to facilitate the establishment of a horizontally integrated and vertically connected intelligent data sharing and management ecosystem, ultimately forming a new pattern that combines horizontal coordination with vertical connectivity in data governance.
Keywords big data; data resource catalog; data resource management; data resource sharing
近年来,国家发布相关文件指出加快建设全国一体化政务大数据体系[1],推进各部门政务数据平台与核心枢纽对接。当前,海关总署深入推进大数据信息化建设,直属海关按照有关要求陆续建设了关级大数据平台,在此背景下,数据交互需求变得更加迫切。此外,海关关于“十四五”大数据应用规划的有关要求中也提出,建立海关大数据资源目录,完善数据统一管理,实现海关大数据资源一体化共享。本文基于海关信息化建设工作要求,研究跨集群、跨平台、跨地域的海关大数据资源管理、数据资源共享新架构,为数据管理人员、开发人员、分析人员提供“管数、找数、看数、用数”统一平台,以标准化的数据服务满足各种精细化需求,支撑海关大数据资源一体化共享,为智慧海关建设提供技术支持。
1 海关大数据建设概述
海关总署构建了业务网大数据基础设施,汇聚海关内外部数据形成了总署层面大数据池。直属海关自主构建本级大数据平台,汇聚海关总署下发、本地产生和外部获取的数据,开展数据采集、加工、清洗,并建立相应的智能模型应用。海关总署、直属海关大数据资源存储在不同地域、不同平台,数据来源广泛、治理整合难度较大,需要建设统一数据服务门户,完善数据资源目录编制标准,提升总署与直属海关之间安全、高效、便捷双向流动能力,更好服务全国海关大数据应用[2]。
伴随海关大数据建设,大数据应用已取得显著成效,在智能化监管、便利化通关、风险防控及数据共享协作等方面发挥了重要作用。但是,数据共享、数据服务仍然在多个平台以不同的技术体系开展,增加了数据应用难度。现有大数据应用多基于账号直连方式使用数据,上层应用和底层平台耦合度较高,全国海关剧增的大数据应用需求必将给数据服务保障带来更大挑战。
另外,随着全国一体化政务大数据体系建设推进,海关总署不断推进政务数据资源开放共享,充分释放海关公共数据要素潜能,与国家政务服务平台对接,有效扩大公共数据供给。目前,直属海关直接申请、使用国家政务服务平台数据资源存在一定困难,需完善总署与直属海关之间数据通道,支撑国家政务服务平台资源直达基层,高效、便捷服务直属海关数据应用。
2 相关技术实践的研究
为探索全国海关一体化数据资源管理与共享新架构,本文研究了数据资源管理与数据共享相关技术实践。在大数据背景下,充分利用大数据等信息化技术手段,加强政务信息资源统筹整合,在跨部门和跨层级的信息资源交换共享基础上,为公众提供一站式服务[3]。建设统一的政务数据共享交换平台,有效实现政务不同数据库之间的交换,为各政务部门提供统一的信息跨部门应用能力[4]。
数据编织和数据网格均注重于数据发现、数据访问和数据整合,将分散的数据资源整合为一个统一的数据视图,可以解决海关数据资源分布不同地域、不同平台的问题,使其能够将可信数据从所有相关的数据源以灵活的、业务可理解的方式推送给需要的人,让“人找数据”变为“数据找人”[5]。隐私计算在保护数据的同时可以实现安全的数据处理和数据分析,需要可信的硬件和执行环境[6]。海关内部数据共享,具备隐私计算安全的相关保障条件,因此应用隐私计算的必要性不强。
数据虚拟化技术将数据资源封装为数据服务,以一种抽象和统一的方式访问和查询分散在多个数据源中的数据,而无需将数据复制或集中存储。数据虚拟化将多个数据源的数据视为一个逻辑统一的数据源,将数据表示为抽象的数据模型,使用户能够以更简单的方式理解和使用数据[7]。数据目录包括业务元数据、技术元数据、管理元数据,将不同类型、不同层次的数据按照一定的分类体系进行编目,用以描述数据的特征,实现数据检索、数据取用方便。规范的数据目录建设可以体现数据的连接和发现能力、协作和分享能力、检索筛选和自组织能力、安全和开放能力[8]。
3 体系架构设计
3.1 总体设计思路
本研究参照数据编制、数据网格、数据虚拟化、数据目录的技术,将全国海关不同平台、不同地域的大数据资源一体化、标准化进行编目,编制的资源目录形成逻辑统一的海关大数据资源池,一体化、智能化服务全国海关大数据应用。坚持“数据可用不可见”“数据安全可控”原则,优先提供标准化数据共享服务,数据共享支持行列灵活控制,总署与直属海关数据管理、数据安全边界清晰。总体设计思路如图1所示。
根据本研究设计的全国海关“两级”数据目录架构,海关总署管理使用总署数据目录、直属海关上报数据目录;直属海关管理使用本级数据目录、总署下发数据目录。目录承载数据管理,以数据分类分级、数据一数一源为基础,建立数据资源目录体系,实现海关大数据资源的统一组织、动态更新。目录驱动数据共享,以数据资源目录为载体,挂载物理数据资源,驱动数据在海关总署和直属海关之间双向快速流动。
3.2 总体架构
海关大数据资源一体化平台采用“1+N”两级架构。其中,“1”是指海关总署核心节点,是海关数据资源管理的总枢纽、数据服务的总通道;“N”是指N个直属海关子节点,支撑本关区数据资源目录编制、数据资源管理、数据共享服务等,并与核心节点实现目录互联、数据互通。支持跨地域、跨平台数据资源管理能力、数据共享服务能力,可实现与大数据平台对接。直属海关没有本级大数据平台,无数据管理需求,仅部署前置节点,支撑与总署的数据共享。总体架构如图2所示。
3.2.1 数据服务门户
数据服务门户提供数据资源“一本账”展示、“一站式”申请、“一平台”调度,支持数据资源目录展示和检索、资源申请和审批、统计管理、通知公告等功能。
3.2.2 数据目录管理
支持对大数据平台数据资源进行编目、修改、发布、撤销;支持在线编目、目录导入等灵活数据编目方式;支持目录探查,当数据资源发生变化时,及时更新数据资源目录并同步到直属海关。
3.2.3 数据共享交换
提供跨平台、跨地域一体化的数据服务共享能力,与全国海关的大数据平台对接,通过接口调用、库表推送、文件推送等方式将各节点数据资源灵活便捷地共享给各节点上层应用。支持低代码数据服务开发,具备数据安全控制、数据服务快速构建能力。
3.2.4 节点级联管理
海关总署核心节点展示所有级联节点的拓扑图及数据共享链路情况(接口、库表、文件等链路及各链路业务负载统计)。该节点可以将发布的数据资源目录下发至直属海关,若撤销,直属关节点不再展示已下发资源目录,对应数据链路断链。直属海关节点上报目录到海关总署节点,海关总署可将其下发至其他直属海关节点。
3.2.5 安全保障
提供数据分类分级、敏感数据识别、数据脱敏、安全审计等数据安全防护能力,支持系统IP访问控制、请求业务参数管理、“黑白名单”管理、服务流量控制。支持从服务和应用两个维度、从不同的时间周期进行限速,达到限速阈值后邮件告警。保障数据推送、数据汇聚等共享服务数据安全性,满足数据全生命周期安全防护的要求。
3.2.6 管理机制
构建标准统一、管理协同、安全可靠的全国海关一体化大数据资源管理制度及共享规范,解决数据管理机制不健全、数据供需对接不顺畅等问题,促进全国海关大数据资源依法有序高效流动。设置不同数据资源管理角色,负责数据资源目录维护、数据资源审批等。
3.3 两级架构必要性分析
本文从海关大数据应用全局出发,面向海关总署、直属海关两级数据应用,通过统筹全国海关大数据资源分布、研究一体化的数据共享和使用模式,设计“海关大数据资源一体化平台”。具体而言,数据服务门户是全国海关数据资源共享事项办理的集中交互载体,解决数据资源“找得到”的问题。数据目录管理将分布在不同平台的数据资源,形成接口、库表、文件、实时数据流等不同类型数据资源目录,助力构建海关大数据资源一本账,解决数据资源“看得懂”的问题。数据共享服务包括数据查询、数据推送、数据汇聚等服务能力,支持数据资源跨区域、跨层级、跨平台共享流通,支撑海关大数据共享服务融入全国一体化政务大数据体系,解决数据资源“用得上”的问题。
在管理方面,两级架构满足直属海关管理关级数据资源、按需上报直属海关数据目录到海关总署的需求,也能确保数据安全管理边界清晰,降低发生单点故障的可能性。在便捷使用方面,直属海关应用通过本地节点用数,便于及时应对关级灵活多样的数据应用需求。在网络安全方面,两级架构能大幅降低网络安全风险,只需开通海关总署节点和直属海关节点之间的防火墙。在数据安全方面,两级架构能实现节点之间双向通道均是加密传输,符合数据加密安全要求。
4 典型应用场景
海关大数据资源一体化平台支撑海关总署、直属海关开展一体化数据资源管理、数据共享应用,涵盖数据接口服务、数据推送服务、数据汇聚服务等七大应用场景。
4.1 海关总署与直属海关之间接口方式共享流程
在海关总署节点,对数据资源进行编目,将数据资源一键转化为接口服务挂载到目录下并发布为接口类资源,按需将审批的目录下发至直属海关。在直属海关节点,展示海关总署下发目录并申请数据。数据申请信息同步到海关总署节点,经审批通过后,接口服务自动代理到直属海关。直属海关各应用只需进行本地接口调用即可,接口方式共享流程如图3所示。
4.2 海关总署与直属海关之间库表交换流程
在海关总署节点,对数据表资源进行编目,同时将物理数据表资源挂载到目录下并发布为库表类资源,按需将审批的目录下发到直属海关。在直属海关节点,展示海关总署下发目录并申请数据,申请数据与信息同步到总署节点,经审批通过后,平台周期性将数据资源推送到直属海关的本地存储。直属海关应用从本地存储中获取数据并进行使用,库表交换方式共享流程如图4所示。库表交换优先应用于加工和治理后结果数据,原则上原始明细数据不走库表交换方式。
直属海关侧数据满足不了本关智能模型训练时,借助海关大数据资源一体化平台上传模型训练的程序、数据到海关总署大数据平台,在此平台上开展模型训练,并借助一体化平台接口调用或者库表交换能力,自动、便捷回传训练模型结果及参数。
4.3 直属海关之间数据共享服务
海关大数据资源一体化平台中海关总署节点汇聚全国海关的数据资源目录,并按照业务需求向各直属海关下发资源目录,各直属海关可通过本级节点上数据资源目录对数据资源进行查看、申请并获取数据资源。直属海关之间数据共享流程如图5所示。
4.4 全国海关外部数据交换服务
海关大数据资源一体化平台与国家政务服务平台对接,支撑与其他部委及省市之间的数据共享交换,提供库表、文件、接口3种方式,实现海关政务数据交换数出一门。对接国家政务大数据体系后数据交换的流程如图6所示。
海关总署从国家政务服务平台订阅、同步的资源目录到海关总署核心节点,按需批量下发资源目录到直属海关节点上,解决直属海关“看不到”国家平台上数据资源目录问题;直属海关节点可以查看海关总署下发资源目录,按需申请订阅对应数据资源,订阅需求自动汇总到海关总署核心节点。总署核心节点汇总各直属海关数据资源订阅需求,审核同意后批量自动提交到国家政务服务平台,并实时同步国家政务服务平台上审批流转状态及审核结果到各直属海关节点,解决直属海关“申请不了”国家平台数据资源问题;基于海关大数据资源一体化平台,实现海关与外单位政务数据交换全流程在线处理、工作闭环。
5 实践成效
本研究设计的海关大数据资源一体化平台已经作为署级信息化项目立项建设,可以在海关总署和直属海关两级节点提供数据服务门户、数据目录编制、数据资源共享功能,并实现目录互联、数据互通。基于资源目录,实现跨云、跨平台、跨地域的数据资源管理能力,进而服务海关总署、直属海关大数据应用。目前,研究成果已在部分直属海关开展试点应用,进一步打通了海关总署到直属海关之间双向数据通道。
6 结语
全国海关大数据资源一体化的数据共享和使用模式,实现上层应用与底层大数据平台的隔离,形成新型数据服务体系,将不断提升全国海关大数据资源一体化管理、一体化共享水平,推动数据治理成果在全国海关范围内充分共享利用,助力智慧海关建设。
参考文献
[1] 国务院办公厅. 国务院办公厅关于印发全国一体化政务大数据体系建设指南的通知, 国办函〔2022〕102号[EB/OL]. (2022-10-28)[2025-03-11]. https://www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm.
[2] 何长庚. 海关数据资产化治理发展方向研究[J]. 中国口岸科学技术, 2023(53): 48-51.
[3]赵豪迈, 付玉环. 大数据背景下政务信息资源整合与共享中主要问题的探讨[J]. 图书情报导刊, 2021, 6(8): 25-32.
[4]王平. 大数据背景下政务信息资源共享平台的应用[J]. 办公自动化, 2024, 29(10): 28-30.
[5] 胡庆勇. 数据编织[M]. 北京: 清华大学出版社, 2024: 10-50.
[6] 闫树, 袁博, 吕艾临. 隐私计算: 推进数据“可用不可见”的关键技术[M]. 北京: 电子工业出版社, 2022: 11-31.
[7] 祝守宇, 蔡春久. 数据标准化: 企业数据治理的基石[M]. 北京: 电子工业出版社, 2023: 53-73.
[8] DAMA国际. DAMA数据管理知识体系指南(原书第2版)[M]. 北京: 机械工业出版社, 2020: 10-23.
第一作者:徐龙宁(1987—),男,汉族,山东菏泽人,硕士,主要从事数据治理、数据共享相关工作,E-mail: xulongning@mail.customs.gov.cn
1. 全国海关信息中心(全国海关电子通关中心) 北京 100005
1. National Information Center of GACC (General Administration of Customs of China), Beijing 100005
图1 总体设计思路图
Fig.1 Main design approach diagram
图2 总体架构图
Fig.2 Main architecture diagram
图3 接口方式共享流程图
Fig.3 Interface-based sharing process
图4 库表交换方式共享流程图
Fig.4 Table-based sharing process
图5 直属海关之间数据共享流程图
Fig.5 Data sharing process between customs offices directly under the leadership of the GAC
图6 政务数据交换流程图
Fig.6 Government data exchange process