CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
应用区块链技术重构海关业务数据管理模式研究
作者:杨文龙1 陈 斌1 陆 健1 夏 琰1
杨文龙1 陈 斌1 陆 健1 夏 琰1
摘 要 本文立足近期海关业务数据安全面临的严峻形势,对现有业务数据管理体系进行深入探析,并依托区块链的 分布式、零信任、加密认证等特性,尝试设计一个基于区块链技术的海关业务数据管理新体系。本文对业务数据管理新体 系的架构进行了简要描述,并提出了在新的体系下如何实现“零风险”的数据安全。
关键词 区块链;业务数据管理;零信任
Discussion on Applying Blockchain Technology in Reconstructing Business Data Management Model of China Customs
YANG Wen-Long1 CHEN Bin1 LU Jian1 XIA Yan1
Abstract Base on recent issues of business data security problem of China Customs, the paper probes into how to develop a new data management model by blockchain technology, in which distributed system, zero trust and encryption technologies are applied. This paper provides a brief description of the new architecture of data management system, and the ways on how to achieve "zero risk" on data security within the new framework.
Keywords blockchain; business data management; zero trust
近一段时间,业务数据泄密的风险隐患不断凸显,业务数据安全问题成为包括总署领导在内的全国海关系统上下共同关注的问题,海关总署提出零信任、零风险、零泄露的“三零”要求。痛定思痛之余,近期一些事件让我们不断反思:基于大数据、绝对集中化的数据管理模式,必然伴随数据安全问题。因此我们有必要通过对现有业务数据管理体系的探析和新技术的研究,来寻求新形势下数据安全问题的解决方案。
1 现有业务数据管理体系探析
业务数据管理体系的发展,总是与制度建设、监督内控、技术管理的发展同步或者大体同步进行。经过了数据从人工台账,到H883、H2000,再到H2010乃至H2018的发展,数据越来越集中,目前基本形成了相对比较稳定的业务数据管理体系。
1.1 基本体系
现在的海关业务运行体系是基于H2010集中式的数据处理模式,是一种集中式的、实时的、基于中心数据库的数据处理系统。H2010是海关新世纪发展的一个重要项目[1]。所有的业务数据集中部署在海关总署的集中式服务器群集,即便在物理位置上分散于全国多个数据中心,但在逻辑上仍然是一个集中的而不是分散的数据库。这样的业务数据管理体系的特点是高效、部署便利、集中实时性。在网络所能达到的范围内,提供了极其快速的处理能力,某种程度上来说,解决了总服务器的健康性、效率性问题,就基本解决了整个海关业务数据管理体系的健康性、效率性问题。
在数据的终端(即业务现场),只需要考虑如何搜集具体的数据,而不用考虑额外的数据存放,处理,上报等问题。实时的海关数据会在第一时间到达中央处理核心,并进行一系列逻辑处理。隶属海关和直属海关,再无擅自操作修改数据的可能性,最大程度减少了人为因素带来的影响。 “两中心三制度”,全国通关一体化,也是基于这种数据集中基础上的一种应用模式。
1.2 大数据的应用
在这样的体系下,大数据技术有了天然的应用场景土壤。各类海关业务数据,结合其他来源的数据,在海关中心数据库集中,形成了一个个数据仓库,其中的数据经过不断挖掘、抽取、清洗、整理,形成的统一的数据信息,这些数据信息具有准确性、完整性、一致性、适时性、有效性的特性,形成了典型的大数据,可以应用在各种业务分析、数据监控。
大数据体系,是集中的数据采集,集中的认证管理,集中的授权访问,集中的信任框架,这套全体系的框架,使得数据由完全分散的存储管控,到可靠的集中存储。为业务的前中后期管控,提供了良好的数据支撑。
1.3 问题和不足
随着大数据模式的不断推进,其问题和不足也逐步显现。
(1)大数据在对具体企业商品的风险分析缺乏精确性。现有的大数据分析法,是通过对全国报关单数据和其他来源的海量宏观数据进行挖掘,这个方法对发现全国性、趋势性、规律性和相关性比较容易,但在针对某一具体企业或商品的风险分析上其精确性却有所欠缺。因为就某一具体企业或商品而言,数据的丰富性还远远没有达到大数据的水平。而要获得足够的微观数据,必然涉及众多商业秘密,将引发更严重的业务数据安全问题。天津海关的区块链验证项目,正是针对这一问题而提出的一种解决思路,通过多方可信来源的少量关键数据的相互验证,提高报关数据的可信度。
(2)大数据在数据安全性方面存在绕不过去的风险,其所引发的安全问题与其带来的价值同样引人注目[2]。原因一,是因为现有模式是基于信任基础上的。所有对数据的管理、访问、使用等都是基于用户认证的授权访问模式。不同的用户授予不同的权限,而授权是建立在信任基础上的,因此这样的模式无法做到零信任。近期暴露的一些安全隐患告诉我们:基于信任的访问模式有其固有的安全隐患,经过授权的众多合法访问中,即便再低的概率,只要发生泄露,必然是严重的数据安全事故,造成严重的后果。原因二,是因为大数据是有待发掘的资源,从中能发现多少业务的“秘密”,要发掘出来才知道。在未发掘出来的资源中,还隐藏了多少有价值的“秘密”,我们无从得知,从而也无从保护。所谓“脱敏”,最多也只能保护已知的敏感数据而已。
2 区块链技术的基本特征和新形势下海关业务数据管理的契合
我们不难看出,现有业务数据管理模式下,数据安全的隐患主要是由数据的过度集中造成的。那么分散是否可行?区块链是天然的分布式存储系统,有望成为从根本上解决数据安全问题的答案。
2.1 区块链的特征
区块链是一种去中心化、不可篡改、可追溯、多方共同维护的分布式数据库[3],是一种分布式的数字化账本,记录了对等网络中的交易数据。使用共识协议协商账本内容,使用哈希加密算法和数字签名来确保交易的完整性,账本分发给网络中的所有成员节点。区块链提供了一种与以往完全不同的数据记录方式,相比较于集中式数据存储,区块链在分布式节点上记录数据,是一种分散的、碎片化数据存储方式。通过建立适合的数据应用模式,可以最大可能的避免集中存储所带来的问题。区块链有以下技术特征:
零信任:区块链的基础本身就是建立在零信任机制上,任何节点、任何操作都预设其可能是有风险的,需要排除风险以后才能进行,这就是“绝不信任,总是验证”。
分布式记账:分布式记账是分布在多个节点上的同一份数据,在节点之间保存一个账本,通过预先商议的共识机制,在节点与节点之间同步复制,同时,每个节点的存在相对独立,不依赖于一个中心节点控制。节点之间采用一种类似投票机制,当同意的数量达到一个特定比例后,进行数据的更新。单个节点无法进行数据篡改。
加密和认证:整个区块链网络用巨大的算力协作进行加密和认证,以保证现有条件下的数据安全。从历史发展看,数学的进步和量子计算的实现,远比业务数据商业价值的失去缓慢太多。
智能合约:智能合约是一段直接在区块链上执行的代码,是一组具有特定规则的协议,该协议在满足条件的情况下能够被强制执行。在所有节点上,这些代码都会被复制并执行。执行合约的双方,可以在区块链上做出承诺,无需信任或了解。使用智能合约可以消除对中心仲裁者的需求。
2.2 应用区块链技术重构海关信息化技术体系的可行性
区块链技术,融合了数据库技术、分布式存储、零信任、共识、智能合约、可信计算等多个方面技术理念,形成了一项具有独特魅力的信息记录、存储、展示方式,在防篡改、防泄漏、可靠性、可伸缩性方面具有完全异于传统信息化技术的特性。
因此,区块链可以是有别于现有数据管理和应用方式的另一种技术体系。区块链的特征决定了应用区块链技术建立全新的海关业务数据管理体系具备可行性,可以从根本上解决业务数据的安全问题。
可行性一:从无到有的信息化建设基本完成,信息系统整合成效显著,各业务系统之间的数据关系清晰可观,为用区块链技术重构整个海关的信息化体系奠定了稳固的业务和数据基础。
可行性二:海关的不同业务既各自独立,又相互融合。区分门类、区分地区建立不同的区块链子链,实现单一业务的相关数据子链上验证,验证的可信结果通过母链认证在不同子链间传递,可以实现在时效性和安全性上的最大平衡。
可行性三:现有网络互联能力,使全国范围的共识和计算可以更加高效地进行。分散于全国多个中心和海关的计算资源,天然契合区块链分布式概念。这些计算资源,一方面可构成主区块链上的多个节点,保持全国数据的统一;另一方面充分利用各地的计算资源,建立多层级的区块链网络,各链根据业务领域和地域各司其职,按照规则完成跨链数据认证和汇总,可使整个计算资源达到充分平衡状态。
2.3 使用区块链实现数据碎片化替代集中数据存储
使用区块链之于业务数据安全考虑,本质上是用碎片化代替集中化,用信任技术代替信任人。数据碎片化表现为三个层次:一是数据存储由中心存储,到分布式存储;二是业务活动中产生的各种数据,由关系型数据库建立强关联关系,到按照时间先后,分散存放于区块链的不同区块的流水账上;三是业务数据,由中心统一明文存放管理,到按分级分类规范约定拆散为摘要、密文、明文,分别存放于各级区块链的不同区块上。
设计为这样的数据存储方式,实时产生的数据可以高效地在各个节点处理和存储,可以较方便的按照既定规则进行统计,产生和列存储类似的数据使用效率;同时在安全性上的增强,表现为非既定规则的明细数据的统计检索,需要在不同层级、不同管理单元的不同区块链上的“穿透”,意味着需要多级审批和配合的“不易”,以至于非正当程序下数据泄露事实上的不可能。
图1 数据碎片化三个层次
Fig.1 Three levels of data fragmentation
3 以区块链技术为基础的海关业务数据新体系
通过上文分析,我们初步可以得出结论:区块链技术适宜成为构建安全可靠的海关业务数据新体系的基石,在此基础上,我们初步设计了新的海关业务数据体系。
3.1 数据层次
将区块链相关数据分为基础数据、定义数据、中间数据和报表数据等层次。
(1)基础数据是最基本的数据单元,是不可再分的业务数据最小表现形式,用于表示一项最基本的信息,是实现数据碎片化的基础,以摘要或者加密的方式存储于最子链上,只能按照约定的形式进行访问。
(2)定义数据是对基础数据进行描述的数据,通过连接组合多项基础数据,形成有意义的、具有信息量的、含有敏感信息的、可以被理解的基本业务数据,是智能合约最小的访问单元,是碎片化数据的连接纽带。
(3)中间数据是经过数据提取和计算,产生的为满足特定需求的数据,这是以区块链为基础的海关业务数据管理体系的核心数据。具有如下特征:
可靠性:数据在链上产生,通过无法篡改的基础数据,经过智能合约计算产生,存储于区块链上,具有天然的可靠性。
不可篡改性:数据一旦生成,立刻存储于区块链上,无法篡改。
可验证性:使用同样的算法和基础数据,可以重新生成一致的中间数据,是对通过业务改革获得的描述同一对象的多个信源的基础数据进行验证的产物。
不可复原性:仅仅通过中间数据,无法直接推导出基础数据。
脱敏性:通过数据提取、处理和计算,仅保留所设计应当展示的信息,数据的敏感性消失,通过中间数据无法推导得到其他非相关信息。
统计性:通过简单计算,在小范围内产生累计汇总数据。
单一性:数据处理模式单一,不进行复杂计算。
(4)报表数据由中间数据生成,一般在更广的范围进行,通过对多个中间数据进一步的归集、汇总、计算、分析、人工干预等过程,即成为可进行数据监控、统计分析的综合数据。
3.2 层级访问
将中间数据以上的系统分为数据访问层、数据处理层、数据表现层和应用接口层。
3.2.1 数据访问层(ACCESS LAYER)
数据访问层是中间数据存放的平台仓库。数据访问层提供两类数据访问模式:
第一种是针对基于统计分析研判的汇总数据请求。该类请求只针对批量数据进行汇总级别的数据统计功能,只按照请求约束,反馈特定类别的数据汇总,数据已经脱敏。
第二种是针对基于事实清单查询的明细数据请求。该类请求是基于零知识的验证服务请求,是针对某个数据进行验证查询,反馈基于是否的回答,不返回明细数据。
3.2.2 数据处理层(STAS LAYER)
数据处理层对数据进行大规模的处理,与中间数据相比,其涉及的深度和广度要大的多。主要有以下特点:
涉及面广:数据处理层使用更多维度的数据作为数据源,进行更大范围的数据计算,涉及更大时间和空间维度的数据。
占用资源多:数据处理层消耗更多的资源进行数据处理。
处理结果更广:数据处理层反馈更广范围的数据报表。
图2 数据定义和关系
Fig.2 Data definition and relationship
3.2.3 数据表现层(PRESENTATION LAYER)
数据表现层使用合适的表现形式,将数据处理层的成果进行展示。
3.2.4 应用接口层(APPLICATION PROXY)
应用层指此模型最外层的应用接口,是区块链与传统应用的交互场所,一切请求从此处发起。各类业务都通过应用接口层接入或者访问区块链。
3.3 建设框架
整体系统框架,遵循现有海关条线体系,采用从上到下,海关总署,直属海关,隶属海关分层建设,通过子母链方式相互嵌套。越往上层,数据的范围越广、细节性越弱、抽象性越强,数据分析所表现出的趋势性,方向性,规律性越强;越往下层,数据的范围越小、清晰性越强、抽象性减弱、现实性增强,对具体实际问题的分析越有针对性,越容易做出符合地域实情的分析。
(1)采用多层母子链体系,海关总署层级(包括数据中心、信息中心、广东分中心、上海云中心等依据需要设置)为根链;三地信息中心和税管中心、风控中心、各直属海关分别按业务建立多个根链下的子链,这些子链蔟构成全国海关业务运行的主链。数据中心、各直属海关、各地单一窗口分别建立申报子链,直属海关、部分业务量大有技术能力的隶属海关与监管场所经营人、被监管企业等分别建立监管子链,这些子链分别链入主链。
(2)母链与子链、子链与子链在业务上相互依托,在数据上互相隔离。每个子链定义自己的共识方式和执行模式。链与链之间通过预先定义的接口进行通信,母链按既定规则收集汇总子链中部分中间数据、报表数据,给不同子链间的数据交换和验证应答做认证;子链间通过母链进行基于事实的基础数据传输或者验证应答。
(3)监管子链是整个区块链体系树的叶子,在这个层面上,依据实际情况,一个隶属海关可以构建多个由多个实体(以企业为主,包括其他相关单位例如银行,税务,市场监管等)组成的下级子链。
(4)区块链的最子链上既可以存放数据摘要,也可以存放基础数据明细。当存放数据摘要时,应当在海关所信任的安全可靠处保存与摘要一一对应的基础数据明细。
(5)数据存放处使用零知识证明,在不提供任何有用信息的情况下,向最子链证明拥有完整的基础数据明细[4]。必要时,依据正当管理程序,数据存放处根据摘要信息可以提供与之对应的、完整的基础数据明细。
(6)最子链上存放数据摘要的,节点无法直接取得基础数据明细,只能按照合约约定,取得对基础数据进行计算后的中间数据。中间数据生成即脱敏。
(7)最子链上的定义数据对基础数据进行描述,任意基础数据在最子链上均有一个或者多个定义数据对其进行描述。
(8)直属海关层级的区块链主链,主要进行数据处理层的计算,该过程通过隶属海关级的子链,取得中间数据并进行大规模计算。
(9)海关总署级的区块链根链,主要使用主链计算结果,进行汇总计算,趋势分析,统计展示等。
3.4 运行模式
3.4.1 部署模式
区块链的部署与传统的中心式部署完全不同,依据海关的业务发展情况,做强直属海关层,使其具有独立的建设运维能力。
3.4.2 访问模式
传统意义的数据访问,指对数据的完全访问,通过授权,能够访问、拷贝数据,访问者对取得的数据拥有完整的处理权,拥有数据的全部隐私。这种情况下,数据源对该部分数据已经完全失去掌控。
新的海关业务数据管理模式下,数据采用分层存放,逐层按约定访问的形式来使用。各级节点仅可访问节点可以到达的数据,不能访问其他数据,并按约定进行计算和向上层提供汇总分析数据。母子链双方各自对自身的数据负责,任何一方都无法直接取得对方的基础数据。
图3 整体运行框架
Fig.3 Overall operation framework
基本的数据访问采用问答的形式,按照事先的智能合约,对数据进行基于是/否形式的问答,使得数据访问者既不能得到数据明细,又可以完全信任数据源的答复,完成特定的数据访问目标。
现有的基于大数据的分析模型,按其模型分解成若干个在不同子链上运行的智能合约,计算结果在层层母链逐步汇总。
基于区块链的部署形式,接入方越多,基于事实的提问越简单、越原始,就越不容易得到虚假的问答。可以由多方针对单一事实进行反复验证和背书,造假的难度呈几何倍数提升,数据环环相扣,互相验证,单个的虚假数据没有存在的土壤,安全性得到进一步保证。
3.4.3 零信任
零信任泛指在整个体系中,数据访问者与数据拥有者之间的关系。数据访问者既要通过某种形式访问数据,对数据进行计算等操作,又无法获取原始数据;数据拥有者既要向访问者证明的确拥有该数据,同时又不能向访问者透露数据明细。
在明细业务数据访问过程中,零信任特指报关单等业务数据的存储方与数据提取方之间的关系,存储方可以是海关信任的数据存放地,海关是这些数据的管理者,但是海关无法不受约束的访问这些数据,必须按照约定,规范的使用数据。同时这个“使用”也并非传统意义上的“先取得,再应用”的模式,而是按照问话——可信计算——结果返回的步骤顺序进行。重点是数据使用者只能取得按约定可以得到的信息,无法取得不相关的信息,避免数据滥用,保障数据安全。
在新体系中,仍然有权限的概念,不过此处的权限指基于零信任的访问请求。该请求可以同三方背书进行深度结合,强化数据质量和可靠性。数据背书是区块链实现的重要组成部分,单个基础数据的权重或者说可置信性,一方面与其本身的属性强相关,关键的数据属性必然带来关键的数据权重,另一方面,基础数据的权重也与可证实性有关系,可以通过多种渠道相互证实的基础数据权重较大,而脱离于其他数据单独存在的基础数据,必然是难以验证,因此可置信度较低。不同的第三方可以对基础数据进行背书,形成背书数据,背书数据的可置信度与实体分散度成正相关。
至此,我们可以简要回顾一下新的海关业务数据管理体系。新海关业务数据体系,设计为联盟链,使用子母链进行数据隔离,链上不存放原始数据,只存放“脱敏”的摘要数据。数据存储的单元既可以包含数据,也可以包含计算,既可以是一个个单独的实体数据,也可以是包含多个空间维度的大范围实体的集合。在链上进行简单的密文计算,在链下进行复杂的可信计算。通过证书进行身份验证,管理机构发布计算指令,集中汇聚结果,结果可追溯,但不可复原。各类业务通过统一的应用接口约定和区块链系统对接。通过这些制度性的技术安排,将系统的安全性提升到理论上的“零风险”。
4 构建新型海关业务数据管理模式需要着重思考的几个问题
4.1 区块链技术与大数据的区别
大数据的特点是数据集中,对数据进行统一搜集后处理分析,统一授权后访问。区块链的特点是数据分散,数据在子链分别汇总统计,再在母链上汇总,授信不是一次性,而是用算法逐次授信。因此,在本文所描述的业务数据管理体系下,原有的大数据分析模型并非不能使用,而是处于更安全的场景下发挥作用。
4.2 新型业务数据管理体系下统计如何进行
新体系在数据的准确性、安全性上都有了质的飞跃,必然带来统计质量的提升。按照既有统计公式的统计,既可以在链上运行智能合约分别计算逐级汇总,也可以链上链下结合,以节约链上计算资源提高统计效率。临时特定口径的统计需求,如果需要用到未经汇总数据的,须经管理程序审批通过后,下发算法,由各子链开发运维人员开发并部署智能合约实现,则效率不能兼得。
4.3 可信计算逻辑如何通过可信的方式下发
采用零信任方式交互,其中的可信计算逻辑可能包含有敏感的业务逻辑信息,如何建立一种可靠的方式,将这段逻辑交由数据拥有方进行执行操作,同时又能保证其中的逻辑信息不泄露,是整个体系设计中还需进一步规划设计的内容。
5 结语
海关业务数据管理体系的改革是伴随着海关业务制度体系改革而逐步推进的,已经应用了20余年的集中式数据管理体系,已经逐步显露出越来越多的安全风险隐患。信息技术的新发展给解决海关业务数据安全问题提供了条件。展望未来,具有分布式特征的区块链技术有望在构建新型海关业务数据管理体系,进而为打造在国际上最具竞争力的海关监管体制机制发挥越来越重要的作用。
【该文经 CNKI 学术不端文献检测系统检测,总文字复制比为 0.4%。】
参考文献
[1]何若冰, 张娟.从H2010工程看海关组织级项目管理体系的成熟发展[J], 上海海关学院学报, 2011, 32(2): 81-83
[2]冯登国, 张敏, 李昊.大数据安全与隐私保护[J].计算机学报, 2014, 37(1): 246-258
[3]邵奇峰, 金澈清, 张召, 钱卫宁, 周傲英. 区块链技术:架构及进展[J].计算机学报, 2018, 41(5): 969-988
[4]张宪, 蒋钰钊, 闫莺.区块链隐私技术综述[J].信息安全研究,2017, 3(11): 981-989
(文章类别:CPST-A)