CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
隐私计算技术在海关大数据风控场景下的应用探索
作者:李月 张君 潘启娣 庄成诚 陶黎
李月 张君 潘启娣 庄成诚 陶黎
海关在业务管控和风险管理等方面面临信息不对称、风险成本高等难题,在数据融合运用上面临跨界融合不足、数据应用能力不够等一系列挑战。如何能在数据安全融合需求的推动下,实现数据安全流通、推动数据要素化发展,是当前海关业务发展面临的一个重要课题。隐私计算技术既能实现数据的安全流通,又能激发数据价值,其可用不可见、可用并可控、可控可计量等技术优势,为联合风控场景的实践提供了安全技术解决路径。因此对于海关而言,在数据要素和数据安全保护双诉求背景下,隐私计算技术的探索和引入将大有裨益:对内增强科技实力,提高风险防控能力,加强数据安全管理水平;对外提升公共治理能力和公共服务水平,优化口岸营商环境,促进贸易便利化发展。
1 隐私计算应用现状
1.1 数据要素时代发展的必然趋势
在数据要素时代,数据已然成为驱动发展、提升效率和推动创新的核心要素,关于数据要素体制机制的构建和创新已成为国家重点关注领域。自党的十九届四中全会首次将数据纳入生产要素以来,数据作为数字经济的“底座”被充分重视,相继出台了规划要求和指导意见。2022年12月19日,党中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”),提出“要加快构建数据基础制度,在保护个人隐私、商业秘密、维护国家数据安全的前提下,充分实现数据要素价值、促进全体人民共享数据发展红利”。2023年2月,中共中央、国务院发布《数字中国建设整体布局规划》,提出到2025年,基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展;到2035年,数字化发展水平进入世界前列,数字中国建设取得重大成就。
1.2 多领域业务场景的广泛应用
目前,我国隐私计算的应用已经涉及金融、政务、医疗等多个行业领域,主要有智慧风控、产品营销和普惠金融等场景。在金融方面,隐私计算已经部分应用在金融领域,在普惠金融、联合风控、跨境贸易、精准营销等方面发挥了重要作用;在医疗方面,和疫情息息相关的健康码、行程码、核酸检测等都离不开大数据的共享和分析,隐私计算主要试点场景是对疾病分析、突发传染病的实时监控和预测等;在政务方面,隐私计算技术既可以加固政府部门的信息安全,又可以解决政府数据的信息孤岛问题。
1.3 海关数据应用发展的需求驱动
海关总署要求发挥风险管理、信用管理基础作用,广泛运用新技术、新装备,努力实现管理要素数字化、信息系统生态化、装备技术智能化等目标。贯彻落实《“十四五”海关发展规划》实施意见中提出,聚焦主要问题和技术短板,在满足海关迫切需求和长远发展需求的科技问题上有所突破,加强应用基础研究、关键技术研究和典型应用示范。目前,海关大数据应用的业务范围还不够广泛,智能化程度还不够深入,缺乏外部数据的有力支撑,不足以发挥大数据全域关联分析的重要优势。尤其需要将海关数据与公安、税务、外汇金融、市场监管等多部门数据进行关联,从人员、企业、物流、资金流、行为、货物等多维度进行风险特征分析,构建不同主体之间的关系网络和知识图谱,为风控业务场景提供数据、算法和模型支持,及时发现潜在风险问题,辅助决策和分析。
2 海关现存业务诉求
目前随着海关自身职责、监管领域和时空进一步拓展,海关将在风险管控业务领域面临的任务更重、要求更高、责任更大。从外部环境来看,国门安全形势日益严峻,口岸渗透入境的方式日益多样、方法更加隐蔽,对于有效防控安全威胁的挑战日益加大;从内部资源来看,业务管理和现场监管的传统监管模式需要消耗大量的人力物力,缺少识别高价值核心数据的智能化技术手段予以支撑。对此,如何整合内外部企业经营管理数据、打破传统风控瓶颈、全面提升监测预警能力迫在眉睫。
2.1 海关风险防控的业务需求
防范化解重大安全风险是海关工作的重要任务,提升数字化防控能力建设已成为新时代海关发展的战略高地。利用隐私计算等前沿新技术,可有效提升信息收集、风险研判、精准布控和非侵入式查验等全方位能力,实现与外部数据安全虚拟融合,对进出口企业所暴露的风险实现高效防控。为此,海关对于数据融合的需求日益迫切,主要有以下几个方面:
1)空壳企业识别方面。当前海关对空壳企业进行判断主要基于企业在海关管理领域的行为合理性,在发现风险点后,通过海关企管部门实施人工核查,从而确认空壳企业。这些逻辑大多基于海关内部数据,缺乏外部数据的印证和风险点的提示。
2)贸易真实性和合理性评估方面。虚假贸易虽然呈现的申报数据力求完美,但无法构建完整的贸易链条,更不可能构建完整的资金流转链条,因此借助银行金融领域等外部数据对贸易链条双向延伸的信息整合有助于海关识别虚假贸易。
3)关联关系探查方面。银行金融等行业研发的各类关联关系,均对海关企业管理、风险管理具有重要意义。失信企业、高查获企业和各类行为异常企业对海关管理来讲都存在一定风险,对这些企业进行关联关系分析可有效提升海关风险管理水平。
基于上述海关风控场景下的业务诉求,可运用隐私计算技术将海关业务数据同银行数据进行有效结合,开展大数据联合分析,促进海关风险防控管理及相关业务发展。在双方数据不出域的条件下,形成数据的虚拟融合,实现数据价值融通而非数据流动。
2.2 海关数据资源的隐私保护需求
海关掌握着进出口企业较为全面的信息资产,确保数据隐私安全是重要前提。海关数据具有如下个性化特征:一是数据量大且数据价值高;二是数据敏感性和隐私性较高;三是外界对于数据需求和关注度较高;四是数据开放程度较低。这些特征意味着海关数据与外界存在融合困境。尤其当前政务数据已进入开放共享的互联互通时代,各类数据安全问题、隐私泄露问题层出不穷,海关数据融合需要在合规安全的模式下进行有益的探索和尝试。因此,海关风控领域的大数据应用需要强有力的技术支撑,如何在安全、合规、高效的条件下,既能与外部数据融合共享,又能保护各方数据隐私,最大程度挖掘海关数据价值,打破信息孤岛,释放数据红利,值得深度思考。
将隐私计算技术应用到海关大数据风控场景,探索“原始数据不出域、数据可用不可见”的共享模式,在保护数据隐私和确保数据安全的情况下,与外部实现安全高效的数据融合和模型共建,在信用风险、操作风险、合规风险等风险管控层面进行深入探索,全面提升风险防控能力的现代化水平,为今后隐私计算技术带动海关关键性业务应用的研究提供新方向和新动力。
3 隐私计算技术概述
3.1 隐私计算技术定义
隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。从应用角度讲,隐私计算涵盖了信息在收集、存储、使用、加工、传输、提供、公开等处理过程中,各信息处理方基于隐私评估与保护的所有内容;从技术角度讲,隐私计算不是单一的技术,往往综合应用了大数据、人工智能、区块链、密码学、集成电路等多领域技术,达到隐私保护的全部或部分目的。
3.2 隐私计算技术分类
隐私计算技术可分为基于密码学的技术和基于可信硬件的技术两大类。其中,基于密码学的技术指用加密算法实现对计算过程的数据保护,包含多方安全计算和联邦学习;基于可信硬件的隐私计算技术指在硬件环境中隔离保护隐私数据和计算过程,主要指可信执行环境。
3.2.1 多方安全计算(MPC)
基于多方数据虚拟融合开展联合计算,具备除输出计算结果以外不泄露各方隐私数据的能力。如图1所示。
图1 多方安全计算示意图
Fig.1 Schematic diagram of multi-party secure computation
多方安全计算可以抽象概括为一个数学模型,n个参与方P1,P2,…,Pn执行某个协议π构造算法fx1,x2,…,xn = y1,y2,…,yn,参与方Pi仅得到应得的结果yi,此外不会得到其他任意参与方Pji≠j的输入xj和结果yj。
3.2.2 联邦学习(FL)
运用一种分布式机器学习方案,在保证多个参与方各自原始私有数据不出域的条件下,实现多方共同建模的过程。验证的场景主要通过纵向联邦学习,实现海关业务数据同银行等外部数据相同样本集对齐后,不同特征之间可联合建模及预测。如图2所示。
3.2.3 可信执行环境(TEE)
可信执行环境是数据计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护,其中完整性包括数据完整性和代码完整性。
基于上述多种技术路线,根据实际场景应用中的隐私保护具体要求,选择对应的具体技术方案实践应用。例如,基于多方安全计算技术实现联合检索、统计和隐私求交;基于联邦学习技术实现多方联合建模。
3.3 隐私计算技术优势
隐私计算能够让数据共享的双方或多方在不暴露数据隐私的情况下达到想要查询的目标和结果。与传统模式相比,隐私计算为长久以来在数据流通中较难规避的敏感信息泄露问题提供了有效的技术解决途径,是有效发挥数据价值的重要方法。一是“原始数据不出域”。支持多个用户在满足隐私保护、数据安全和法律法规的要求下,进行数据使用和机器学习建模,实现原始数据不动而数据价值流通。二是“数据分级分类授权”。多方安全计算、联邦学习等技术可通过对信息进行加密计算与价值共享,实现对原始数据按用途与用量进行授权使用,且在使用过程中不被泄露。三是“数据全流程密态”。隐私计算通过加密技术进行运算,比传统数据运算的安全性更高。
4 隐私计算技术方案
4.1 平台架构设计
海关隐私计算平台采取私有化部署方式,平台架构分为5层,从底层至顶层分别为:数据资源层、安全计算引擎层、安全接口层、可视应用层和应用场景层。另外,系统管理功能贯穿系统全部,连接服务实现各参与方的连接。隐私计算平台架构图如图3所示。
该平台主要关键技术特点如下:
1)融合隐私技术多种技术路线。在深入研究隐私计算领域的基础上,搭建融合多种技术路线的隐私计算平台,使用的关键安全计算技术包括秘密共享(Secret Sharing-SS)、混淆电路(Garbled Circuits-GC)、不经意传输(Oblivious Transfer-OT)、同态加密(Homomorhpic Encryption-HE)、隐私集合求交(Private Set Intersection-PSI)、隐私信息检索(Private Information Retrieval-PIR)等,提供数据安全匹配、安全联合计算、安全联合建模、安全查询等跨机构间可信数据协作能力。
2)技术架构开放灵活。一是通过采用开放式隐私计算框架,实现底层算法组件化,支持多种热插拔安全算子和支持自定义算法组件,高度遵循安全计算平台的技术要求及安全计算平台的互联互通相关标准要求;二是通过支持国密算法,包括SM2、SM3、SM4等,有效保证了平台的性能与安全性;三是支持代理计算和无第三方直连对等网络两种模式,能够较好地满足海关实际安全计算业务落地场景需求。
3)操作高效便捷。在操作实用便捷方面,平台提供了安全可视化模块,将复杂的隐私计算原理黑盒透明化,使平台使用人员可以实时可视了解计算流程,管理相关内容,提高隐私计算技术的安全可解释性。同时,平台支持图形化建模,提供拖拽式算法流程编排等技术,降低了平台使用者的使用技术门槛,使数据分析人员可简单高效地完成多种跨机构间的安全统计、安全建模、安全预测、安全模型部署等工作,灵活应对多样化应用场景。
4)检测认证合法合规。在合法合规方面,隐私计算平台支持用户授权存证、数据加密脱敏、去标识化等处理方式,确保敏感数据被严格保护在机构内部,满足合规要求。自主设计了数据加密与权限管理机制,满足不同场景、不同粒度的用户隐私保护要求,解决了风险管理、分析决策等业务开展过程中隐私保护的问题。通过增加系统的健壮性、稳定性、安全性,增加跨领域合作伙伴节点,可实现数据价值挖掘和数据安全之间的平衡。
4.2 安全专项设计
海关隐私计算平台通过网络、数据、算法和认证等各方面保证应用安全。
1)网络安全方面,数据传输过程中采用安全通信协议和访问控制手段保障通讯安全,当遇到网络攻击等安全隐患时,在生产系统设置DMZ隔离区,支持网络通信通过堡垒机或跳板机等设备访问系统,可对网络区域边界设置访问控制策略;系统审计日志功能可对网络节点进行安全审计,并覆盖所有用户。
2)数据安全方面,对隐私数据进行加密存储,并对密钥进行安全管理;各参与方只存储聚合多方数据后的最终模型参数密文,使用方仅可解密结果,原始数据不出数据持有人本地;重要数据实现一次一密。
3)算法安全方面,参与节点交互的数据均为随机密态或随机碎片,任何一方不可逆推出其他参与节点的原始数据,节点间计算在密态或碎片下进行,结果方通过集合各方密态或碎片化计算结果恢复得到正确、可信的计算结果。
4)认证安全方面,用户采取访问授权及身份认证等措施进行访问,支持个人中心管理,可对使用者的相关信息进行查看与编辑;支持安全配置管理,可对账号登录的认证方式、密码安全设置进行自主配置。
4.3 场景应用设计
以海关和银行联合风控的场景为例。通过隐私计算平台进行连接,双方风控等业务系统基于隐私计算平台提供的多方安全计算、联邦学习、匿踪查询等功能,实现数据“可用不可见,可控可计量”的融合共享,实现空壳企业有效识别、贸易信息交叉验证、关联关系探查等大数据风控场景的应用需求。该联合风控架构如图4所示。
4.4 实验环境设计
通过在海关和银行两端分别搭建隐私计算平台,其中核心平台计算模块(Training/Predict)、API服务模块、中间件模块需要较高的处理能力,服务器考虑配置物理机。海关本地安全计算节点与银行等合作节点的通信均通过DMZ区域和防火墙设备进行。基于双方的实验室环境,对隐私计算平台数据处理、多方安全计算、联邦学习、服务性能、系统安全和稳定性等多方面进行测试验证。实验环境节点架构图如图5所示。
5 风控场景应用实践
以海关与银行联合风控的场景为例,主要应用包括风险管理数据、物流信息数据、贸易数据和支付结算数据等共有或特色数据的共享、融合、验证等,探索的场景包括目标客户撞库计算、黑白名单共建共享、贸易信息交叉验证、关联关系深入探查、空壳企业有效识别和客户评价体系优化等多个方面。
5.1 空壳企业识别
为了进一步有效识别风险,海关和银行在数据层面扩大合作,丰富识别维度和识别方法。从海关角度而言,对与进出口商品毫无关联的企业,可通过查询其银行付汇数据来判断是否为真实进出口企业;对长期无进出口数据企业,也可以通过付汇数据、流水数据确定其是否正常经营。从银行角度而言,以海关进出口货运量的变化水平、银行结算流水等作为参数,进一步判断企业规模和持续经营能力,对空壳企业风险提前预警。
基于以上数据融合需求,双方基于隐私计算平台搭建海关-银行空壳企业有效识别联邦学习模型。具体来讲,海关提供训练样本空壳企业标签,银行方提供训练样本企业客户的金融属性数据,包括违约标签、是否负面名单、融资行为类、资金交易类、财务报表指标类、经营情况指标类等特征,双方通过隐私计算平台的训练形成空壳企业联邦学习模型,基于训练好的联邦学习模型对于海关众多长尾企业开展风控预测,从而提高海关风险防控的精准率。
5.2 贸易信息验证
海关在贸易信息真实性核验方面依赖于企业申报的单据,如合同、发票等。但对于货物流背后是否存在真实资金流的贸易行为则无法进行准确判断,需要银行提供进出口货物背后真实资金流的数据作辅助判断;银行则需要海关的物流信息来加强银行对于贸易真实性、合理性的评估。
基于以上数据融合需求,双方利用隐私计算平台搭建贸易信息交叉验证多方安全计算模型。具体来讲,海关提供进出口企业申报总价、申报数量、申报单价、件数、净重等数据,银行方提供资金交易金额、收付汇币种、授信额度、授信余额等数据,双方基于隐私计算平台对此类别数据进行联合计算,通过统计交叉验证,发现异常数值,从而进一步对进出口企业的贸易背景进行证明或证伪。
5.3 关联关系探查
通过对海关掌握的企业数据库与银行掌握的企业数据库进行数据融合,尤其是利用进出口企业上下游、物流等信息关联融合,可以有效提升关联分析的准确性。海关掌握的核查异常、稽查异常、高查获率等类型企业,也将有助于银行对风险企业的判断。
基于以上数据融合需求,双方基于隐私计算平台搭建联邦图模型。具体来讲,海关提供进口企业上下游、物流等关联知识图谱,银行提供集团授信、资金往来、业务担保、押品权属等关联知识图谱,双方通过将隐私计算和知识图谱计算技术进行融合,在确保双方数据不出域的基础上,实现海关和银行关系图谱数据的虚拟融合,健全完善双方关联关系网络,识别企业背后的复杂关系链条及风险。
6 结论
除银行以外,海关还可以与其他政府部门、金融机构、企事业单位、科研院所等机构合作,充分利用隐私计算技术探索能够发挥数据要素价值的应用场景。由于海关和外部数据存在隐私保护限制,大量验证仅基于测试数据,计算的范围和结果有限,虽然对海关风险识别具有一定的贡献和价值,但目前还无法满足大规模的业务需求。因此,隐私计算技术在海关的业务应用还将面临诸多挑战,亟须形成健康完备的海关隐私计算应用方案,不断深化和拓展有价值的业务应用场景,通过隐私计算技术打破数据孤岛、加强隐私保护,推动应用落地,以数字化转型为契机,为数字经济发展和数字中国建设贡献海关力量。
参考文献
[1]张会平, 马太平, 孙立爽. 政府数据赋能数字经济升级: 授权运营、隐私计算与场景重构[J]. 情报杂志, 2022, 41(4): 166-172.
[2]王思源, 闫树. 隐私计算面临的挑战与发展趋势浅析[J]. 通信世界, 2022(2): 19-21.
[3]马英. 一种基于隐私计算的数据共享模型研究[J]. 信息安全研究, 2022, 8(2): 122-128.
[4]闫树, 仵姣姣. 《数据安全法》实施对隐私计算的影响分析[J]. 通信世界, 2021(23): 36-38.
[5]张辰雨. 隐私计算关键技术发展趋势展望[J]. 中国工业和信息化, 2021(10): 16-22.
[6]杨晶.基于隐私计算技术的数据安全应用研究[J].中国科技产业, 2021(10): 61-63.
[7]赵精武, 周瑞珏. 隐私计算技术: 数据流动与数据安全的协同保护规则构建[J]. 信息通信技术与政策, 2021, 47(7): 53-58.
[8]严强. 区块链+隐私计算: 科技驱动数据安全体系建设[J]. 金融电子化, 2021(7): 43-45.
[9]闫树, 吕艾临. 隐私计算发展综述[J]. 信息通信技术与政策, 2021, 47(6): 1-11.
[10]符芳诚, 侯忱, 程勇, 等. 隐私计算关键技术与创新[J]. 信息通信技术与政策, 2021, 47(6): 27-37.
[11]谭培强, 谢谨. 多方安全计算助力金融数据治理[J]. 中国金融, 2020(22): 39-40.
[12]谭培强, 谢谨. 多方安全计算金融行业应用初探[J]. 金融电子化, 2020(12): 11-12.
[13]李凤华, 李晖, 贾焰, 等. 隐私计算研究范畴及发展趋势[J]. 通信学报, 2016, 37(4): 1-11.
图2 联邦学习示意图
Fig.2 Schematic diagram of federated learning
图3 隐私计算平台架构图
Fig.3 Architecture diagram of privacy computing platform
图4 联合风控场景架构图
Fig.4 Architecture diagram of joint risk control scenarios
图5 隐私计算平台节点内部架构图
Fig.5 Internal architecture diagram of privacy computing platform node