CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
智能分析决策方法在海关税收风险防控中的应用研究
作者:黄新天 彭非 哈捷 潘婷 高鹏 梁建 赵彬 庄东江
黄新天 彭非 哈捷 潘婷 高鹏 梁建 赵彬 庄东江
随着数字经济和数字技术的发展,以数据为核心的智慧创新带动了社会生产方式变革和生产关系再造,同时也深刻改变着国际贸易方式和海关监管的内涵外延,面对日益突出的传统和非传统税收风险,现有的税收征管方法手段亟待完善。税收征管部门需紧跟时代发展趋势,准确识变、科学应变、主动求变,以数字化改革推进税收风险防控决策水平提升,充分利用大数据和人工智能手段,积极推动高质量发展。
1 新形势下税收风险防控面临的矛盾
1.1 人力资源紧张与业务量持续增长之间的矛盾
以海关总署税收征管局(上海)(以下简称税管局(上海))为例,4年来人数保持相对稳定,但业务量增长约30%,人均需处理记录条50万条以上,人工作业量呈现超负荷状态。虽然目前已经建成多类作业系统,但客观上智能化、自动化、精准化程度仍有提升空间。
1.2 人员知识能力与业务形势日趋复杂之间的矛盾
一方面,近年来各类新型贸易业态、交易方式、商品种类层出不穷,新形势对海关关员知识的广度深度和更新速度提出了更高要求,通常需要结合贸易、税收、商品、数学甚至计算机等多种知识,方能做出高效准确研判;另一方面,受限于海关关员的精力和经历,懂业务、会分析、能建模的复合型人才偏少,在技术层面上仅能将部分专家智慧转换为计算机能力,专家经验的复用和泛化存在一定局限。
1.3 数据分析能力与管理要求不断提高之间的矛盾
全国通关一体化改革后,事中审核比例大幅降低,贸易便利极大提升。但随着内外部对统筹安全便利要求不断提升,全过程、系统性、精细化的管理要求不断深入,当前模式之下,天然的时间劣势越来越明显,税收征管压力倍增。传统数字治理以静态比对、点线比较为主,数字思维、模型体系等方面受制于人员结构、技术能力等客观条件,与管理要求仍存一定差距。
2 海关智能分析发展现状
智能分析通常是指运用大数据、人工智能等技术对大量数据进行自动化识别、分析、解释,从而总结规律、预测趋势、提示风险的过程,可有效提高工作效率并提升决策的科学性、客观性和精准性[1-3]。
经过多年发展,海关税收风险防控已基本完成从人工审单向数据分析的转变,智能分析应用不断深入,防控效率和防控精度有所提升,但在数据质量、模型体系、算法研究上仍有提高空间。
2.1 发展现状
2.1.1 数据资源初步整合
借助海关总署提供的大数据平台,可访问数据逐年增加,以税管局(上海)为例,经授权可用的数据表已超1000张,内容涵盖关税、监管、保税、企管、缉私、检验检疫等领域,除海关数据外还引入了外部采购数据、国际合作数据等。同时税管局(上海)积极开展自采自建数据建设,根据业务场景制作基础数据表和商品信息表,战略性数据资源日益丰富。
2.1.2 模型种类日益丰富
依托海关总署提供的各类开发工具,模型覆盖的要素日益丰富,从税收风险角度,包括归类、价格、原产地、政策类风险等;从模型功能角度,涵盖辅助分析、风险防控、内控监督等;从管理对象角度,涉及企业、商品等。
2.1.3 大数据思维初步建立
各级海关部门对数据的重视程度与日俱增,认识到大数据和智能算法对海关工作的重要性,并付诸实践,在相关领域取得一定突破。例如使用统计学方法代替传统的人工经验探测各类离群值,算法的科学性、客观性得到显著提升。
2.2 需进一步加强的方面
2.2.1 数据质量仍需提高
一是数据的标准化。海关业务系统繁多,数据的互动性和关联度直接影响能否形成连续的业务链条。二是数据的易用性。数据的收集与整理是数据应用的基础,需进一步规范相关操作,提升数据研究和使用效率。三是数据类型多样化,当前,海关系统主要处理结构化和文本类数据,需加强非结构化的数据如图片、音频、视频、动态信息等的研究,丰富处理和应用手段。
2.2.2 模型体系仍需完善
一是模型分散,现有模型散落在不同的系统,使得模型的构建和使用变得复杂。二是系统间联通不畅,风险模型和征管作业系统、税收征管各个环节之间的链接不够紧密,信息和资源的流通效率不高。三是模型的思路缺乏整合,模型已完成从无到有、从少到多的发展,需向体系化方向发展,形成以应用场景为目标的功能互补的模型集群效果。
2.2.3 基础算法和人工智能研究仍处于起步阶段
一是在海关业务领域,需拓展人工智能应用的广度和深度,尤其在监督学习、知识涌现、关联分析等方面的应用需进一步深化。二是要加强数据分析方法的研究,目前的大数据分析主要依赖于专家经验,并通过统计和简单筛选进行,这种思考流程是线性和表层的,未能充分挖掘大数据的潜力,需要在基础算法和机器学习模型等方面加强研究力度,以提升数据分析和处理的效率和准确性。
3 以科技创新深化智能分析应用
科技创新是化解前文提到的三组矛盾的必由之路,通过广泛的数据收集和针对性的数据价值挖掘,以大数据和人工智能技术强化分析能力,以算法集合专家智慧,透过表象捕捉特征,破解信息不对称难题,提升税收风险防控水平。
3.1 针对性开展数据收集与加工,挖掘数据有效价值
3.1.1 数据在风险防控决策中起基础性作用
既要结合工作制度和系统建设,进一步扩展信息来源,也要充分运用科技手段,对各渠道可获取的海量数据进行梳理挖掘,发挥数据的潜在价值[4]。以资金数据链、单证数据链、物流数据链和商流数据链的整合为核心任务,串并联其他数据类别,提升对贸易行为的研判能力。在完善四条数据链的基础上,构建关系逻辑网,关注企业与企业间关系、企业与商品关系、国别与商品关系等,发掘互补或漂移关系,构建关系数据网,挖掘潜在风险并提高风险防控能力。通过构建统一的数据平台,对原始数据开展针对性的深度清洗和加工,使非技术人员也能轻松地获取和使用数据,提高数据的实际应用价值。
3.1.2 数据价值的挖掘可有效破解信息不对称难题
数据挖掘是知识发现的重要步骤,是从大量数据中发现潜在的、有价值知识的过程,多种类数据之间的穿透比对是挖掘数据价值的重要手段,也是破解信息不对称难题的突破口。随着各部门之间的数据整合,信息的广度和深度都得到有效提升,极大提高风险防控决策的有效性和及时性。以应税特许权使用费风险为例,以往海关并不直接掌握企业的资金流信息,特许权相关风险防控主要依靠逐份审核合同协议、稽核查等手段开展。在海关总署与外汇管理局实现数据互换后,税管局(上海)通过对外汇管理局数据的深入挖掘,及时准确掌握企业资金流向及性质,并与企业申报、声明事项、后续补税、稽核查、企业注册信息等数据实现穿透式关联,通过大数据模型实现对相关风险的全面感知,2022年,指导34个直属海关推动下辖1056家企业主动申报征税31.4亿元,同比增长17.1%。
3.2 强化基础算法研究,提升决策的科学性和客观性
基础算法研究在税收征管领域发挥着越来越重要的作用,相比于依赖主观判断的传统方法,基础算法的应用可有效提升决策的科学性和客观性。基础算法研究以严谨的数学逻辑和统计方法对涉税要素数据进行处理,大幅降低人为主观因素的影响,其决策过程具有可复现性和可验证性,基于算法的决策逻辑明确、步骤清晰,可随时接受检验。基础算法以客观的数学形态分析数据的规律,具有通用性特点,通常不局限于税收征管的单一业务场景,具有较强的泛化能力。
以税管局(上海)自主研发的正态分布税收要素特征算法为例,通过深入研究价格分布特点和海关数据特征,设计具有针对性的等价变换,将偏态分布的价格申报数据正态化(图1)。
图1 某税号原始价格分布和正态化后价格分布的比较
Fig.1 Comparison of the original price distribution and the normalized price distribution for a certain HS
原始申报数据中,由于大量价格集中在横轴左侧,使得继续向左探测“偏低”的价格极其困难,这种局部区域的高度集中现象,使得极小的阈值偏差可能会错判大量样本;而横轴右侧则出现明显的拖尾效应,导致阈值设定不敏感,难以有效筛选异常数据。等价变换后的观测值分布近似对称,概率密度函数平滑,均值左侧具有更好的延展性,并消除了右侧的拖尾效应[5]。再以正态分布的3σ准则代替人工经验的偏低偏高百分比,显著增强了价格风险防控决策的客观性和科学性。税管局(上海)将该基础算法应用于价格低瞒报、马甲企业、跨境电商等防控领域,幅提升模型精度,向缉私部门移交数百家高风险企业线索,缉私部门已刑事立案30余起。
3.3 探索人工智能前沿科技,引领风险防控精细化管理
税收征管作业已完成由事中审核向事后分析的转变,随着内外管理要求的不断提升,一般的参数和模型无法满足精细化后续管理的要求,亟须科技赋能。图像识别、大型通用语言模型等人工智能的兴起为解决事后监管难题提供了解决方案,实验证明通过大量报关单数据、人工标注数据、图像文档等的学习,人工智能可有效辅助海关开展风险识别作业。
3.3.1 图像识别
随着图像科学基础理论的发展,“运算快速、算法严密、集成度高、智能性强”的图像识别技术在国民经济各领域得到广泛应用[6-12]。2022年税管局(上海)承接海关总署揭榜挂帅项目,针对我国原产地证书尚未完全实现电子联网、扫描件依然存在模糊不清等问题,选取部分协定项下原产地,运用深度学习等图像智能识别技术,开展图像文档分类、图像文字定位、区域识别、模糊度测算与图像文字识别等方法研究,提取和识别原产地证书扫描件的样本格式、关键字段等信息,实现了单证合规性的自动判别,验证了人工智能在原产地单证识别上的关键技术(图2)。该项目的查全率和查准率平均达到85.64%和88.44%,各参与直属海关对测试证书中不合规情况开展后续处置,已合计补税1620.6万元;移交稽查企业3家,已立案2家;移交缉私企业1家,已立案1家;部分单证已要求企业补充上传、修改报关单等。
3.3.2 自然语言模型
随着通用人工智能,特别是大型语言模型的兴起,让机器以人类水平进行理解、学习、规划和执行任务成为可能。与传统的机器学习方法不同,基于深度学习的方法直接端到端地学习各种自然语言处理任务,不再依赖人工设计的特征[13-15]。以商品归类场景为例,税管局(上海)以BERT(Bidirectional Encoder Representations from Transformers)模型开展相关可行性试验。选取具有1.02亿个参数的BERT-BASE-CHINESE作为训练基座,采用交叉熵作为损失函数,使用正则化策略防止过拟合,在116个税号上进行测试,训练集和验证集的交叉熵损失值均呈显著下降趋势(图3),测试归类预测准确率达到95%,初步验证了语言模型在税收征管领域应用的可行性。
3.4 提升税收风险综合感知能力,防范和化解税收风险
针对人员知识能力结构性不足与业务形势日趋复杂多变之间的矛盾,税管局(上海)提出将数字化感知和智能化分析从防控功能角度进行整合,探索建立“异常、异动、异样”立体防控的风险感知能力的思路,将价格、归类、原产地等涉税领域的专业技术进行算法和模型构建,并与海关税收风险防控目标和作业流程深度融合以智能分析辅助关员风险研判和决策。定位“异常”,夯实基础,落实正面监管。主要针对日常风险防控,将显著明晰的风险固化为平台逻辑,主要由归类不一致,价格偏离,原产地证书编号不合规等基础模型作为支撑,定期向处置岗位推送。捕捉“异动”,聚焦未知,研判风险之势。重点关注时间维度的剧烈波动和变化,对税收风险的趋势做出预警。比如价格趋势、货值量能变化,原产地漂移等,辅以配套研发的研判工具,由专家进一步定位风险。刻画“异样”,多维分析,把握全局之态。引入外部数据,收集和统一管理各类监控元素,关注违背一般规律或可能导致风险水平上升的事件。今年以来,税管局(上海)通过数字化风险态势感知提示产生的补税合计5.9亿元,占全局同期补税额的44.7%,科技贡献度较去年同期提高8.7个百分点。
4 结语
本文深入探讨了智能分析决策方法在海关税收风险防控中的应用,审视了当前海关智能分析的发展现状和存在的问题,提出了通过科技创新深化智能分析应用的策略。税管局(上海)开展实证研究,通过针对性的数据收集与加工,钻研基础算法,探索人工智能前沿科技,构建风险态势感知模型集群等方法,有效提升了税收风险防控的智能分析决策水平,取得较好的实战效果,为解决事后监管难题提供了解决方案。
随着大数据和人工智能技术的不断发展,我们预见在海关税收风险防控领域,智能分析决策方法的应用将进一步深化和优化,将会有更高效的数据集成、更精准的算法,以及更广泛的人工智能技术在税收征管工作中的应用。
总之,深化智能分析技术应用是落实智慧海关建设、实施“智关强国”使命任务的必然要求,必须坚持以数字化转型、智能化升级为核心,拓展信息收集渠道,建立实时感知、动态监测的管控机制,才能及时预警和掌握风险态势,防控和化解重大税收风险。
参考文献
[1]谭臻荣. 政务大数据驱动的决策支持系统在海关管理中的应用研究[D]. 北京: 对外经济贸易大学, 2018.
[2]刘航冶, 富铁楠, 杨勇. 互联网开源文本情报智能分析技术综述[J]. 情报杂志, 2023, 42(2): 12-16.
[3]胡志强, 罗荣. 基于大数据分析的作战智能决策支持系统构建[J]. 指挥信息系统与技术, 2021, 12(1): 27-33.
[4]汤胤, 彭宏, 郑启伦. 基于数据挖掘和范例推理的智能分析决策支持技术综述[J]. 计算机工程与应用, 2004, 40(9): 184-187.
[5]刘琳, 陈云翔, 葛志浩. 基于正态分布区间数的概率测度及多属性决策[J]. 系统工程与电子技术, 2008, 30(4): 652-654.
[6] 肖潇. 深耕计算机图像识别技术“AI+安防”助力服务实战应用[J]. 中国安防, 2018(9): 20-23.
[7]牛文铖. 人脸识别技术在公安图像侦查中的应用[D]. 内蒙古: 内蒙古科技大学, 2017. DOI:10.7666/d.D01250140.
[8]罗潇轩. 计算机图像处理与识别技术在现代交通中的应用分析[J]. 网络安全技术与应用, 2021(4): 120-121.
[9]范文斌, 王亚平, 张世武, 等. 基于图像识别技术在智慧医疗领的研究[J]. 电子测试, 2022(11): 117-119+55.
[10]冯靓. 图像处理技术在海关监控中的应用研究[D]. 青岛:中国海洋大学, 2007. DOI:10.7666/d.y1071164.
[11] Felzenszwalb, Pedro F, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627-1645.
[12] D. Forsyth, J. Ponce. Computer vision: a modern approach[M]. Prentice Hall Professional Technical Reference, 2002: 133-149.
[13]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Advances in Neural Information Processing Systems, 2017: 5998-6008.
[14]车万翔, 郭 江, 崔一鸣. 自然语言处理: 基于预训练模型的方法[M]. 北京: 电子工业出版社, 2021.
[15]段丹丹, 唐加山, 温勇, 等. 基于BERT模型的中文短文本分类算法[J]. 计算机工程, 2021, 47(1): 79-86.
基金项目:海关总署科研项目(2021HK120)
第一作者:黄新天(1966—),男,汉族,广东广州人,硕士,主要从事海关管理工作,E-mail: dick_huang@sohu.com
通信作者:庄东江(1981—),男,汉族,山东潍坊人,硕士,主要从事海关大数据工作,E-mail: zdjsd@126.com
1. 海关总署税收征管局(上海) 上海 200135
1. Customs National Supervision Bureau for Duty Collection(Shanghai) GACC, Shanghai 200135
图2 原产地证书图像识别及分类方案
Fig.2 Scheme for image recognition and classification of certificates of origin
图3 训练集损失函数和测试集损失函数下降趋势
Fig.3 Trend of decline in the training set loss function and test set loss function