CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
试论大数据标签化在进出口企业画像中的运用
作者:徐 强1
徐 强1
摘 要 当前,全球科技创新密集活跃,特别是大数据、物联网、人工智能、移动互联等新技术的不断突破,对人类生产方式、生活方式乃至思维方式都产生了深刻影响。海关作为国家进出境监督管理机关,必须把握新一轮科技革命浪潮,在维护国门安全中,充分运用新科技,坚持科技创新和制度创新“双轮驱动”,不断推动海关治理体系和治理能力现代化。在大数据广泛运用的大背景下,本文以进出口企业为对象,从用户画像在海关监管与服务中运用的必要性入手,探讨如何通过树立用户思维来建立企业数据标签化体系,从而做到精准画像,最终实现智能监管、精准防控、高效服务和智慧治理。
关键词 大数据;标签化;标签体系;企业画像
On the Application of Big Data Labeling
in the Profiling of Import and Export Enterprises
XU Qiang1
Abstract At present, global technological innovation is intensive and active, especially the continuous breakthroughs in new technologies such as big data, Internet of Things, artificial intelligence, mobile Internet, etc., which have a profound impact on our means of production, lifestyles and even ways of thinking. As the national entry-exit supervision and management authority, the customs must grasp the new wave of scientific and technological revolution, fully use the new technology in safeguarding national security, adhere to the "two-wheel drive" of technological innovation and institutional innovation, and continuously promote the improvement and modernization of customs governance. Departing from the analysis on the necessity of profiling import and exporter enterprises, this paper discusses how to establish a system of labelling enterprise data in customs control and services by applying the concept of users in the context of the widespread application of big data. Accurate profiling can help achieve intelligent supervision, precise prevention and control, efficient services, and smart governance.
Keywords big data; tagging; labelling system; enterprise profiling
根据国务院《促进大数据发展行动纲要》的要求,树立大数据思维,运用大数据手段,必将成为我国政府及相关部门不断完善治理体系、提升治理能力的重要途径[1]。2019年年初,海关总署在《海关全面深化业务改革2020框架方案》中明确提出,科学规范采集数据信息,构建完善的海关大数据池,建立国内领先的大数据应用平台,全领域加强大数据应用,提高海关洞察力。当前,海关机构改革正向纵深推进,如何通过手段集成、资源集约、监管智能和管理智慧,强化权责一致性,提升智能监管水平,是海关需要研究的课题之一。对企业实施多维度的精准画像,将是强化监管、优化服务的有效手段。通过创建大数据分析模型,将企业数据标签化,在海关事前、事中、事后全过程监管中实施实时、精准的智能分析,实现“以企为本、由企及物、全链条”精准监管,最终实现智能监管、精准防控、高效服务和智慧治理。
1 基本概念
随着大数据技术在人们日常生活领域的不断渗透与应用,越来越多的企业利用大数据对消费者的消费行为开展精准分析,从而在精准营销中达到精准服务的目的。由此,消费群体甚至消费个体的消费特性与习惯在企业或商户面前呈可视化状态,用户画像的概念应运而生[2]。
用户画像是对现实用户做的一个数学模型,在整个数学模型中,核心是要找到一个方式来描述用户信息,而标签便成为一种实现方式。 标签是某一种用户特征的符号表示,是可以通过关键词、关键字发现用户信息内在的关联性,从而搜寻到一类群体或个体的某类特征或某个特征。用户画像,就是要将用户数据信息标签化,通过采集与分析用户的消费习惯、生活兴趣、社会特性等主要信息数据,抽象出一个用户全貌。
以企业为对象的画像,即为企业画像。通过预先构建的数据模型,从大量数据中获取目标企业的特征标签,针对企业信用、生产经营、内控管理等领域建立多标签体系,进而抽象生成企业画像。
海关对进出口企业实施精准画像,就是按照“以企为本、由企及物”的监管理念,以企业基本信息数据为基础,广泛采集与之相关的行业信息数据、政策信息数据和公共管理信息数据等,建立一个标准化、多指标的大数据标签体系。通过将立体式、可视化的画像结果应用于通关信息化系统,对高信用、低风险企业快速通关,对失信企业和高风险企业实施严密监管,对国家大政方针执行情况和海关监管政策服务进行有效评估。
2 海关运用大数据实施企业画像的必然性
2.1 通过科技创新完善治理体系和提升治理能力
2019年10月,党的十九届四中全会审议通过了《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》。作为国家大政方针的具体执行者以及经济社会发展的保驾护航者,政府部门的治理能力有着举足轻重的作用。特别是进入大数据时代,政府部门应树立大数据思维,实现治理理念的创新[3]。
海关作为国家进出境监督管理机关,在完善治理体系和提升治理能力的过程中,应重视大数据的运用,通过主动采集、深度分析、智能共享,实现专业数据与治理手段的融合,形成统一的大数据共享平台。利用大数据平台,突破业务限制、层级限制、部门限制甚至地域限制,特别是在对风险因素的预判、防控方面,将实现协同高效的行政与管理、监管与服务。因此,大数据在海关的运用,可以为海关优化治理体系、提升治理能力开辟一条新路径。
2.2 通过大数据运用顺应“互联网+政务”时代和优化服务
在物质丰富的时代,人民生活质量明显改善,特别是国家大力推行“互联网+”,人民群众对生活服务、法律保障、生态需求、综合治理等各个方面的要求呈现多样化、个性化,在政治、经济、社会等各个领域对亲身体验、主动参与、诉求表达等意识明显增强,因此,对于公共事务的处理与回应,不仅要及时还要准确。
海关开展进出口企业画像,是以用户思维撬动政务服务的有效形式,推动海关服务更加高效,最终实现“让数据多跑路、让群众少跑腿”。同时,通过大数据采集和精准画像,实现法规文件信息和进出口企业信息的智能获取、比对与运用,使政策预测分析、政策执行评估和政策咨询服务更加精准。
2.3 通过企业画像强化精准监管和维护国门安全
当前,“用数据说话、用数据决策、用数据管理、用数据创新”成为公共管理和国家治理的重要原则[4]。海关通过多年的物流信息化、政务信息化建设,能够准确及时地采集监管所需的大量货物相关数据。同时,广大进出口企业在数字化转型和产业链集成过程中,逐渐将数据作为一个新的生产要素渗透到生产、管理、营销等环节中,企业发展逐步由传统的核心产业带动向现代的数据创新驱动转型,为海关借助大数据手段实施开放式监管、流动性监管、精准化监管、网络化监管提供了前提条件。如何通过对进出口企业的精准画像,借助大数据分析结果来辅助决策,实现手段集成、资源集约、监管智能、管理智慧,已成为海关监管现代化、服务现代化的重要课题之一。
3 画像数据标签体系的构建
3.1 数据采集
2011年,麦肯锡公司首次正式对大数据的概念作出界定:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。画像基础数据采集,需要全面收集与企业相关的原始数据。按照不同数据类型,基本可以分为以下几类。
(1)静态数据和动态数据。静态数据是反映企业基本状况且一段时间内相对不变的信息数据,如企业组织机构、投资人基本情况、房产信息、税务登记信息、分支机构情况、专业资质备案信息等。动态数据是反映企业一段时间内的生产经营行为、行政管理行为、账务处理行为,包括注册资本变化信息、企业改制、动产抵押情况、海关报关数据、融资抵押数据、行政刑事处罚信息、媒体报道信息、社会活动情况等。
(2)内部数据和外部数据。从企业内部系统可以调取的数据是内部数据,如经营管理者信息、经营状况信息、资产负债数据、投资融资数据、主要财务指标、企业年报信息等。外部数据主要是企业所处的行业数据、网络舆情数据和外部评价数据等,如执行相关法律法规情况、产业政策、上下游企业、行业发展趋势、新闻媒体正负面报道、行业地位分析等。
3.2 数据标签化
在大数据领域里,用户的行为数据无法直接用于数据分析和模型训练,而将行为数据标签化,则会对用户有直观的认识。每一个标签都规定了我们观察、认识和描述用户的一个角度,一个标签仅仅描述了用户的某一个角度。而当很多个标签,即多个角度的内容整合在一起时,就形成了某一个或某一类的用户画像。反之,我们把用户当成一个整体,但分析这个用户时,各个维度又并不是独立的。将这些维度分析的信息拆分成无数个标签,每个标签则标识了某一个用户特征,如图1所示。而标签与标签有一定联系,所以一个标签体系就代表了一类用户群。
图1 标签特征
Fig.1 Label features
由此可知,根据企业原始数据的特征进行一定的表述和归并,将采集的静态数据与动态数据、内部数据与外部数据打上标签,对基础数据进行规整处理,转化为相同维度的特征向量。打标签,其实质就是特征提取,将数据结构化。例如,将“董事长是张三”“某国资委占股51%”“进口天然橡胶、出口轮胎”“向某银行抵押贷款”“海关高级认证企业”等基本数据对应至“基本信息”“管理信息”“经济活动”“公共信息”的标签,这就是数据标签化的过程。每个标签分别描述了该企业的某一个特征向量,各个特征向量之间紧密联系、相互影响,综合所有维度特征,则勾勒出该企业的整体画像。
3.3 标签体系的构建
标签,是对数据特征的描述或命名。为了明晰各个数据之间的关联关系,通常要对所有标签构建一个体系,便于通过智能计算深度挖掘用户特征及内在联系。
从组织体系的完整性角度,标签体系结构可分为结构化标签体系、半结构化标签体系和非结构化标签体系。结构化标签体系,标签组织比较规整,有明确的层级划分和“父子关系”。对企业实施画像,一般构建结构化标签体系。将关联到用户具体数据的标签称为“子标签”,而对子标签进行分类汇总的标签称为“父标签”。从不同的维度进行分类汇总,可形成多个“父标签”,两类标签共同构成了标签体系。
从运算层级的角度,标签可以分为三层:事实标签、模型标签和预测标签,如图2所示。
图2 标签体系
Fig.2 Labelling system
事实标签是通过对原始数据库的数据进行统计分析而来的。事实标签的构建过程,也是对数据加深理解的过程。通过对基础数据的处理与加工,为更高层级的标签构建做好准备。
模型标签是标签体系的核心,是用户画像最重要的特征标签。它是基于事实标签,通过构建事实标签与特征关系之间的模型,以满足决策者或施策者某一特定领域或维度的分析需求。在构建过程中,大多涉及机器学习和自然语言处理等技术。
预测标签是在模型标签的基础上做预测,是基于事实标签和模型标签进行统计建模得出的,其构建多与监管风险指标紧密联系。
通过打标签的形式实施用户画像,只能做到不断地接近一个“人”(自然人或法人),却无法百分之百地描述一个“人”。因此,用户画像既要根据变化的基础数据不断修正,又要根据已知数据来抽象出新的标签,并将这些标签分类汇总,将单向的标签系统化,形成多维度的标签体系,才能使用户画像越来越立体、越来越接近真实。
4 标签体系在企业画像中的运用
按照不同维度、不同类型,对海关内部和外部信息的采集、数据的清洗、标签的设定、体系模型的建立,实现全方位的企业个体精准画像,进而形成关联企业的群谱、重点类型企业的群像,从而对监管风险进行预警,以及对政府部门落实政策、企业享受政策开展全方位评估。如图3所示。
图3 用户画像流程
Fig.3 Porfiling process
结合海关监管与服务工作,以“画细、画准、画全”为目标,按照业务种类和信息反馈环节,分为关税、监管、加贸、检验、检疫等业务领域,以及物流、单证流、资金流等行为信息,增强企业画像的精准度和立体型,从而提炼出某一标签体系模型下的企业群像,如加贸企业群像、失信企业群像、涉检企业群像、进口固废企业群像、违法违规企业群像等,实现通关环节的差别化管理,解决有效监管和监管资源不足的矛盾,以及实现对国家重大政策落实情况的实时评估,不断完善海关系统治理体系、提升提高治理能力。
如图4所示,以某轮胎加工贸易企业为例,在画像中运用大数据标签化的过程如下。
第一步,数据采集、清洗(基础数据):公司基本信息、天然橡进口数量、轮胎规格型号、轮胎消耗定额表(BOM表)、国内市场销售额、银行贷款金额、设备抵押情况、其他销售收入金额、轮胎行业标准数据、海关加工贸易货物监管规定等。
第二步,数据标签化(事实标签):加工贸易政策法规、外商投资企业、轮胎加工出口企业、限制类商品(天然橡胶)进口企业、有单耗标准商品、有边角料销售收入等。
第三步,构建标签体系(模型标签):加工贸易企业、低资信企业、轮胎BOM偏高、年度国内销售金额大于出口金额等。
第四步,多维度画像分析(预测标签):加工贸易政策监管存在漏洞(政策有效性)、单耗标准覆盖面较窄(政策合理性)、轮胎加工行业普遍存在保税料件与非保税料件串换风险(行业风险提示)、某企业涉嫌高报单耗、未申报或少申报边角料、擅自外发、出口多报少出(监管风险提示)等。
第五步,监控反馈、政策评估:对预测风险指令开展排查,并反馈结果评估其有效性;对国家政策从企业执行和海关落实层面评估其合理性;对海关监管可能存在的问题提出完善建议;对企业可能需要却尚未执行的政策法规或享受的政策红利予以有针对性的推送[5]。
综上所述,如图5所示,通过运用画像分析结果,海关作业系统对企业设定风险等级,强化事前风险预判;根据风险等级对其申报的货物归类、价格等实施布控查验,根据系统异常数据提示(出入库数据倒挂、日产量激增、突发舆情等),及时开展核查和处置,强化事中实际监管;根据一个周期(季度、年度或账册核销周期)对其进出口、生产经营及守法情况、政策运用等开展综合评定,强化事后评估。这样一方面,以风险布控、核查反馈的形式达到强化监管的要求;另一方面,通过政策评估、调整优化来不断提升服务水平。
图4 标签体系运用
Fig.4 Application of labelling system
图5 画像分析运用
Fig.5 Application of Profile analysis
目前,海关总署和部分直属海关已经开展与企业画像相关科技项目的研究,合肥、青岛、深圳等海关已经初步成型并进入运行、推广阶段。未来,企业画像的敏捷可视化将是画像运用的重点研究方向。数据可视化是以图形、图像处理、计算机视觉以及用户界面的形式呈现数据,对数据加以可视化解释,使决策者能够直观地看到分析结果。数据可视化起源很早,较晚出现的敏捷可视化分析是基于自服务(Self-Service)的实现理念,通过敏捷、迭代的可视化分析,能够快速满足应用者的分析需求,最终打造出“发现问题、发布指令、采取行动”的可视化分析闭环。以大数据应用为基础,通过数据标签化体系建立的企业画像,为决策层、管理层、执行层提供全面、直观、立体的敏捷可视化结果展示,通过应用场景设置,使企业画像在风险预警、精准布控、政策服务等方面实现前瞻性预测、智能化决策和全方位评估。
5 结语
随着科技创新在海关监管与服务工作中的不断推进,以及大数据标签体系化在企业画像中的不断运用,以大数据运用助推权力制约无缝化,以精准画像助推监管风控精准化,以智能评估助推行政决策科学化,必将建成“严密高效的智慧作业、精准科学的智慧决策、方便易用的智慧服务、规范标准的智慧管理”的治理体系和治理能力现代化海关。
【该文经CNKI学术不端文献检测系统检测,总文字复制比为4.5%。】
参考文献
[1] 陈刚. 运用大数据思维和手段提升政府治理能力[J]. 大数据时代, 2017, (03): 6-13.
[2] 曾鸿, 吴苏倪. 基于微博的大数据用户画像与精准营销[J]. 现代经济信息, 2016, (16): 306-308.
[3] 李兴成. 中国地方政府提升治理能力研究[D]. 重庆大学, 2013.
[4] 于会永. 运用大数据提升政府治理能力[N]. 吉林日报, 2017-12-27(10).
[5] 张建国. 新经济背景下海关税收治理转型的目标与途径: 协同智税与数据赋能[J]. 海关与经贸研究, 2018, 39(01): 25-35.
(文章类别:CPST-A)