CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于网络爬虫和大数据技术的技术性贸易措施应对研究
作者:李许 李珺 麦宝华 张伟亚 温志英 张宇君 索彦彦
李许 李珺 麦宝华 张伟亚 温志英 张宇君 索彦彦
摘 要 本文通过对技术性贸易措施应对现状进行分析,探讨利用网络爬虫和大数据技术收集、整理、分析国外技术性贸易措施,快速、高效地为企业出口提供应对策略,并为推进技术性贸易措施信息化建设提出可行性建议,以进一步提升技术性贸易措施应对效能,降低技术性贸易措施带来的贸易风险,促进我国对外贸易发展。
关键词 网络爬虫;大数据;技术性贸易措施;应对策略
Discussions on Addressing Technical Barriers to Trade Based on Web Crawler and Big Data Technologies
LI Xu1,2 LI Jun2 MAI Bao-Hua1,2 ZHANG Wei-Ya1,2
WEN Zhi-Ying1,2 ZHANG Yu-Jun3 SUO Yan-Yan1,2*
Abstract This paper analyzes the current situation of addressing technical barriers to trade and explores the use of web crawler and big data technologies to collect, organize, and analyze foreign technical barriers to trade. It aims to provide rapid and efficient strategies for enterprise exports, propose feasible suggestions for advancing the informatization of technical barriers to trade, and thereby enhance the effectiveness of addressing these barriers, reduce trade risks associated with them, and promote the development of China’s foreign trade.
Keywords web crawler; big data; technical barriers to trade; addressing strategies
目前,世界各国之间贸易规模不断扩大,经济联系日益紧密。然而,随着国际贸易的深入发展,技术性贸易措施作为一种新型的、隐蔽性更强的贸易保护手段的运用更加广泛、更加频密。技术性贸易措施的复杂性和多样性在一定程度上增加了企业的合规成本。随着信息化技术的蓬勃发展,众多专家学者也逐渐将目光聚焦于运用信息化技术来开展技术性贸易措施的应对工作。王淼等[1]构建了基于大数据的新型技术性贸易措施情报预警技术,并提出了针对配套工作的具体建议。孙灏明等[2]引入“互联网+”概念,基于互联网、移动互联、云计算和大数据等技术,形成企业、行业协会、产业联盟、检测机构、政府间的多方合作模式,推动技术性贸易措施应对机制向快速化、集聚化转变。网络爬虫能够高效地从海量的网络资源中抓取相关信息,被广泛用于收集来自互联网上的各种信息。大数据技术则对爬取到的海量数据进行处理和分析[3]。将两者结合应用于技术性贸易措施应对领域,具有重要的理论和实践意义,有助于企业提前做好应对准备,降低贸易风险,促进国际贸易的健康发展。本文旨在探索将网络爬虫和大数据技术相结合应用于技术贸易措施应对的可行性,并建立应用流程,以及为各方提供技术性贸易措施应对建议。
1 技术性贸易措施简述
1.1 技术性贸易措施分类
技术性贸易措施最早源于《关税与贸易总协定技术性贸易措施协定》(Agreement on Technical Barriers to Trade of the General Agreement on Tariffs and Trade,GATT/TBT),并被《技术性贸易措施协定》(Agreement on Technical Barriers to Trade, TBT)延续使用。孔庆峰[4]认为两份协定均没有明确定义技术性贸易措施,而仅对成员国制定、采用或实施有限制贸易效果的技术法规提出了原则性要求。一般认为,技术性贸易措施主要包括技术法规、标准和合格评定程序[5]。
技术法规通常规定强制执行的产品特性或其相关工艺和生产方法,包括适用的管理规定在内的文件[6]。通常由政府部门制定,具有法律约束力。我国强制性国家标准具有技术法规的属性[6-7]。
标准通常是指经公认机构批准的、非强制性的、供通用或重复使用的产品或相关工艺和生产方法的规则、指南或特性的文件[6]。标准可以是由行业协会、标准化组织等制定,如国际标准化组织(International Organization for Standardization,ISO)、国际电工委员会(International Electrotechnical Commission,IEC)等制定的标准,以及特定行业内制定的产品标准。ISO/IEC指南2中定义的标准可以是强制性的,也可以是自愿的。就TBT协定而言,标准被定义为自愿的,技术法规被定义为强制性文件[6]。我国标准包括国家标准、行业标准、地方标准、团体标准、企业标准等类别,除部分国家标准有强制性外,其他标准为推荐性。
合格评定程序为任何直接或间接用以确定是否满足技术法规或标准中相关要求的程序,包括抽样、检测和检验,评估、验证和合格保证,注册、认可和批准以及各项的组合[6]。例如,欧盟规定“新方法指令”所覆盖的涉及安全、卫生、健康及环境保护等产品,都必须通过相应的合格评定程序,并加附CE标志后方能进入欧盟市场。
1.2 技术性贸易措施的影响
与传统的关税等贸易措施不同,技术性贸易措施往往具有较强的隐蔽性,它不是直接通过提高进口商品的价格来限制贸易,而是以保障公共利益的名义,通过制定复杂的技术要求来达到限制进口的目的,越是发达国家制定的技术性贸易措施技术难度越高[8]。同时,技术性贸易措施的多样性、复杂性也增加了企业应对的难度。不同国家和地区的技术要求可能存在差异,甚至同一国家的不同部门发布的技术法规也可能存在差异,这就要求企业具备较强的应对能力。
技术性贸易措施对国际贸易既有限制作用,也有一定的促进作用。在限制方面,过高或不合理的技术要求会增加企业的成本,降低产品的竞争力,导致部分企业无法进入目标市场,从而减少贸易流量。然而,从另一方面看,合理的技术性贸易措施可以推动企业进行技术创新,提高产品质量和安全性,满足消费者不断提高的需求,从而增强产品在国际市场上的竞争力。
1.3 国外技术性贸易措施的发展趋势
随着科技的进步和社会需求的变化,国外技术性贸易措施不断更新和强化,新技术、新工艺的出现促使相关的技术法规和标准随之调整和完善。同时,为了应对新的风险和挑战,如网络安全、人工智能等领域的问题,技术性贸易措施也在不断加强。在全球可持续发展的背景下,绿色、环保、健康等领域成为国外技术性贸易措施关注的重点。各国对产品的环境友好性、可再生资源利用、碳排放等方面提出了更高的要求。比如,对于纺织品,不仅要求其质量和性能符合标准,还要求在生产过程中减少水资源消耗、降低化学物质排放;对于电子电气产品,则要求关注其回收利用和有害物质的限制使用。
2 网络爬虫和大数据技术在技术性贸易措施研究中的应用
2.1 网络爬虫技术原理
网络爬虫是一种按照一定的规则,自动抓取互联网信息的程序或脚本[9],其工作流程主要包括:(1)确定起始的统一资源定位符(Uniform Resource Locator,URL),通常是目标网站的首页或特定的页面。(2)爬虫程序向该URL发送请求,并获取页面的超文本标记语言(Hyper Text Markup Language,HTML)代码。(3)对获取的HTML代码进行解析,提取出其中的链接,并将这些链接加入待抓取的队列中,同时根据预先设定的规则和条件,提取出页面中的有用数据,如文本、图片、表格等。(4)重复上述过程,不断地从队列中取出新的URL进行抓取和数据提取,直到满足特定的停止条件,例如达到预设的抓取深度、抓取数量或者没有新的有效链接可抓取[10]。
2.2 大数据分析技术
大数据技术处理海量数据的能力对技术性贸易措施研究至关重要。随着网络爬虫获取的数据量不断增加,传统的数据处理方法往往无法应对。大数据技术,如分布式存储和计算框架(如Hadoop、Spark等),可以将大规模的数据分布在多个节点上进行存储和处理,从而大大提高了数据处理的效率和能力,能够在短时间内对大量的技术性贸易措施数据进行快速的加载、转换和分析。
大数据技术的数据挖掘和分析方法有助于从各类复杂的技术性贸易措施数据中发现隐藏的模式、趋势和关系。例如,通过数据关联性分析可以揭示技术法规间的关联性,追溯到能够引发连锁反应的法规;聚类分析可以将相似的技术性贸易措施进行分组,帮助更好地理解不同地区和行业的特点;预测分析可以基于历史数据预测未来技术性贸易措施的发展趋势,以便提供前瞻性的决策支持。
2.3 网络爬虫与大数据技术结合的可行性与优化
网络爬虫获取的技术性贸易措施数据来源多样、格式各异,通常存在大量的重复、缺失和错误信息。将网络爬虫获取的技术性贸易措施数据与企业内部数据、其他外部数据源进行整合时,需要解决数据格式不一致、语义差异等问题。在数据分析之前,必须进行去除重复数据、补充缺失值、纠正错误数据等数据清洗工作,以确保数据的质量和一致性[11]。然而,数据整合与清洗是一个复杂而耗时的过程,需要大型服务器的高效的算法和工具支持。
网络爬虫与大数据结合在技术实现上存在一些难题。例如,网络爬虫在抓取技术性贸易措施数据时可能会遇到反爬虫机制,导致抓取失败或被封禁;大数据处理框架在处理海量数据时可能会出现性能瓶颈,如内存不足、计算速度慢等问题[12]。针对这些技术难题,可以采取以下解决方案:对于反爬虫机制,可以采用模拟人类行为的爬虫策略,如设置合理的访问间隔、使用代理IP等;对于大数据处理的性能问题,可以优化数据存储结构、采用合适的分区策略、调整计算资源配置等。同时,不断跟进和应用最新的大数据技术和模型,以提高系统的性能和扩展性[13]。
3 基于网络爬虫和大数据技术的技术性贸易措施数据收集与分析
在数字化时代,网络爬虫与大数据技术紧密结合,为技术性贸易措施数据的收集与分析开辟了新路径。使用网络爬虫和大数据技术应对技术性贸易措施时,一般分为确定数据来源与收集、数据预处理与清洗、数据分析方法与模型建立等流程。
3.1 数据来源与收集
政府部门网站是获取技术性贸易措施相关数据的重要来源[14]。各国的贸易部门、标准制定机构、质量监管机构等官方网站会发布最新的技术法规、政策文件和通知。
国际组织的数据库也是不可或缺的数据来源。世界贸易组织的相关通报数据库,提供了各国提交的通报信息。ISO、IEC等专业标准化机构的数据库则包含了大量国际标准的详细内容和更新情况。
行业协会通常会针对本行业的发展情况和面临的技术性贸易措施发布相关报告。这些报告可能包括行业内的技术发展趋势、市场准入要求的变化、企业应对措施的案例分析等。
3.2 数据预处理与清洗
3.2.1 去除重复与无效数据
在技术性贸易措施数据收集过程中,由于网络爬虫的多次抓取或不同数据源的重复发布[15],可能会获取大量重复的技术性贸易措施数据,这些重复数据会变为垃圾信息,既占用存储空间,又影响后续分析的准确性和工作效率。因此,需要通过数据去重算法去除重复的记录,只保留唯一有效的数据。同时,还需要识别和剔除无效技术性贸易措施数据,如格式错误、内容缺失、无法解析的数据。
3.2.2 数据标准化与规范化
收集到的技术性贸易措施数据可能存在格式不一致、编码不同、单位各异等问题,需要进行标准化和规范化处理。例如,将日期格式统一为特定的格式(如“YYYY-MM-DD”),将货币金额统一为特定货币单位并按照一定的汇率进行转换,将文本数据中的缩略词和同义词进行统一规范等处理。通过建立数据字典和数据标准,对数据的字段名称、数据类型、取值范围等进行明确规定,确保数据的一致性和准确性,为后续的数据分析和应用提供可靠的数据基础[16]。
3.3 数据分析方法与模型
3.3.1 文本挖掘与关键词提取
对收集到的大量技术性贸易措施相关的文本数据,采用文本挖掘技术进行分析。通过自然语言处理(Natural Language Processing,NLP)技术对文本数据进行分词、词性标注、命名实体识别等处理[17]。然后,运用关键词提取算法,如词频-逆文档频率(Term Frequency - Inverse Document Frequency,TF-IDF)、抽取型文本摘要算法(Text Rank)等,从文本中提取出具有代表性和重要性的关键词和短语。这些关键词能够反映技术性贸易措施的重点领域、关键技术要求和热点问题。
3.3.2 统计分析与趋势预测
利用统计分析方法对数据进行定量分析,可以计算技术性贸易措施的发布数量、涉及的产品类别分布、不同国家和地区的发布频率等统计指标,并通过绘制柱状图、折线图、饼图等直观地展示数据的分布和趋势。同时,运用时间序列分析、回归分析等方法对技术性贸易措施的发展趋势进行预测。
4 技术性贸易措施的应对建议
4.1 企业层面的应对策略
首先,企业可加大在产品技术创新、研究开发方面的投入。通过自主研发或与科研院所、高等院校合作,掌握核心技术,解决“卡脖子”问题,提升产品的性能和安全性,满足甚至超越技术性贸易措施的要求。其次,企业应建立完善的管理体系。加强对进料检验、工艺控制、成品检验等环节的管理,提高产品的稳定性和一致性。最后,企业应提高合规意识与能力,加强对技术性贸易措施的学习和研究,培养专业的合规人才;及时了解目标市场的技术法规和标准变化,确保产品在出口前符合相关要求;建立合规审查机制,对产品的设计、生产和销售环节进行定期审查,避免因违规而导致贸易损失。
4.2 行业协会的作用及协同应对
行业协会应密切关注技术性贸易措施的最新动态,及时收集、整理和分析相关信息,向企业提供准确、及时的信息服务;组织行业企业开展针对性的技术法规培训,助力企业掌握技术性贸易措施的内容和应对方法。同时,应不断推动标准化工作,加强我国标准与国际标准的协同互认,减少因标准差异导致的贸易障碍;积极组织行业企业参与国内和国际标准制修订工作,特别是争取将我国企业的技术和知识融入国际标准中,提高在国际市场上的话语权。行业协会也应致力于组织企业联合行动、形成合力,共同应对技术性贸易措施。
4.3 政府层面的政策支持与引导
政府应积极参与国际技术贸易规则的制定和谈判,加强与其他国家和地区的交流与合作,争取在技术性贸易措施方面达成更多的共识和互惠协议。另外,通过双边或多边谈判,解决贸易争端,为我国企业创造公平的贸易环境。与此同时,政府也应进一步建立健全技术性贸易措施预警体系,及时收集、分析和发布国外技术性贸易措施的最新动态和趋势,为企业提供前瞻性的指导,帮助企业提前做好应对准备。政府对于技术与资金的支持也是必不可少的一环。因此,应加大对企业技术创新和应对技术性贸易措施的支持力度,设立应对技术性贸易措施专项基金,鼓励企业开展技术研发和标准制定工作,提高企业的技术水平和应对能力[18]。
5 结语
本文阐述了技术性贸易措施的分类、影响和国外发展趋势,探讨了网络爬虫和大数据技术在技术性贸易措施应对领域中的应用,并构建基于两项技术的应用流程。另外,从企业、行业协会、政府层面提出应对技术性贸易措施的建议。下一步,可以深化网络爬虫和大数据技术在技术性贸易措施研究中的应用,探索更加智能和高效的爬虫算法,提高数据抓取的准确性和完整性[19]。同时,结合人工智能、机器学习等先进技术对大数据进行更深入的分析和预测,并将技术性贸易措施与其他相关领域如知识产权保护、贸易政策等相结合,进行综合性的研究。
参考文献
[1]王淼, 唐妍琪, 王若雅, 等. 基于大数据的技术性贸易措施情报预警模式探究[J]. 标准科学, 2024, (6): 46-52.
[2]孙灏明, 江其蔚. “互联网+”的技术性贸易措施快速应对服务模式的研究[C]. //中国标准化协会. 标准化助力供给侧结构性改革与创新——第十三届中国标准化论坛论文集. 无锡检验检疫局公共质量技术中心, 2016: 8.
[3]李红. 大数据技术在经济领域的应用分析[M]. 北京: 经济科学出版社, 2021: 100-120.
[4]孔庆峰. 技术性贸易壁垒: 理论、规则和案例[M]. 北京: 中国海关出版社, 2004: 45-60.
[5]世界贸易组织. 技术性贸易壁垒协定(WTO/TBT)[S]. 1994. [https://www.wto.org/english/docs_e/legal_e/17-tbt_e.htm].
[6]于连超. 论强制性国家标准的技术法规化变革[J]. 电子知识产权, 2023, (6): 16-24.
[7]贾立甲, 李建军, 王耀. TBT协定中认定技术法规的“强制性”判断标准探析[J]. 中国口岸科学技术, 2020, (8): 50-54.
[8]毕颖. 论我国对外贸易中的技术性贸易壁垒及其应对措施[J]. 商场现代化, 2014, (5): 26.
[9]方延风. “互联网+”背景下开源软件在科技情报研究中的应用——信息采集、存储和预处理[J]. 科技和产业, 2017, 17(8): 141-146.
[10]顾勤. 网络爬虫技术原理及其应用研究[J]. 信息与电脑(理论版), 2021, 33(4): 174-176.
[11]黎楚越. 数据挖掘在电力调度自动化系统中的应用[J]. 数字技术与应用, 2023, 41(10): 61-63.
[12]林子雨. 大数据原理与应用: 概念、存储、处理、分析与应用[M]. 北京: 中国邮电出版社, 2017: 3-5.
[13]姜姿屹. 大数据视域下计算机信息处理系统的优化设计[J]. 电子技术与软件工程, 2021, (11): 169-170.
[14]王伍. 技术壁垒论[M]. 上海: 上海财经大学出版社, 2008, 303-316.
[15]王芳. 基于Python爬虫技术的互联网数据抓取方法设计[J]. 信息与电脑(理论版), 2023, 35(7): 41-43.
[16]赵静. 大数据背景下企业财务共享服务中心应用研究[J]. 中国管理信息化, 2019, 22(16): 61-62.
[17]陈劲, 林怀忠, 陈方疏, 等. 一种从中文网页中抽取信息的综合方法[C] //第29届中国数据库学术会议论文集, 2012: 171-178.
[18]陈丽红. 碳达峰与碳中和背景下工业低碳发展分析[J]. 资源节约与环保, 2023, (6): 114-117.
[19]龙香妤. 基于网络爬虫技术的数据抓取程序的设计[J]. 技术与市场, 2021, 28(10): 41-43.
基金项目:海关总署科研项目(2023HK136,2024HK076);深圳市技贸研究项目(ZXZJ20230616000097);宁波市公益项目(2023S047);深圳海关科研项目(2024SZHK002)
第一作者:李许(1982—),男,汉族,河南南阳人,硕士,高级工程师,主要从事进出口商品检验及质量管理工作,E-mail: nokia119@126.com
通信作者:索彦彦(1978—),女,汉族,河北滦州人,硕士,主要从事进出口商品检验和技术性贸易措施研究工作,E-mail: tjusuo@126.com
1. 深圳海关工业品检测技术中心 深圳 518067
2. 深圳市检验检疫科学研究院 深圳 518045
3. 深圳海关 深圳 518026
1. Shenzhen Customs Industrial Products Testing Technology Center, Shenzhen 518067
2. Shenzhen Academy of Inspection and Quarantine, Shenzhen 518045
3. Shenzhen Customs, Shenzhen 518026