CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于AIGC技术的自动生成分析报告研究
作者:马群凯 王齐 王佳蕾 李玄 文杨 赵碧君 张济凡
马群凯 王齐 王佳蕾 李玄 文杨 赵碧君 张济凡
摘 要 本文聚焦人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的理论研究、经典模型以及在海关领域的应用。其中,理论研究方面,涵盖其基础架构预训练语言模型基本原理、发展历史和架构特点;经典模型方面,介绍了生成式预训练的Transformer模型(Generative Pre-trained Transformer,GPT)和基于Transformer的双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)以及衍生的AIGC概念。在此基础上,通过业务报告自动生成场景,采用业界主流的“大语言模型+知识库”的AIGC技术架构,探索对业务文本信息数据进行自动汇总分析,生成报告或摘要,并对生成结果从可信度和实用性两个方面进行评价。经分析专家团队审核,生成结果可信度和实用性评分均达到预期。
关键词 人工智能生成内容;预训练语言模型;大语言模型
Research on Automatic Generation of Analysis Reports Based on AIGC Technology
MA Qun-Kai1 WANG Qi1 WANG Jia-Lei1 LI Xuan1
WEN Yang1 ZHAO Bi-Jun1 ZHANG Ji-Fan1
Abstract This article focuses on the theoretical research, classic models, and applications of AIGC generative artificial intelligence in the customs field. In terms of theoretical research, it includes the basic principles, development history and architectural features of the underlying infrastructure and pre-trained language models. Regarding classic models, it introduces GPT and BERT as well as the AIGC concept derived from them. In terms of applied research, test scenarios are automatically generated through business reports. The mainstream “large language model + knowledge base” AIGC technical architecture in the industry is adopted to explore the automatic summary and analysis of business text information data, generating reports or summaries, and evaluating the generated results from the aspects of credibility and practicality. After review by the analysis expert team, the credibility and practicality scores of the generated results have both met expectations.
keywords Artificial Intelligence Generated Content; pre-trained language models; large language models
近年来,随着人工智能技术应用逐渐深入,构建智能模型对文本信息进行生成式分析的业务需求逐渐增加。自然语言处理技术的快速发展,应用预训练大模型在海量文本数据中开展无监督(半监督)学习已经成为增强语言模型性能的新方向,并直接催生了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的发展。预训练机制打破了传统语言模型构建时普遍存在的领域隔阂现象,使语言模型的应用模式更加贴近人类习惯。这类模型代表如基于Transformer的双向编码器表示模型(Bidirectional Encoder Representations from Transformers,BERT)和生成式预训练的Transformer模型(Generative Pre-trained Transformer,GPT)等,在多项语言任务测试中仅需在基础模型上进行参数的微调即可达到较好效果。而AIGC同时兼具预训练技术、多模态技术和生成式算法等特点,是目前前沿的人工智能研究方向之一。
海关业务工作中涉及提取、分析大量文本类信息。通过研究AIGC技术,并与典型业务需求相结合,可为海关业务工作智能化升级提供更多技术支持。一直以来,海关信息分析研究方向选择和报告编写工作高度依赖一线业务专家提供的线索及分析人员的经验积累。通过引入AIGC技术,对收集的国际贸易、稽查等相关信息进行汇总,快速生成高质量报告或摘要,有助于分析人员高效了解研究领域的热点信息。
1 理论研究
目前AIGC的核心技术是大语言模型,核心构建手段是预训练方式,应用这些技术构建的生成式大语言模型是目前AIGC的主流研究方向之一,ChatGPT和DeepSeek是其中的典型代表。
1.1 预训练语言模型简介
语言表示的目的是将自然语言(如汉语、英语等)表示成计算机能处理的形式,即用数字化的向量来表示不同的字、词、句、段落等。语言向量表示的两种常用方式分别为独热编码和分布式表示。语言模型即通过制定的训练任务(目标)来更好地学习词向量的分布式表示。例如,早期较有代表性的Word2vec模型,通过设计两种模型任务来学习词的分布式表示。通过上下文的词来预测当前词(Continuous Bag-of-Words模型),以及通过当前词来预测上下文(Skip-gram模型)。
广义上的预训练语言模型可以泛指提前经过大规模数据训练的语言模型,包括早期的以Word2vec、GloVe为代表的静态词向量模型,以及基于上下文建模的CoVe、ELMo等动态词向量模型。预训练模型改善了传统语言模型的两个主要缺陷:一是传统的语言模型只能在少数做好标签标注的数据集上开展训练,无法利用海量的无标注数据进行学习;二是传统语言模型构建需要根据不同的场景任务独立设计模型结构,并进行大量重复学习。由于预训练结合迁移微调的应用方式跳过了大量基础语言特征的学习,使语言任务更加专注于学习具体的业务场景知识,这就极大地加快了模型训练的收敛速度,进一步简化了应用难度。
1.2 预训练语言模型的发展
目前主流的预训练模型都是基于深度学习的神经网络模型发展而来。在深度学习提出早期,Geoffrey E Hinton等[1]发现在无监督学习后接有监督学习的语言模型结构具有较好的效果。2010年, Dumitru Erhan等[2]提出了预训练效果显著的两个猜想:一是具有更好的损失优化能力,二是可以进行更好的正则化。2019年,Nikunj Saunshi等[3]提出了潜在类别的概念,解释了某些预训练模型和下游微调任务之间的关联,并在此基础上证明了下游任务的最大损失不可能超过预训练模型,这样就保证了下游应用的效果。
2013年Word2vec模型的提出开启了预训练模型的先河。2014年GloVe模型引入了动态词向量,增强了语言表示的适应性。2014年Dzmitry Bahdanau等[4]提出了Attention注意力机制,提高了对文本序列中局部重要信息的关注度,并且加快了模型训练的速度。2017年诞生了以注意力机制为基础的Transformer模型,后续被广泛应用的BERT和GPT等模型均是在该模型基础上构建形成。
1.3 架构和经典模型
2017年,Transformer在 Attention注意力机制框架下构建形成[5],主要由3个模块组成:词嵌入(Embedding)模块用于把自然语言转换成数字向量;编码(Encoding)模块用于进行词嵌入的上下文表示计算;解码(Decoder)模块用于将学习到的词向量生成自然语言。Transformer相较于传统的循环神经网络模型(Recurrent Neural Network,RNN),主要有三方面的优势:可以实现并行计算,具有更高的计算效率;可以捕捉序列中不同位置之间的依赖关系,实现上下文感知;采用预训练加微调的方式可以学习到更多的语言特征和模式,微调过程可以根据具体任务进行有监督学习,进一步提高了模型的准确性和泛化能力。
GPT模型诞生于2017年,开创了预训练加微调的大语言模型应用范式,通过仅使用Transformer 模型的解码模块作为特征抽取器,在大规模文本上进行语言知识学习。GPT模型设计的任务是通过一系列前序词来预测下一个单词,主要用来生成下文,属于生成式模型。BERT模型于2018年发布[6],同样基于Transformer构建。BERT模型的设计任务主要有两个,一是通过上下文预测中间词,二是通过上下文预测某句话是否为另一个句子的下文。BERT模型只使用了Transformer的编码模块,不涉及生成下文,只学习上下文的语言表示。
1.4 模型应用
在前述技术理论基础上,业界研究构建出了多个生成式大模型应用,如ChatGPT、通义大模型、盘古大模型等。本文以ChatGPT为例,介绍大模型现阶段应用特征和优化技术。
ChatGPT发布于2022年11月,其特点是可以通过对话的方式执行多模态任务,比如回答查询、撰写邮件、代码、文案、翻译等任务。目前以ChatGPT为代表的生成式大模型在构建过程中均以GPT模型架构为基础,在训练过程中引入强化学习思想,能够学习人类偏好和主观意识[7]。这使得模型可以根据少量的人类反馈结果不断优化模型参数,并生成更符合人类价值观的结果。
目前在使用ChatGPT等生成式大模型过程中,通常可以采用3种方式优化模型输出结果,即参数调优、提示词工程[8],或两者的结合。参数调优按照参数调整的范围不同又可分为全局参数调优和局部参数调优(如参数高效微调,Parameter-Efficient Fine-Tuning,PEFT[9])。一般来说,对于下游特定任务,由于全局数据量支撑性较弱,全局参数调整可能会对模型整体效果产生较大影响,且需要更多的图形处理器(Graphic Processing Unit,GPU)计算资源,因此更多采用微调方式。目前效果较好的有LoRA方法[10]和Soft Prompts方法等。生成式大模型可以通过调整输入得到更优的结果。提示词工程通过构造在角色、背景、目标以及语法结构上有针对性的输入形式或模板,可以更好地帮助大模型“回忆”学到的相关知识,这给研究应用人员提供了另一个除了微调之外即可优化模型输出的有效手段。
2 研究应用
本文选择盘古大语言模型和通义大模型作为研究用预训练语言模型。盘古大语言模型起步版(380亿参数)部署在海关内网,自带知识库,参数为默认值。该模型不能训练只有推理,具备基本自然语言能力,包括阅读理解、知识问答、代码生成、公文写作等能力。通义大模型(720亿参数)部署在互联网网段,可查询互联网资源,通过智能体工具调用。通过分析模型生成结果,不断调整Prompt提示词,并对生成结果从可信度(真实性、幻觉检测、偏见)和实用性(上下文理解、一致性、连贯性) 2个方面进行评价。
研究过程主要涉及提示词的调整。第一轮测试并未专门设计提示词,盘古大语言模型和通义大模型均出现幻觉,自动生成大量与问题无关的内容。从第二轮测试开始,逐步扩充提示词内容,如限定身份(海关业务分析人员)、限定交互风格(专业、严谨)、限定生成内容结构(题目、概述、关键事件回顾、市场背景与挑战、分析与建议、小结)等,大模型输出逐渐与期望接近。
基于分析工作中的研究重点选取木材、固体废物等互联网信息。研究过程中的数据处理包括:将文本转换为txt格式,单个文件大小在1 M以内;处理缺失值和异常值,统一数据格式确保文本的一致性等。
2.1 使用盘古大语言模型
将木材、固体废物等若干篇在互联网搜索得到业务热点文章上传至向量库,在大模型界面中选择智能问答模块,测试对某行业业务文本信息中违法行为的列举、摘要及报告生成功能。
功能列举场景下,输入“请根据木材相关新闻列举违法进出口木材的品类”后,大模型仅根据一篇新闻中的信息进行品类列举,无法实现业务分析人员的统计需求。
摘要生成场景下,输入“请根据违法进出口行为相关新闻生成摘要”,大模型仅根据一篇新闻中的信息进行摘要生成,且基本引用原文,摘要生成效果较差。
报告生成场景下,输入“请对固体废物相关新闻中的信息进行汇总,写一篇业务分析报告”,此版本大模型暂不能根据要求撰写分析报告。
以上为举例说明,研究中每个用例均经多次测试生成成果。对已部署盘古大语言模型生成结果进行分析,在可信度方面:生成结果信息准确无误;结果信息与测试样本数据及常识一致度较高;归纳总结能力较弱,输出结果易受个别样本影响,偏见倾向较高。在实用性方面:对基于上下文的请求理解能力较弱;在不同表述请求下,一致性较差。
在未进行微调和预训练的情况下,预期目标中当前可实现的功能为:输入的问题会实时检索知识库,准确抽取相关信息;问题答案能够查看信息来源,直接比对问答结果与原始信息;大模型能够智能理解文档。改变请求语言的表述方式,可能会出现无法回答的情况;在不同行业中,提出相似请求,效果相差较大,有的可以输出结果,有的无法输出结果,模型对样本数据的理解能力需进一步增强;归纳总结能力、推理能力较弱。
2.2 使用通义大模型
基于互联网数据信息,测试对某行业文本信息中违法行为的列举、摘要及报告生成功能。
功能列举场景下,输入“请根据木材相关新闻列举违法进口木材的品类”,大模型输出的结果包括原因分析、常见木材品类举例、影响和应对措施等。品类列举全面且与实际情况相符,能够满足分析人员相关需求。
摘要生成场景下,输入“请根据某商品违法进出口新闻生成摘要”,大模型输出各国打击某商品违法进出口的情况概要,列举了海关、警方破获案件情况,并给出打击行动的意义。大模型能够对相关新闻进行提炼,且能将多篇新闻摘要进行汇总,基本满足分析人员需求。
报告生成场景下,输入“请汇总2023年查获走私固体废物的新闻写一篇分析报告”,大模型输出的内容包括报告题目,以及概述、2023年关键事件回顾(海关专项打击行动、典型案例发布)、市场背景与挑战、分析与建议(加强国际合作、完善法律法规、公众参与与教育)、小结等内容。大模型具有一定的报告生成能力,但与分析人员的需求差异较大,结构框架需要调整,内容深度不足。
基于Prompt提示词工程生成报告场景,向大模型提供分析报告框架,包括摘要、引言、案件摘要、趋势分析、政策与手段、挑战、结论与建议等部分,其中案件摘要部分要列举2023年3个较大的案件,并对相关名词进行解释,如违法进口活动趋势是指活动的变化趋势,执法行动趋势是指执法行动的效率和效果。要求大模型根据上面的分析报告框架,写一份关于2023年我国查获的走私固体废物的分析报告。大模型的输出结果包括题目、摘要、引言(目的和背景)、案件摘要(3个案例)、趋势分析(违法进口活动趋势、执法行动趋势)、政策与手段、挑战、结论与建议等章节。通过Prompt提示词工程,大模型可以根据分析人员提供的结构框架,进行分析报告的初步生成,但内容较浅显,仅能为分析人员提供参考。
以上为举例说明,研究中每个用例均经多次测试生成成果。对此版本通义大模型生成结果进行分析,在可信度方面:生成结果信息比较准确;生成结果出现幻觉程度较低;生成结果信息与测试样本数据及常识一致度较高;大模型通过归纳总结若干篇参考文章输出结果,存在一定程度的偏见,但偏见较低。在实用性方面:对基于上下文的请求理解能力强;在不同表述请求下,一致性较强。
相较于内网部署的盘古大模型版本,在互联网端的通义大模型输入相同要求,能够得到上下文理解和归纳总结能力强、一致性和连贯性相对较好的输出结果。
互联网环境下的大模型产品借助在线搜索功能,能够提供的情报语料范围更广。但由于来源权威性参差不齐、搜索结果不可复现等原因,多次提出同样的要求后,得到的输出结果存在一定差异。
比较提示词工程前后的结果:在未进行Prompt提示词工程的情况下,可基本实现列举功能和摘要提取功能;分析报告生成功能与需求差异较大;通过Prompt提示词工程调整后,分析报告输出结构明显优化,但内容质量有所下降,仅可供分析人员进行参考。
与传统人工分析相比较,在做好检索增强生成(Retrieval Augmented Generation,RAG)参数设置和Prompt提示词的前提下,大模型能够按照分析人员要求快速生成分析报告,能够大大提升信息提炼汇总的效率。但大模型输出的内容较专家尚有一定的差距,需要在此基础上进行人工完善。
与长短期记忆网络(Long Short Term Memory,LSTM)等机器学习算法比较,传统的机器学习算法只能适用于特定的场景,如文本分类、地址识别等特定场景,在语义理解和无监督学习等领域距离大模型尚有差距。
最终生成的结果经分析专家团队审核,其可信度和实用性评分均达到预期。
3 研究结果与应用建议
3.1 研究结果
本文对AIGC技术理论,基础架构如预训练模型BERT和GPT等,及发展历程进行了梳理研究,并分析该技术领域发展近况和业界应用情况。在实际测试中应用 Prompt提示词工程技术对大模型结果进行优化,初步验证了大模型在海关分析报告或摘要生成场景下应用的技术可行性。
本文聚焦木材、固体废物等重点敏感物品,开展品类信息提取、热点文章摘要生成、分析报告生成等工作,并选取木材、固体废物等热点文章若干篇形成知识库。初步实现了在分析场景中对某特定行业非法进出口商品品类的列举、新闻摘要生成和分析报告生成,能够在分析场景中实现海量信息的关键要素提取,并按照提示词指定的要素和逻辑进行表达输出,对于分析人员确定研究方向起到一定的引导作用,也为报告编写提供了便利,有助于提升工作效率。由于内网部署的盘古大模型只能推理不能训练且缺少数据统计功能,互联网环境中使用的通义大模型虽然功能强大但缺少海关内部数据支撑,研究成果距离真正的分析报告尚有差距。
3.2 应用建议
随着大数据、人工智能等新技术应用深入开展,海关业务场景逐渐拓展到对复杂文本信息的分析和应用。预训练大模型的研究和应用越发具有现实意义。今后将结合海关工作实际,继续跟进预训练语言模型及AIGC应用等新技术的发展,如辅助写作等。此外,还可以在海关内网部署DeepSeek 671B等大语言模型,引入Agent能力和数据统计模块,对报关单等相关数据开展查询、清洗和分析。从完善Prompt提示词等角度对报告生成能力进行优化,不断充实报告内容,持续提升报告成果质量。
4 结语和展望
本文聚焦大模型技术在海关业务分析场景中的应用。通过引入“大语言模型+知识库”的AIGC技术架构,使用盘古大模型和通义大模型,探索对业务文本信息进行自动汇总分析,生成报告或摘要,生成结果的可信度和实用性评分均达到预期。下一步,将结合大模型微调和智能体技术,实现结构化数据提取、报告分析框架学习、相关法律法规大模型调用等更加全面的功能。
参考文献
[1] Geoffrey E Hinton, Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527- 1554.
[2] Dumitru Erhan, Aaron Courville, Yoshua Bengio, et al. Why does unsupervised pretraining help deep learning[J]. In Proceedings of AISTATS, 2010: 201-208.
[3] Nikunj Saunshi, Orestis Plevrakis, Sanjeev Arora, et al. A theoretical analysis of contrastive unsupervised representation learning[C]. In Proceedings of ICML, 2019: 5628-5637.
[4] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate[DB/OL]. https://doi.org/10.48550/arXiv.1409.0473.
[5] Ashish Vaswani, Noam Shazeer, Nike Parmar, et al. Attention Is All You Need[DB/OL]. https://doi.org/10.48550/arXiv.1706.03762.
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[G]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2016: 4171-4186.
[7]王晓华. 从零开始大模型开发与微调-基于PyTorch与ChatGLM[M]. 北京: 清华大学出版社, 2018: 250-251.
[8]王东清, 芦飞, 张炳会, 等. 大语言模型中提示词工程综述[J]. 计算机系统应用, 2025, 34(1): 1-10.
[9]王浩, 王珺, 胡海峰, 等. PMoE: 在 P-tuning 中引入混合专家的参数高效微调框架[J/OL]. 计算机应用研究. https://doi.org/10.19734/j.issn.1001-3695.2024.11.0484.
[10]汪伦, 艾斯卡尔·艾木都拉, 张华平, 等. 基于大语言模型的开源情报摘要生成研究[J/OL]. 情报理论与实践. https://link.cnki.net/urlid/11.1762.G3.20250214.1507.002.
第一作者:马群凯(1982—),男,汉族,吉林延吉人,硕士,高级数据建模分析师,主要从事人工智能工作,E-mail: mqk017@126.com
1. 全国海关信息中心(全国海关电子通关中心) 北京 100005
1. National Information Center of GACC (General Administration of Customs of China), Beijing 100005