CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
AI辅助编码在直属海关软件研发场景中的应用与挑战
作者:李俊 陈小莲 麦嘉堃 李世钦 黄辉波
李俊 陈小莲 麦嘉堃 李世钦 黄辉波
摘 要 本研究围绕生成式人工智能(Artificial Intelligence,AI)技术在软件研发中的应用,重点分析AI辅助编码对研发效能提升和研发流程优化的作用机制。同时,本研究结合直属海关信息化部门的实际研发场景,采用理论分析与应用实践相结合的方法,系统梳理AI辅助编码在技术适配性、知识产权合规性以及研发团队协作与管理等方面面临的挑战,并提出针对性的改进思路与对策建议,为相关技术的规范化应用和推广提供参考。
关键词 AI技术;研发效能;创新驱动
Application and Challenges of AI-Assisted Coding in Software Development within Direct Affiliated Customs
LI Jun 1 CHEN Xiao-Lian 1 MAI Jia-Kun 1* LI Shi-Qin 1 HUANG Hui-Bo 1
Abstract This paper focuses on the application of generative AI technology in software development, with an emphasis on the mechanisms through which AI-assisted coding enhances R&D efficiency and optimizes development processes. Based on the practical software development scenarios of directly affiliated customs IT departments, this study adopts a combined approach of theoretical analysis and application-oriented practice. It systematically examine the challenges associated with AI-assisted coding, including technical adaptability, intellectual property compliance, and R&D team collaboration and management. Corresponding improvement strategies and policy-oriented recommendations are proposed to provide references for the standardized application and broader adoption of AI-assisted coding technologies in the customs system.
Keywords AI technology; research and development (R&D) efficiency; innovation-driven
近年来,生成式人工智能(Artificial Intelli- gence,AI)技术取得了显著的进展,特别是大语言模型(Large Language Model,LLM)和Transformer架构的出现,为软件开发领域带来了新的突破。Transformer架构通过自注意力机制,捕捉代码中的上下文信息,提高代码生成的准确性和质量。研发人员可在中低复杂度场景,如数据增删改查(Create、Read、Update、Delete,CRUD)接口与界面开发中运用AI快速生成可用代码,减少重复劳动,缩短开发周期。另外,通过人机交互协同新范式可打破传统技术分工界限,有助于缓解人力资源紧张问题、促进团队编码风格的统一,从而推动技术创新、组织结构优化与响应速度提升。在智慧海关建设的背景下,对软件研发效率、代码质量和系统交付稳定性提出了更高要求。通过引入AI辅助编码人机协同的研发方式,为规范代码实现、优化研发流程提供了新的技术手段。
1 理论基础与核心技术
1.1 理论基础
AI辅助编码建立在多层次技术体系之上,其演进路径遵循从人工智能、机器学习、深度学习到生成式人工智能,再到大语言模型的技术发展脉络,如图1所示。这一技术体系体现了从基础理论到工程实现的逐层递进关系。
早期代码生成主要依赖专家系统和规则引擎等符号主义方法,虽具有一定可解释性,但在复杂场景下泛化能力有限。随着统计学习和神经网络方法的发展,代码生成逐步转向基于数据驱动的建模方式,系统能够从大规模代码语料中学习编程模式与实践经验,从而提升自动化程度和适用范围。
在上述体系中,机器学习为 AI 辅助编码提供模式识别与经验迁移的能力。其作用可抽象为:y = fML(Fcode)。其中,y表示模型输出的优化建议或缺陷预测结果,Fcode为从源代码中提取的特征向量(如结构特征、调用关系、历史缺陷数据等)[1]。通过对代码特征进行建模,系统能够识别常见编程模式与潜在风险,实现代码质量评估与缺陷预警。深度学习作为机器学习的重要分支,尤其是以Transformer为代表的神经网络架构,在代码生成任务中发挥了关键作用,其生成过程可表示为:P(yt|yt, X) = Softmax(Wo·Transformer(X, y))。其中,yt表示当前生成的代码token,y<t为已生成的历史序列,X为输入的自然语言描述及上下文代码[2]。Transformer架构通过自注意力机制对代码上下文进行建模,在生成过程中能够保持变量命名、API 使用及控制逻辑的一致性,其性能在多项代码生成任务中已优于传统循环神经网络模型。当前广泛采用的“预训练—微调”机制,使模型能够在通用代码能力的基础上,进一步适配特定领域和应用场景。
在此基础上,生成式人工智能将深度学习能力扩展至代码创造层面,实现了从代码理解到代码生成的转变。大语言模型作为生成式人工智能在软件研发领域的具体实现形式,通过大规模预训练掌握了丰富的编程知识,能够同时处理自然语言与代码语义信息[3]。借助提示学习与上下文建模机制,大语言模型可以根据需求描述生成结构化代码,并支持代码补全、重构与测试用例生成等多种任务;在结合领域数据进行定向优化后,其输出结果能够在一定程度上更贴合实际工程环境与开发习惯,为AI辅助编码在实际研发场景中的应用奠定了理论基础。
1.2 核心技术
AI辅助编码的核心技术体系以LLM为理论基础,通过需求解析、语义增强、质量保障和协同优化等关键环节,构建从需求理解到结果反馈的闭环支撑结构,如图2所示。
在需求解析层,自然语言处理(Natural Language Processing,NLP)技术用于解析开发人员输入的自然语言需求,并结合上下文信息形成结构化表示,其过程可抽象为:C = fNLP(T, Xctx)。其中,C表示生成的代码,T为自然语言需求输入,Xctx为上下文信息(如已有代码、依赖关系等)。该阶段为后续代码生成提供语义基础[4]。
在语义增强与质量保障阶段,通过引入知识图谱与代码表示学习技术,对API关系、代码结构和工程经验进行建模,并结合数据驱动的代码分析与程序分析方法,对生成结果进行多维度质量评估,其综合评价模型可表示为:Qcode=α·Ssyn+β·Slogic+γ·Ssec。其中,Qcode为代码质量评分,Ssyn表示语法规范性,Slogic表示逻辑完整性,Ssec表示安全性,α、β、γ为权重系数,以实现对代码规范性、逻辑一致性和安全性的综合约束。

图2 AI辅助编码核心技术支撑体系图
Fig.2 Core technical support system for AI-assisted coding
在协同优化层,引入基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)机制,通过开发人员对生成结果的反馈持续优化模型参数,其目标函数可表示为:maxθEx~D[rϕ(x, y)]。其中,θ是模型参数,rϕ为通过人类反馈训练得到的奖励模型,x为输入需求,y是模型输出的代码。该机制形成结果反馈与模型更新的闭环过程,提升AI辅助编码在实际研发场景中的适用性与稳定性。
2 AI在全研发流程中的典型应用场景
2.1 需求分析与设计阶段
2.1.1 自然语言需求转技术方案
AI工具可根据业务人员的自然语言描述,自动生成初步的技术方案说明,包括功能模块划分、数据结构定义和接口约定等,可以减少研发人员撰写技术方案的时间成本,适合需求明确且标准化的简单业务场景。
2.1.2 生成初始代码框架
结合需求文档、既有的开发规范和经典实践,AI可生成项目的基础结构、目录组织、通用配置文件及核心模块接口,帮助开发人员快速进入编码阶段,减少重复性搭建工作,适用于CRUD的简单业务场景。
2.2 编码与调试阶段
2.2.1 模板代码自动生成
在CRUD开发中,AI可依据表结构自动生成数据模型、接口控制器及基础逻辑代码;在API开发中,可根据接口说明自动生成参数验证、响应数据和异常处理等模板代码,提高开发效率并减少低级错误。
2.2.2 上下文感知的智能补全
AI可基于当前代码上下文进行智能补全,不仅能识别当前模块的语法结构,还可结合变量作用域、函数依赖关系及业务逻辑,预测开发人员的编码意图。例如,在接口实现中,AI自动补全参数解析、日志输出和错误处理等逻辑,确保代码连贯性与一致性[5]。
2.2.3 代码缺陷预测与调试建议
结合历史代码模式和静态分析结果,AI可在编写过程中预测可能存在的缺陷,如未初始化变量、重复逻辑、异常处理缺失等,并给出调试或修改建议,有助于提前规避性能和安全风险,降低后期维护成本。
2.2.4 单元测试用例生成与覆盖率分析
AI能根据函数的输入输出逻辑自动生成单元测试用例,包括常规测试、边界值测试、异常值测试等,并生成断言语句验证结果。同时,工具可进行测试覆盖率分析,提示未被测试的代码路径,指导开发人员补充测试场景。
2.3 测试与维护阶段
2.3.1 代码理解与注释生成
在维护过程中,AI可自动为缺少说明的代码生成注释,解释函数功能、参数含义和执行逻辑,降低开发人员理解代码的难度。
2.3.2 代码重构建议
通过分析代码结构与依赖关系,AI能识别冗余模块、低效算法及复杂嵌套结构,提出重构方案,提升代码可维护性。
2.3.3 技术文档生成
AI可基于代码结构与注释自动生成项目技术文档,包括接口说明、类结构图、调用关系等内容,减少文档撰写工作量,并使文档与代码格式保持一致。
3 实践案例与效能分析
3.1 产品选型与应用实践
3.1.1 产品选型
业界中AI辅助编码产品根据技术架构与集成方式的不同,可划分为插件形式与编辑器形式两大类。插件形式产品通过集成嵌入AI交互模块至现有主流代码研发IDE(如VSCode、IDEA等)提供辅助功能,而编辑器形式产品则是直接提供内置AI能力的代码研发IDE,实现更深度的代码理解与生成。表1对这两类产品在关键维度上进行了对比分析[6]。
深入到具体产品层面,不同服务商推出的AI辅助编码工具在功能实现、部署方式等方面有显著差异。从支持私有化部署的企业级解决方案,到面向个人开发者的免费插件,市场提供了多样化的选择。表2对几种代表性AI辅助编码产品是否支持私有化部署以及主要优缺点进行了对比分析。
经调研,插件型AI辅助编码产品受限于IDE API及插件架构,智能化程度相对较低,难以实现项目工程内部跨文件深度逻辑推演,生成代码在复杂业务场景准确率欠佳,在实际的应用场景中只能充当“代码片段补全助手”。而编辑器型AI辅助编码产品优势明显,能深入理解项目工程上下文与跨文件的代码逻辑关系,代码生成质量高,可减少重复编码,内置检查与安全分析功能可降低错误、提升质量、减少风险,还能智能关联代码文件提供建议。不过,其在复杂业务逻辑生成时,代码精准度欠佳,需反复调整,智能拆解任务逻辑不够灵活,难以快速适应需求变动,且在快速迭代期,稳定性不足,仍需人工审核调整。综合以上分析,编辑器类AI辅助编码产品功能更强大,但在代码生成质量稳定性和速度上仍有提升空间,海关信息化部门应用AI辅助编码产品辅助代码研发时,需持续关注其功能的更新迭代,待核心功能完善后再考虑选用。
3.1.2 应用实践
本研究以在深圳海关对企信息化服务应用商品编码查询功能的研发实践为例。该功能具体需求为定时全量采集商品编码、申报要素、监管类别、监管条件,将采集数据与历史数据进行全量比对并生成更新记录,企业可通过该功能查询基础信息、申报要素、监管类别、监管条件和更新记录。在该功能的研发中,应用AI辅助编码过程如下:
(1)在代码生成方面,研发人员通过输入数据结构或实体,AI能够快速生成符合现有工程结构的前后端各层代码,并通过输入功能描述,生成涵盖基本表单、数据对象、数据采集、数据比对以及数据库操作等基础代码,如图3所示。
(2)在代码调试方面,研发人员在对缺失的逻辑处理细节进行补充完善时,可利用AI算法和海量训练数据进行自动识别,进行代码逻辑补全并修复各类错误异常。
(3)在代码优化环节,研发人员在输入优化需求时,可利用AI对代码结构等内容进行分析,并提出针对性的优化建议。此外还可通过AI精准识别性能瓶颈、进行安全性检查,助力提升代码质量、性能与安全性,如图4所示。
(4)在自动化测试领域,可利用AI根据代码自动生成测试用例并执行,同时提供详尽的测试报告和优化建议。此外,还可利用AI进行回归测试,保证代码在变更后的质量[7]。
3.2 效能量化
3.2.1 缩短开发周期比例
在深圳海关对企信息化服务应用商品编码功能开发场景中,在需求分析与设计阶段,通过借助AI将需求转换生成初始代码框架,从原来需要2 d缩减至0.5 d,大大减少了研发人员的工作量。在编码与调试阶段,开发核心功能时,编写200行代码规模,涉及思考、人工编码、调试、优化等工作,整个过程约需2 h,使用AI代码智能补全功能后,只需人工校对和调试,实现同等规模的类可缩短至0.5 h,代码编写效率大幅提升。借助AI辅助编码,开发周期效率平均提升约26.3%,能够更快地响应业务需求,提高了项目交付效率。
3.2.2 降低代码审查成本及代码缺陷率
借助AI辅助进行代码审查,系统能够自动对代码中的语法错误、潜在漏洞以及代码风格问题进行全面检查,并及时给出反馈,带来了显著成效:一方面,代码审查成本大幅降低,团队在代码维护方面的时间投入减少约30%,审查效率得到明显提升;另一方面,代码缺陷率的变化尤为突出,原本15%的代码缺陷率,在使用AI辅助审查后降至5%。部分AI模型在函数级错误检测方面表现良好,准确率接近70%,同时还将平均修复时间缩短了20%。尽管在项目初期,AI生成的代码需反复推敲和修改,但从长远角度来看,AI凭借其强大的自动化检测和智能分析能力,持续发挥着降低审查成本、提升代码质量的重要作用[8]。
4 面临的挑战与应对策略
4.1 技术优化
在准确性与可靠性方面,AI辅助编码对复杂业务逻辑和多步骤推理的理解仍然有限,生成的代码通常需要多次迭代优化。实践表明,在海关信息化应用场景中,AI技术目前更适用于业务逻辑相对简单的功能模块开发,例如表单的增删改查、单一条件查询等,这类场景中AI可有效提升基础编码效率。然而,面对涉及多规则判断、流程状态协同或动态策略调整的复杂业务,如通关流程中多份单证的联动检查与核销、关税参数的灵活计算与调整等,现有AI编码技术的适用性仍显不足,其生成代码的准确性与业务吻合度有待进一步提高。实际应用数据显示,AI首次生成代码的准确率约为20%,虽经多轮引导后可提升至70%,但仍需结合人工审核与修正以确保最终质量。在安全与隐私方面,AI处理代码数据时仍存在敏感信息及代码安全风险,需通过数据脱敏、访问控制与代码审计等措施加强防护[9]。在模型训练与迭代方面,系统面临高质量业务标注数据稀缺与训练算力成本高的双重挑战,未来可通过构建多源数据融合机制、依托分布式与云化算力降低开销,并结合增量学习与严格测试体系,实现模型效果的平稳持续优化。
4.2 本地化部署的挑战
目前,AI辅助编码产品服务提供者会在云端收集用户的代码数据,用于大模型训练与迭代,海关信息化部门使用这些产品时,为规避代码泄露风险,需采用本地化部署方案。但本地化部署也会面临以下挑战:一是本地部署可通过轻量化模型与优化方案提升成本效益,同时保持代码生成效果;二是模型更新机制和业务定制能力有待加强,可通过建设自主训练与迭代体系持续提升;三是全链路安全机制可进一步完善,以满足更高等级的合规要求。
4.3 研发团队人员与组织管理挑战
AI技术的引入将推动海关信息化研发团队技能结构转型,信息化研发团队需加强AI工具使用与算法理解能力,大力引进复合型人才。在组织层面,信息化研发团队需重构人机协作流程,明确分工界限,通过系统化培训与校企合作提升团队适应能力,并配套开发流程管理与沟通规范,以实现高效协同。
5 结语与展望
本研究探讨了AI辅助编码技术在直属海关对企服务软件研发过程中的应用效能与潜在挑战。通过应用实践,AI辅助编码通过集成自然语言处理、机器学习及深度学习等先进技术,可实现需求到代码的自动化转换、智能代码补全与优化以及动态代码审查等功能,显著提升了软件研发效率与代码质量。同时,分析了AI辅助编码在技术准确性、数据安全、知识产权合规及团队技能重构等方面的挑战,并提出针对性的应对策略,为AI辅助编码技术在海关信息化部门的应用与推广提供了理论依据与实践参考。
基于上述研究成果,后续将主要集中于三个方向继续进行探索:一是在技术层面,推动构建面向垂直领域的专用私有化AI编码助手。针对海关业务系统中广泛存在的报关单证解析、监管规则引擎、多源数据融合等典型场景,基于技术规范的编码标准与业务语义,构建领域增强型大模型,通过指令微调与检索增强生成技术,提升AI在复杂业务逻辑理解与合规代码生成方面的能力。二是探索人机协同的深度集成模式,搭建以开发者为中心的智能编程环境,建立需求意图的多轮对话澄清、代码生成过程的可解释性反馈以及AI建议的可信度评估机制,增强开发者对AI输出的可控性与信任度。三是在平台架构层面,研究“软件+硬件+AI”的一体化开发平台,结合边缘计算与可信执行环境(Trusted Execution Environment,TEE)技术,实现敏感代码在本地安全沙箱中的生成与验证,兼顾效率提升与数据主权保障[10]。
综上所述,AI辅助编码作为提升代码生成效率的工具,最终目标是实现AI与软件研发全生命周期的深度融合,为海关信息化部门的数字化转型提供可持续的技术底座支撑。
参考文献
[1] Qiushi Sun, Zhirui Chen, Fangzhi Xu, et al. A Survey of Neural Code Intelligence:Paradigms,Advances and Beyond[EB/OL]. arXiv, 2024-03-21. https://arxiv.org/abs/2403.14734.
[2]杨飞, 胡刚. 软件问答社区代码上下文语义融合在代码搜索中的应用研究[J/OL]. 云南民族大学学报(自然科学版), 2025, 1-13. https://link.cnki.net/urlid/53.1192.N.20250908.1312.002.
[3] Debalina Ghosh Paul, Hong Zhu, Ian Bayley. Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review[EB/OL]. arXiv, 2024-06-18. https://arxiv.org/abs/2406.12655v1.
[4]陈浙哲, 鄢萌, 夏鑫, 等. 代码自然性及其应用研究进展[J]. 软件学报, 2022, 33(8): 3015-3034.
[5]杨博, 张能, 李善平, 等. 智能代码补全研究综述[J]. 软件学报, 2020, 31(5): 1435-1453.
[6] Nam Huynh, Beiyu Lin. A Survey On Large Language Models For Code Generation[EB/OL]. arXiv, 2025-03-03. https://arxiv.org/abs/2503.01245v1.
[7]余可然. 基于人工智能代码编辑器编写软件的方法探索[J]. 通讯世界, 2025, 32(6): 184-186.
[8]李戈, 彭鑫, 王千祥, 等. 大模型:基于自然交互的人机协同软件开发与演化工具带来的挑战[J]. 软件学报, 2023, 34(10): 4601-4606.
[9]段继哲. 人工智能大模型下的自动生成代码——软件开发的新趋势[C]//《中国建筑金属结构》杂志社有限公司. 2024 新质生产力视域下智慧建筑与经济发展论坛论文集(三). 中国上海市, 2024: 18-19.
[10]张小燕. 生成式人工智能数据研究综述:风险、挑战与治理[J]. 图书情报工作, 2025, 69(9): 136-148.
第一作者:李俊(1982—),男,汉族,广东陆丰人,硕士,主要从事海关信息化研究工作,E-mail: 13061440@qq.com
通信作者:麦嘉堃(1987—),男,汉族,广东云浮人,本科,主要从事海关信息化研究工作,E-mail: mtgarh@163.com
1. 中国电子口岸数据中心深圳分中心 深圳 518033
1. China E-Port Data Center, Shenzhen Branch, Shenzhen 518033


图1 生成式人工智能技术层级关系图
Fig.1 Hierarchical structure of generative AI technologies
表1 AI辅助编码产品集成方式的对比分析
Table 1 Comparative analysis of integration methods for AI-assisted coding products
维度 | 编辑器形式 | 插件形式 |
技术架构 | AI原生IDE, 模型与编辑器深度耦合 | 插件扩展, 模型与IDE松耦合 |
上下文范围 | 全项目 (文件/模块/依赖/业务逻辑) | 单文件或局部关联文件 |
生成粒度 | 架构级→模块级→函数级 | 行级→函数级 |
交互模式 | 多轮对话式开发 | 单次请求—响应式 |
适用场景 | 中大型项目、复杂系统开发 | 小型工具、脚本、代码片段优化 |
人工介入度 | 低 (自动生成+自动优化) | 较高 (需频繁核验与调整) |
表2 AI辅助编码产品特点对比
Table 2 Comparison of key features of AI-assisted coding products
产品名称 | 私有化部署 | 主要优点 | 主要缺点 | 提升编码效率 (%) |
插件形式产品一 | 支持 | 基于混元大模型, 支持上传团队知识库和规则库. | 代码续写准确度有待提高, 辅助代码注释较简单. | 约20 |
插件形式产品二 | 支持 | 自研千问模型能力较强, 占用算力小, 支持文件、图片生成代码. | 对项目整体代码理解能力有限. | 约25 |
插件形式产品三 | 支持 | 模型基于多年的经验积累, 代码优化能力较强. | 代码生成稳定性有待提升, 不支持昇腾芯片以外的GPU. | 约20 |
插件形式产品四 | 支持 | 多语言支持广泛. | 代码优化和上下文理解能力较弱. | 约15 |
插件形式产品五 | 支持 | 完全开源,可本地部署. | 仅支持VS Code, 部分功能仍在完善. | 约10 |
编辑器形式产品一 | 不支持 | 全项目上下文感知, 智能修复代码错误. | 不支持私有化, 编辑器需联网访问, | 约40 |
编辑器形式产品二 | 不支持 | 代码生成质量高, 与 VS Code 深度集成. | 仅提供云端服务, 不支持私有化, 会收集用户的代码信息. | 约40 |
编辑器形式产品三 | 不支持 | 较强的项目上下文理解能力, 提供隐私模式. | 仅提供云端服务, 会收集用户的代码信息. | 约40 |

图3 通过数据实体生成工程结构及各层代码效果图
Fig.3 Engineering structure and layer-specific code generation via data entities

图4 代码质量与安全分析
Fig.4 Code quality and security analysis