CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于目标检测技术的智能视频分析方案研究
作者:王涵 费立蜀 陈维
王涵 费立蜀 陈维
摘 要 视频监控系统是海关业务运行监控体系的重要组成部分。利用人工智能技术赋能视频监控系统,识别关键目标、获取重点信息、富集数据矿藏,有利于提升业务运行监控体系效能。随着硬件算力的提升和算法的进步,目标检测技术已经成为一种成熟的视频分析工具,速度快、精度高,技术路线有现成案例,具备较高的可行性。本文提出了基于目标检测技术的海关智能视频分析方案,包括海关视频监控现状、目标检测技术概述以及目标检测技术应用方案等,为提高海关视频监控的自动化程度,及时发现紧急情况、获取关键信息和进行事后追溯提供参考。
关键词 视频监控系统;业务运行监控体系;人工智能;目标检测技术
Research on Intelligent Video Analysis Scheme Based on Object Detection Technology
WANG Han 1 FEI Li-Shu 1 CHEN Wei 1
Abstract The video surveillance systems is an essential component of customs operational surveillance system. Empowering video surveillance systems with artificial intelligence technology to identify key targets, obtain critical information and enrich data repositories can enhance the efficiency of customs operational surveillance system. With the improvement of hardware computing power and the advancement of algorithms, object detection technology has become a mature video analysis tool with fast speed and high precision. There are existing case studies that demonstrate its feasibility. This paper proposes an intelligent video analysis scheme for customs based on object detection technology. It includes the current situation of customs video surveillance, an overview of object detection technology, and an application scheme of object detection technology. The scheme aims to improve the automation level of customs video surveillance, timely discover emergencies, obtain key information, and facilitate post-event traceability.
Keywords video surveillance system; customs operational surveillance system; artificial intelligence; object detection technology
海关现有的监控指挥平台由三级监控指挥平台和分布在各个监管作业场所的摄像头组成,这些摄像头采集的信息在各自的硬盘录像机汇总后,经专线接入第三级监控指挥中心的视频服务器,并逐级上传。按照智慧海关建设的部署,需通过视觉增强等手段,对海关运行情况进行全面集成和智能化管理,从而及时发现、处理异常情况。
机器视觉领域技术,在经过充分的训练后可以自动发现视频图像中的规律,准确高效地进行识别、预警并处理。该领域有很多成熟完善的开源项目,且迭代迅速,为海关不断提升智能化水平和监管效能提供了便利条件。
1 海关视频监控体系及作用
海关的视频监控系统覆盖港口、货场、邮快件等多种业务场景,涉及运管、旅检、查验等多种作业类型。这些监控设备按照规定要求安装部署,实时记录着海关业务的各个环节,积累了大量的数据资源,为海关的监管和服务提供了重要的技术支撑[1]。
2 目标检测技术概述
目标检测技术是人工智能领域中的一个重要分支,目的是使计算机能够模拟人的视觉系统,从图像中提取信息并进行处理和决策[2]。目标检测不仅需要识别图像中的物体,还要确定它们在图像中的具体位置。其主要内容包括定位和分类,即在图像中找到目标、识别目标。主流目标检测技术大致可以分为两类:一阶段(One-Stage)方法[3]和二阶段(Two-Stage)方法[4]。一阶段方法不生成候选区域,直接定位并识别目标,因此速度更快、体积更小,代表算法有YOLO系列算法[5]、SSD算法[6]等。二阶段方法先生成候选区域,再定位识别目标,因此精度更高,代表算法有R-CNN算法[7]。
目标检测技术在实际应用中展现了强大的功能和广泛的适用性。以下是目标检测技术的几个主要功能及其在海关视频监控中的潜在应用。
2.1 多目标识别
识别并定位图像或视频帧中的目标对象是目标检测技术的核心功能之一。随着算法的不断发展,该技术已经能够从单张图像中检测出多个不同种类的目标。例如,在港口环境下,不仅可以识别靠港船舶、上下船人员,还能同时监控火焰、烟雾等紧急情况的表征,如图1所示。这种多目标识别能力为海关视频监控提供了全面的视觉支持,能够同时处理多种监管需求[8]。
图1 利用YOLOv8识别靠港船舶和载货车辆
Fig.1 YOLOv8 detection of berthed ships and cargo vehicles
2.2 尺度不变性
目标检测技术的尺度不变性特征意味着算法能够在不同尺寸的目标对象上保持稳定的检测性能。无论目标在图像中的大小如何变化,算法都能够准确地识别和定位。这一特征对于实际应用具有重要意义,因为同一目标在不同距离、不同角度下呈现的尺寸可能会有显著差异。例如,在旅检通道中,同一行人在远处可能以较小的目标出现,而在近处则可能以较大的目标出现,如图2所示。尺度不变性确保了目标检测技术在复杂场景下的可靠性和稳定性。
2.3 实时性
目标检测技术的实时性是指算法能够在视频流中快速处理图像数据,以实现对目标的即时检测。实时性对于目标检测算法能够推广到许多应用场景至关重要,比如自动驾驶、视频监控和工业自动化等。以YOLOv8为例,该算法在一张普通游戏显卡上处理一张640×480像素的图片只需20 ms,占用约20%的显存资源。这意味着如果考虑并行进行,处理400部视频监控只需16 s。这种高效的实时性使得目标检测技术能够满足海关视频监控对实时性的高要求,及时发现和处理异常情况。
2.4 集成与拓展功能
在实际应用中,目标检测技术一般与其他技术集成使用,以实现更强大的功能和更广泛的应用场景。例如,目标检测技术与光学字符识别(Optical Character Recognition,OCR)技术[9]相配合,实现对图像中字符的识别。在海关视频监控中,这一功能可以用于车辆和集装箱过闸信息的自动统计,以及纸质单证的电子化处理。通过这种方式,目标检测技术不仅能够识别目标物体,还能获取与目标相关的文本信息,从而为海关监管工作提供更全面的数据支持[10]。
此外,目标检测技术还可以集成人脸识别技术,用于识别作业人员并核对作业资质。这一功能在旅检通道和查验现场尤为重要,不仅能够识别目标物体,还能对人员进行精准识别和身份验证,进一步拓展了其在海关业务中的应用场景[11]。
这些集成应用既丰富了目标检测技术的功能,还为海关视频监控提供了更全面的解决方案。通过与其他技术的结合,目标检测技术能够实现从单一目标识别到多模态信息提取的拓展,从而更好地满足海关业务的多样化需求。
综上所述,目标检测技术凭借其多目标识别、尺度不变性、实时性和集成与拓展能力,在海关视频监控中具有广泛的应用前景。这些功能不仅能够满足海关日常监管的需求,还能为海关业务的智能化升级提供有力支持。
3 目标检测技术应用方案设想
目标检测技术的成熟度和多样性为海关视频监控的智能化改造提供了坚实的技术基础。目前,市场上已有基于目标检测技术开发的成熟目标识别服务器产品,这为海关的快速部署提供了便利。海关的监控视频资源全面且可控,这使得基于目标检测技术的应用方案在海关场景中具有较高的技术可行性和实施价值。此外,目标检测技术的部署方式灵活,可以直接集成到海关现有的视频监控服务器上,从视频流中实时获取视频帧信息,而不干扰视频流信号的正常传输。这种“热插拔”式的升级方式,不会影响企业的正常运营,也不会干扰海关业务运行监控指挥平台的日常工作,确保了技术升级的平稳过渡。
目标检测技术有多种开源的算法可以获取,基于这些开源算法开展研究应用,不仅有利于缩短开发周期,还能助力从易到难提升人工智能应用水平,进而培养相关人才队伍。另外,要使目标检测技术充分发挥其效能,还需将其与数据库、数据分析等技术进行深度融合与集成。
为实现这一目标,本方案提出了三个关键的实施策略:针对性训练、分级部署和逐步升级。首先,针对性训练将确保目标检测算法能够适应海关不同场景的复杂需求;其次,分级部署将根据海关业务的层级和需求,合理分配技术资源,实现功能的优化配置;最后,逐步升级将帮助海关持续跟进技术前沿,不断提升系统的智能化水平。通过这三方面的策略,目标检测技术将在海关视频监控中实现高效、稳定且可持续的应用。
3.1 针对性训练
在海关业务场景中,不同监控摄像头所处的环境和监控目标存在显著差异。同一目标检测服务器接入的各个摄像头,其视野范围或宽或窄,视距或近或远,目标物体的大小和类型也各不相同,且摄像头的分辨率往往有限。这些因素共同导致了监控数据的复杂性和多样性,给目标检测算法准确性和适应性带来了挑战。
为了使目标检测算法能够更好地适应海关业务的多样化需求,针对性训练显得尤为重要。具体而言,首先根据海关的不同作业场景和目标物体类型进行细致分类。例如,在旅检场景中,以人员为主要监控目标,同时兼顾火灾等紧急情况的预警;在泊位监控中,重点关注靠港船舶及相关作业活动;在闸口监控中,则以车辆和集装箱为主要目标,同时提取集装箱号码等关键信息。基于这些分类结果,本文作者挑选了具有代表性的视频数据样本,并进行精确的数据标注工作。随后,利用这些标注好的数据对目标检测模型进行专项训练,生成与各场景相匹配的模型参数集。
模型训练完成后,根据具体的海关业务场景需求,灵活更换相应的模型参数集,或者并行运行多个经过针对性训练的模型,以实现对不同场景的精准监控和高效处理。通过这种针对性训练方法,目标检测算法能够有效提升在海关复杂场景下的检测精度和适应性,从而更好地服务于海关业务的智能化监管需求[8]。
3.2 分级部署
海关业务的复杂性和多样性要求目标检测技术的应用必须具备高度的灵活性和针对性。为了充分发挥目标检测技术的优势,同时确保资源的合理分配和高效利用,分级部署策略成为实现这一目标的关键。通过在隶属海关和直属海关之间根据业务类型和实际需求进行分级分类部署,可以有效提升海关整体的智能化监管水平。
隶属海关的业务场景通常具有较高的时效性和单一性,因此在部署目标检测技术时,应侧重于紧急情况预警、旅检通道行人轨迹跟踪、邮快件机检图像识别等功能。这些功能不仅能够及时发现潜在的安全隐患,还能为现场关员提供实时的辅助决策支持,显著提升作业效率和监管质量。例如,在旅检通道部署行人轨迹跟踪功能,可以有效监测人员流动情况,及时发现异常行为;在邮快件机检区域部署图像识别功能,能够快速识别违禁物品,提高查验效率。
直属海关则承担着更为复杂和综合的业务任务,其部署的目标检测技术应具备更强的多模块集成能力和数据处理能力。例如,部署过闸车辆和集装箱统计功能,可以实现对进出海关区域的车辆和集装箱的实时监控和数据统计,为海关的物流管理和风险评估提供有力支持;部署纸质单证数据化入库功能,能够将传统的纸质单证转化为电子数据,提高数据处理效率和准确性,同时为后续的大数据分析和智能决策提供数据基础。通过在直属海关部署这些复杂且功能集成度高的应用,目标检测技术将从单一的数据赋能工具转变为全面的智能化监管平台。
分级部署不仅有助于根据海关不同层级的业务特点和需求,精准配置技术资源,还能确保目标检测技术在海关业务中的高效应用。通过在隶属海关和直属海关之间合理分配功能和任务,可以实现优势互补,提升海关整体的智能化监管效能,为海关业务的高效运行提供坚实的技术保障[10]。
3.3 逐步升级
目标检测技术发展迅速,以YOLO系列算法为例,从2018年YOLOv3发布至今,该技术已迭代至YOLOv10。在这一过程中,算法的检测速度显著提升,例如YOLOv3在普通游戏显卡上处理一张640×640像素的图片需要约47 ms,而YOLOv8在相同硬件条件下仅需约20 ms,速度提升1倍[5]。检测精度也不断提高,以mAP(平均精度均值)为例,YOLOv3x的mAP不到50%,而YOLOv8x的mAP提升至53.9%,精度提升超3个百分点[5]。此外,功能也日益丰富,从最初的目标识别逐步拓展到行为识别、多模态融合等,不断集成其他模块,如光学字符识别(Optical Character Recognition,OCR)、人脸识别等,进一步丰富了系统功能。
在海关目标检测技术的应用中,逐步部署和升级更新具有重要意义。一方面,这有助于海关紧跟技术前沿,不断提升智能化水平;另一方面,也有利于锻炼人才队伍,积累技术经验。为了实现这一目标,需要对目标检测技术的核心算法模块进行合理设计。具体而言,可将算法实现与对外接口分离,确保算法实现具有高内聚性,即每个模块负责单一功能且功能明确。在升级时,可以直接替换核心算法模块,而对外接口保持稳定统一,这样算法升级就不会影响系统的正常运行,确保了系统的稳定性和可靠性。
在功能实现方面,遵循由易到难、先部署使用再升级创新的原则。初期可先部署技术路线成熟、实现难度较低的功能,如行人检测、船舶识别、火焰和烟雾检测等,这些功能能够满足海关日常监管的基本需求,并且可以与现有的数据库等成熟模块进行集成。在此基础上,逐步拓展到集装箱号记录、人脸识别、纸质单证数据化等功能,这些功能需要集成OCR、人脸识别等复杂模块,技术难度相对较高。最终,目标是实现行为识别等前沿功能,为海关业务提供更全面、更高效的技术支持。
3.4 跨部门共建共享策略
参考海关总署、国家发展改革委等九部门发布的《关于智慧口岸建设的指导意见》,海关在应用目标检测技术时应加强与垂直管理部门(如其他海关层级部门)和属地管理部门(如地方政府相关管理部门)的合作。
在数据共享方面,搭建安全的数据共享平台,明确数据共享范围、权限与流程。海关可与市场监管部门共享部分脱敏监控数据,助力其监管市场秩序;与交通部门共享运输数据,辅助海关物流监管。同时,利用区块链技术确保数据共享的安全性与可追溯性。
在联合技术研发上,整合各方技术力量。与属地科技部门合作优化目标检测算法,提升复杂场景检测精度;共同探索多部门协同监管模式,如跨境电商监管中,多部门共享数据与分析结果,实现全方位监管。
在设施设备共建共用层面,对于口岸关键区域监控设施,建议多部门共建;港口码头区域的监控系统,建议海关、海事和交通部门共建,各部门依权限获取监控信息,避免重复建设,提高资源利用效率。
3.5 技术标准要求与需求
考虑到海关应用目标检测技术涉及多方面通用技术,制定技术标准十分必要。
在算法性能标准方面,针对不同海关业务场景设定明确的检测精度和速度指标。例如,港口船舶检测,准确率需达到 95% 以上,处理单帧图像时间控制在 50 ms秒内;旅检通道人员及物品检测,准确率不低于 90%,并满足实时监控需求。
在数据标准方面,规范数据采集、标注和存储流程。统一数据格式,确保图像和标注数据的兼容性;标注需精确且遵循一致规范,便于模型训练和结果评估;数据存储要保证安全性和可扩展性,满足长期存储与快速检索要求。
在系统集成标准方面,规定系统接口规范,确保目标检测系统与海关现有各类业务系统(如报关系统、查验系统)无缝对接。制定系统兼容性标准,使新系统能适应不同硬件环境和操作系统,保障整体系统的稳定性和可靠性。
4 结语
本文详细介绍目标检测技术的核心功能及其在海关视频监控中的潜在应用价值,包括多目标识别、尺度不变性、实时性以及与其他技术的集成与拓展能力。在此基础上,结合海关业务提出了针对性训练、分级部署和逐步升级三个关键实施策略。
展望未来,随着目标检测技术的不断发展和创新,其在海关视频监控中的应用将更加广泛和深入。一方面,技术的进一步优化将使目标检测系统能够处理更复杂的场景和更多样的目标类型,提升海关对各类业务的监管能力;另一方面,随着大模型技术的发展,其强大的多模态融合能力将为海关视频监控带来新的突破。大模型可以更好地融合视频、文本、语音等多模态信息,对海关业务中的复杂情况进行更全面、深入的分析,为海关决策提供更精准的支持。例如,结合大模型的强大语义理解能力,对监控视频中的异常行为进行更准确的识别和预警,进一步提升海关的风险防控能力。通过与大数据分析、机器学习和物联网等先进技术的深度融合,目标检测技术将为海关业务提供更全面、更智能的解决方案,这将有助于进一步优化通关流程,提升海关监管效能,筑牢国门安全屏障,更好地服务于国家经济和社会发展大局。
参考文献
[1]陈潇君. 海关码头智能视频监控系统关键技术的研究[D]. 镇江: 江苏大学. 2025. DOI:10.7666/d.y1454712.
[2]王迪聪, 白晨帅, 邬开俊. 基于深度学习的视频目标检测综述[J]. 计算机科学与探索, 2021, 15(9): 1563-1577.
[3] Liu L, Ouyang W, Wang X,et al. Deep Learning for Generic Object Detection: A Survey[J]. International Journal of Computer Vision, 2019. DOI:10.1007/s11263-019-01247-4.
[4] Cai L, Zhao B, Wang Z, et al. MaxpoolNMS: Getting Rid of NMS Bottlenecks in Two-Stage Object Detectors[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. DOI:10.1109/CVPR.2019.00958.
[5] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[J/OL]. arXive-prints, 2018. DOI:10.48550/arXiv.1804.02767.
[6] Wei L, Dragomir A, Dumitru E, et al. SSD: Single Shot MultiBox Detector[J]. Lecture Notes in Computer Science, 2016, 21-37. DOI:10.1007/978-3-319-46448-0_2.
[7] Xu H, Jiang C, Liang X, et al. Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. DOI:10.1109/CVPR.2019.00658.
[8]任玉蒙. 基于深度学习的多目标检测与跟踪算法研究[D].天津: 天津科技大学, 2022. DOI:10.27359/d.cnki.gtqgu.2022.000532.
[9] Shi Y, Peng D, Liao W, et al. Exploring ocr capabilities of gpt-4v(ision): A quantitative and in-depth evaluation[J]. ArXiv, 2023, arxiv: 2310.16809.
[10] Zhang Z, Liu M, Zhang C, et al. Argot: Generating Adversarial Readable Chinese Texts[C]. IJCAI, 2020. DOI:10.24963/ijcai.2020/347.
[11] Qi D, Tan W, Yao Q, et al. YOLO5Face: Why Reinventing a Face Detector[J/OL]. ArXiv, 2021. DOI:10.48550/arXiv.2105.12931.
第一作者:王涵(1997—),男,汉族,山东青岛人,硕士,主要从事业务运行监控工作,E-mail: 1395724712@qq.com
1. 日照海关 日照 276800
1. Rizhao Customs, Rizhao 276800
图2 利用YOLOv8识别旅检通道行人
Fig.2 YOLOv8 detection of travelers through passenger inspection channels