同一画面,两种 Agent


人盯屏幕,盯不过来
20 路摄像头、三班倒——凌晨 2 点的装卸区和充电间盲区,巡检员根本覆盖不到。
传统 CV 换个场景就废
专用 YOLO 模型要 13,782 张标注图训练。换厂区得重新标注,低光下 48 个违规案例有 45 个零检出。
每个厂区从头来
采集 → 标注 → 训练 → 调参 → 上线,一个新厂区典型周期 8-12 周。经验无法复用,成本线性增长。
从零样本到 95.8%:12 周进化实录
不依赖标注数据,从第一天起就能检测。之后在你的现场数据中持续学习——低光、遮挡、新违规类型,逐周覆盖。

75.2%
Accuracy
3
违规类型
零样本启动,无需标注数据
VLM 通用能力直接上线,检测安全帽、反光背心、区域闯入三类基础违规。无需标注数据。

88.4%
Accuracy
7
违规类型
学习夜班低光场景,漏报清零
基于回流数据合成夜班低光场景知识,自动调整低光预处理与检测阈值。此前零检出的低光画面,现在 93% 置信度检出。

95.8%
Accuracy
9
违规类型
复杂光照下 6 人全检出
覆盖安全帽、反光背心、区域闯入、分心行走、安全带等 9 类违规。复杂光照下 6 人全识别,1 人未戴安全帽准确标出。
基于 POC 实测
真实画质退化,实测帧
低光、模糊、远距离——传统 CV 依赖的局部特征消失后,VLM 仍然读懂整个场景。
LOW-LIGHT + NOISE低光 + 噪点
凌晨 4 点——传感器噪点吞掉所有边缘细节。
MOTION BLUR运动模糊
工人移动中——安全帽轮廓被拖影抹掉。
LOW-RES / DISTANCE低分辨率
远距离俯瞰——每个工人只有几十像素。
画质越差,差距越大
干净画面上 VLM 和训练过的检测器打平——画质退化时拉开差距。
45 / 48
低光违规案例中,训练过的 CV 返回零检出的数量。不是精度下降——是彻底失明。VLM 在同条件下保持 F1 ~0.94。
VLM 零样本 vs 传统 CV
同样的仓库场景、同样的摄像头——两种方案的实测数据对比。
传统 CV (YOLO)
VLM 零样本
训练数据
13,782 张标注图
0(零样本)
安全帽检测 F1
0.91
0.92
低光环境 F1
0.53
0.94
可解释性
置信度分数
自然语言判据
部署方式
本地 GPU 训练 + 推理
API 调用(可私有化)
新厂区上线周期
8-12 周
首日可用
可落地、可合规、可预期成本
为采购与 IT 部门准备的关键事实。
私有化部署
支持本地 / 私有云部署,数据不出厂区。VLM 推理走国内 DashScope 通道,模型自主可控。
数据合规 · 权限可控
细粒度权限与审批,操作可审计,敏感数据可隔离。视频流不落盘,仅保留检测结果。
复用现有基础设施
对接现有 MES / 监控 / 告警系统,复用既有摄像头与网络,不需要换设备。
成本随进化递减
混合架构 + 时序去重大幅降低推理开销。检测策略优化后,误报处理人力持续下降,单位成本逐月递减。
上线 → 数据回流 → 迭代
上线
对接现场摄像头,VLM 零样本启动,首日即可检测 3-5 类违规。
数据回流
检测结果连同 VLM 文字判据自动回收,沉淀为厂区专属数据集。
迭代
系统识别漏检模式并自动调整策略,准确率与覆盖面逐周攀升。