极视角10亿+真实业务场景训练,视觉大模型的细粒度能力提升级
科技
科技 > 传媒 > 正文

极视角10亿+真实业务场景训练,视觉大模型的细粒度能力提升级

近年来,视觉语言大模型在学术界掀起热潮,但在真实产业场景中,“能看懂”不等于“能干活”。

5月8-10日,VALSE2026视觉与学习青年学者研讨会在武汉国际会议中心举办,极视角算法专家邓富城出席大会并在Workshop专题分享会上聚焦“视觉语言大模型的技术与工程化实践路径”这一核心议题,分享了视觉语言大模型从科研到产业应用的技术路径与思考。在研讨会上,邓富城所提出的“二八原则”一针见血:在产业应用中,80%的需求属于细粒度定位感知问题,仅有20%属于复杂推理理解问题。

这一观点道破了当前视觉大模型工程化落地的核心瓶颈——模型泛化能力再强,若无法在具体场景中实现像素级精准定位与细粒度理解,便难以真正赢得产业用户的信任。

被忽视的“80%”:细粒度感知为何成为产业刚需?

在工业质检、安防巡检、智能交通、智慧零售等典型AI视觉应用领域,真实业务场景往往要求模型“指哪打哪”——不仅要知道“画面中有一个人”,更要精准定位“这个人是否在安全线内”;不仅要识别“产品表面有缺陷”,还要判断“缺陷位于哪个区域、尺寸几何”。这类需求本质上属于细粒度定位感知,对模型的边界敏感度、空间推理能力和细节区分能力提出了远高于通用识别的要求。

当前,视觉语言大模型在通用图文理解、开放词汇检测等泛化能力上已取得显著突破。与此同时,产业实际场景对细粒度定位与感知能力提出了更高要求。极视角在自研星际视觉语言大模型(Stellaris-VL)的过程中发现,以同等参数量为基准,开源模型在通用公开数据集上表现优异,但在面向产业场景的细粒度测试集上,精度仍有较大提升空间。这恰恰是极视角聚焦发力的方向——通过自建高难度细粒度数据集与针对性的训练策略,星际视觉语言大模型在该类任务上的性能实现了提升,显著缩小了通用能力与产业需求之间的差距。

如何破局?从数据到训练的全链路定向优化

针对“二八原则”中的核心需求,极视角的实践路径并非另起炉灶,而是在主流拼接式架构基础上,将研发重心聚焦于后训练阶段,围绕细粒度感知做全链路定向优化。

1.数据引擎:用10亿+真实业务数据构筑差异化优势

细粒度能力的根基在于高质量、高密度的场景化数据。极视角依托十年积累的10亿+真实业务原始数据,极视角构建了一套覆盖数据自动化清洗、标注、验证与迭代的全流程闭环数据引擎。这一引擎确保了训练数据不仅“量大”,更“质优”,且高度贴近产业场景中的复杂目标、遮挡、光照变化等真实挑战。

2.训练策略:通用能力不丢,细粒度能力倍增

极视角采用“互联网图文数据+海量产业场景数据”混合训练,并设计了分阶段策略:在监督微调(SFT)阶段,先通过全量微调打下多任务基础,再以高效微调(LoRA)针对性优化;在基于GSPO的强化学习(RL)阶段,专门为定位类任务设计奖励函数,强化模型对边界、区域、相对位置等信息的敏感度。最终,星际视觉语言大模型在自建的产业级数据集上性能翻倍提升,同时保持了公开基准上的通用能力。

从“实验室指标”到“产线指标”:细粒度能力的价值兑现

提升细粒度感知能力的直接效果,是让视觉大模型真正适用于那些“严苛场景”——例如开放词汇目标检测中,模型能识别训练集从未见过的缺陷类型并给出精确框;指代表达理解中,能根据“左边第二个货架上红色包装的商品”这类自然语言指令完成定位;在文档问答与OCR任务中,能从拥挤的表格中准确提取指定字段。这些能力正是千行百业数字化、智能化升级中高频出现的“80%需求”所对应的。

邓富城在演讲最后强调,视觉大模型的长远发展不能仅沉醉于“通用智能”的宏大叙事,更需俯身解决细粒度感知这一工程化顽疾。

真实世界中的视频理解、动态事件分析、多目标轨迹跟踪等更高维度的任务,将进一步放大细粒度能力的重要性。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载