极视角10亿+真实业务场景训练，视觉大模型的细粒度能力提升级

2026年05月15日 11:00:25 来自北京

近年来，视觉语言大模型在学术界掀起热潮，但在真实产业场景中，“能看懂”不等于“能干活”。

5月8-10日，VALSE2026视觉与学习青年学者研讨会在武汉国际会议中心举办，极视角算法专家邓富城出席大会并在Workshop专题分享会上聚焦“视觉语言大模型的技术与工程化实践路径”这一核心议题，分享了视觉语言大模型从科研到产业应用的技术路径与思考。在研讨会上，邓富城所提出的“二八原则”一针见血：在产业应用中，80%的需求属于细粒度定位感知问题，仅有20%属于复杂推理理解问题。

这一观点道破了当前视觉大模型工程化落地的核心瓶颈——模型泛化能力再强，若无法在具体场景中实现像素级精准定位与细粒度理解，便难以真正赢得产业用户的信任。

被忽视的“80%”：细粒度感知为何成为产业刚需？

在工业质检、安防巡检、智能交通、智慧零售等典型AI视觉应用领域，真实业务场景往往要求模型“指哪打哪”——不仅要知道“画面中有一个人”，更要精准定位“这个人是否在安全线内”；不仅要识别“产品表面有缺陷”，还要判断“缺陷位于哪个区域、尺寸几何”。这类需求本质上属于细粒度定位感知，对模型的边界敏感度、空间推理能力和细节区分能力提出了远高于通用识别的要求。

当前，视觉语言大模型在通用图文理解、开放词汇检测等泛化能力上已取得显著突破。与此同时，产业实际场景对细粒度定位与感知能力提出了更高要求。极视角在自研星际视觉语言大模型（Stellaris-VL）的过程中发现，以同等参数量为基准，开源模型在通用公开数据集上表现优异，但在面向产业场景的细粒度测试集上，精度仍有较大提升空间。这恰恰是极视角聚焦发力的方向——通过自建高难度细粒度数据集与针对性的训练策略，星际视觉语言大模型在该类任务上的性能实现了提升，显著缩小了通用能力与产业需求之间的差距。

如何破局？从数据到训练的全链路定向优化

针对“二八原则”中的核心需求，极视角的实践路径并非另起炉灶，而是在主流拼接式架构基础上，将研发重心聚焦于后训练阶段，围绕细粒度感知做全链路定向优化。

1.数据引擎：用10亿+真实业务数据构筑差异化优势

细粒度能力的根基在于高质量、高密度的场景化数据。极视角依托十年积累的10亿+真实业务原始数据，极视角构建了一套覆盖数据自动化清洗、标注、验证与迭代的全流程闭环数据引擎。这一引擎确保了训练数据不仅“量大”，更“质优”，且高度贴近产业场景中的复杂目标、遮挡、光照变化等真实挑战。

2.训练策略：通用能力不丢，细粒度能力倍增

极视角采用“互联网图文数据+海量产业场景数据”混合训练，并设计了分阶段策略：在监督微调（SFT）阶段，先通过全量微调打下多任务基础，再以高效微调（LoRA）针对性优化；在基于GSPO的强化学习（RL）阶段，专门为定位类任务设计奖励函数，强化模型对边界、区域、相对位置等信息的敏感度。最终，星际视觉语言大模型在自建的产业级数据集上性能翻倍提升，同时保持了公开基准上的通用能力。

从“实验室指标”到“产线指标”：细粒度能力的价值兑现

提升细粒度感知能力的直接效果，是让视觉大模型真正适用于那些“严苛场景”——例如开放词汇目标检测中，模型能识别训练集从未见过的缺陷类型并给出精确框；指代表达理解中，能根据“左边第二个货架上红色包装的商品”这类自然语言指令完成定位；在文档问答与OCR任务中，能从拥挤的表格中准确提取指定字段。这些能力正是千行百业数字化、智能化升级中高频出现的“80%需求”所对应的。

邓富城在演讲最后强调，视觉大模型的长远发展不能仅沉醉于“通用智能”的宏大叙事，更需俯身解决细粒度感知这一工程化顽疾。

真实世界中的视频理解、动态事件分析、多目标轨迹跟踪等更高维度的任务，将进一步放大细粒度能力的重要性。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

极视角10亿+真实业务场景训练，视觉大模型的细粒度能力提升级

亲爱的凤凰网用户:

第三方浏览器推荐: