GoForum › 🌐 V2EX

大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗？

monstericeer · 2026-04-02 08:34 · 0 次点赞 · 5 条回复

最近在测试 Qwen3-VL ，Doubao-seed-2 这类的目标识别能力，尤其是豆包在很多复杂场景不需要训练就能标注得非常准确，能够在用法上更加灵活，对比 yolo 需要大量的训练数据，不断迭代。想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练，或者直接用在生产环境？

5 条回复

iasnull · 2026-04-02 08:44

看具体场景，各有优劣。比如最近的大模型在单字符级别的识别能力比较差，在比较大且明显的 2d 特征物体的识别能力就很厉害，能抗噪声和失真。

giserd · 2026-04-02 08:44

VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱

nno · 2026-04-02 08:44

对延迟敏感的不会用；不敏感的会用；

stinkytofux · 2026-04-02 08:44

标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.

cryptovae · 2026-04-02 08:49

yolo 快，训练数据量上来，准确度提升 VL 模型慢，有幻觉，看你怎么取舍了

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: monstericeer

发布: 2026-04-02

点赞: 0

回复: 0