GoForum🌐 V2EX

大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗?

monstericeer · 2026-04-02 08:34 · 0 次点赞 · 5 条回复

最近在测试 Qwen3-VL ,Doubao-seed-2 这类的目标识别能力,尤其是豆包在很多复杂场景不需要训练就能标注得非常准确,能够在用法上更加灵活,对比 yolo 需要大量的训练数据,不断迭代。 想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练,或者直接用在生产环境?

5 条回复
iasnull · 2026-04-02 08:44
#1

看具体场景,各有优劣。比如最近的大模型在单字符级别的识别能力比较差,在比较大且明显的 2d 特征物体的识别能力就很厉害,能抗噪声和失真。

giserd · 2026-04-02 08:44
#2

VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱

nno · 2026-04-02 08:44
#3

对延迟敏感的不会用;不敏感的会用;

stinkytofux · 2026-04-02 08:44
#4

标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.

cryptovae · 2026-04-02 08:49
#5

yolo 快,训练数据量上来,准确度提升 VL 模型慢,有幻觉,看你怎么取舍了

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: monstericeer
发布: 2026-04-02
点赞: 0
回复: 0