(无内容)
https://i.imgur.com/gQhUEnu.jpeg 这个是原图,阿里切出来长这样 https://i.imgur.com/hrvlL9u.png 百度云切出来长这样 https://i.imgur.com/GfizNbm.jpeg 是要对图片提前处理吗?
分解步骤,不要指望一句提示词搞定。 先 ocr ,获得文本和坐标,然后把文本扔给大模型,问他怎么拆题,根据大模型给的结果再去拿到每个题目对应的坐标,然后获得最终的拆题。ocr 的要求不用太高,识别错误没关系,大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型,让他直接给你每个题目的坐标,你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。
@jstony #2 我试过用大模型,效果也一般,而且大模型有个问题,就是一致性较差。最开始用 gemini 2.0-flash ,效果很差, 后面换成 gemini 3.0-preview 就好一些。
登录后可发帖和回复
https://i.imgur.com/gQhUEnu.jpeg 这个是原图,阿里切出来长这样 https://i.imgur.com/hrvlL9u.png 百度云切出来长这样 https://i.imgur.com/GfizNbm.jpeg 是要对图片提前处理吗?