HodlAI 上下文限制问题
背景
我通过 OpenClaw 接入 HodlAI ,使用的是 hodlai/claude-sonnet-4.5
遇到的问题
在对话进行到一定长度后,请求开始被拦截,返回如下错误:
400 Request blocked: context too large (estimated 50012 tokens, limit 50000
without cache). No cache available: tools: not_cached. Reduce context or send
smaller requests first to warm up cache.
从这条错误信息可以看到,HodlAI 的上游中继层对单次请求的上下文设置了 50000 token 的硬限制。而 Claude Sonnet 4.5 原生支持 200k+ 的上下文窗口,所以这个限制是代理层设置的,不是模型本身的限制。
想请教的几个问题
1. 这个 50k 限制有文档说明吗?
我在 README 、文档、定价页面都没有找到关于 50000 token 上下文限制的说明。如果有的话,能指一下在哪里吗?如果目前没有的话,能否考虑在文档中标注一下?这样用户可以提前在客户端做好配置,避免踩坑。
2. 有缓存时的限制是多少?
错误信息提到 limit 50000 without cache,那有缓存的情况下限制是多少?缓存的触发条件是什么?有没有最佳实践可以分享?
@88AI 我到现在都没想明白不直连 Claude 而是费劲花活去用 OpenRouter 的意义在哪
刚刚也遇到这个错误: ⎿ API Error: 400 {“error”:{“type”:“context_length_exceeded”,“message”:“Request blocked: context too large (estimated 56273 tokens, limit 50000 without cache). Cache confidence too low: 69% < required 70%. Reduce context or send smaller requests first to warm up cache. (request id:
20260211110109801056837z9gQfgxe)"},"type":"error"}
怎么使用缓存机制?不只是说自己不用做什么配置吗?感觉这几天的 API 很不稳定,总是遇到各种各样的问题。
@SingeeKing 我也很困惑为什么不直连 Claude ,从这几天的实际使用来看体验挺不好的
这种中转得自己判断它的逆向源是啥吧,kiro2api 出来的 claude 都有 128k ,感觉这个可能是某种不支持 tool call 的冷门逆向源出来的