GoForum › 🌐 V2EX
切换到 turboquant_plus, 效率真的提升太高了
Hermitist ·
2026-04-02 14:44 ·
0 次点赞 · 3 条回复
https://github.com/TheTom/turboquant_plus
我是 32G M5 的 macbook air, 启用了 Qwen3.5-27B.Q3 的大模型, 内存最高是在 81%,关键我的电脑还跑了一堆其它应用比如同花顺/抖音/邮件/梯子/笔记/chatgpt, 关键是我刚启用, 缓存刚开始建立中, 这个真的是质的提升.
晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.
3 条回复
@penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.
@Hermitist 你试过用来跑本地的代码模型吗?我的意思是我试过本地的,感觉比较笨,没达到我的门槛,感觉这些开源的非超大模型还不够聪明
添加回复
你还需要 登录
后发表回复
你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本