GoForum🌐 V2EX

切换到 turboquant_plus, 效率真的提升太高了

Hermitist · 2026-04-02 14:44 · 0 次点赞 · 3 条回复

https://github.com/TheTom/turboquant_plus

我是 32G M5 的 macbook air, 启用了 Qwen3.5-27B.Q3 的大模型, 内存最高是在 81%,关键我的电脑还跑了一堆其它应用比如同花顺/抖音/邮件/梯子/笔记/chatgpt, 关键是我刚启用, 缓存刚开始建立中, 这个真的是质的提升.

晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.

3 条回复
penisulaS · 2026-04-02 14:49
#1

你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本

Hermitist · 2026-04-02 14:59
#2

@penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.

penisulaS · 2026-04-02 15:04
#3

@Hermitist 你试过用来跑本地的代码模型吗?我的意思是我试过本地的,感觉比较笨,没达到我的门槛,感觉这些开源的非超大模型还不够聪明

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: Hermitist
发布: 2026-04-02
点赞: 0
回复: 0