coefu
@unt 当前开源里,普罗大众能用到的最强悍模型了。2* 2080ti 22g ,不到 4k 的成本,跑 31B Q8 ,估计能有个 10 Token/s 的速度,凑合能用。
@philobscur qwen3.5 就是阿里开源的最后绝唱了,你还等什么 3.6 咯,事情都搞不明白。
非常强悍,g 厂出手,都是弟弟。
31B ,要真正跑起 256k 的 context ,Q8 起码要 64G 显存。
对于一般 web 代码来说,体现不出来它的上限。当然,一般人也用不到它的上限。
现在打榜的 benchmark ,都是对标 博士级别的水平,只有你的 case 是真…
@qshu #7 看来,你都看不懂我的观点。不是多就是好,要么你像 他 chromClaw ,用几乎免费 tokens 的成本,大而全。要么就是,定量 tokens 的情况下,大而优。不然,我凭什么用你的 maas ?我 tokens 成本多的慌,用你 maas 来玩?
不用回复我了,夏虫语冰…
@qshu #3 其实,最核心的东西,你没看明白,如果用你的这个 maas ,需要消耗多少 tokens ,你 maas 的实力到底如何,别人先不知道,但是先烧的 tokens 是实实在在的,如果你能在定量 tokens 的情况下,有服务优劣的 benchmark ,才更有卖点;说明你 maas …
@qshu #4 就他搞的这个 把 chatgpt / gemini webui 封装,白嫖 tokens 的东西,就比你这所谓的 agent 专家有亮点。 垂类 agent 专家的深度从哪里来?垂直领域的 LLMs ,你后训练了 接入 让用户买你的 tokens ?做不到这点,就没什么所谓更好…
https://www.v2ex.com/t/1197695
你觉得和他这个,有什么区别?本质上都是一类。
特色服务(玄学/神学): 包含一个基于严格上下文记忆的《易经》排盘解卦 Master ,以及一个专门研读《圣经》的探讨模块。
你不如把这种垂类做强做深了,还能赚点钱。其余的,太稀松平常,下半年要烂大街的东西,多你一个不多,少你一个不少,没什么技术门槛,大厂进来直接收割流量。
只能说,你之前的 web3 经历,路径惯性了,以为别的 web3 也是如此。v 站上的 web3 ,一律都是黑灰,不接受反驳。
@unt 我觉得,和 gemini 来比,gemini 现在搞的这种情绪价值提供,反而让人不客观了。今天,试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关,反而更理性客观,没有 gemini 的夸夸味。