GoForum🌐 V2EX

重磅!某 985 高校团队宣布: AI 大模型内存需求暴降 82%,老旧 DDR3 服务器仍可高效运行!

roro4ever · 2026-02-12 19:12 · 0 次点赞 · 2 条回复

2026 年 2 月 11 日讯(记者:AI 前线)

今天上午,国内某顶尖 985 高校人工智能研究院与计算机系联合实验室宣布,他们开发了一种名为“动态激活重构与分层内存复用”( Dynamic Activation Reconstruction and Hierarchical Memory Reuse ,简称 DAR-HMR )的推理优化框架。该方法针对当前主流大语言模型(参数规模 70B 至数百 B 级)的推理阶段,实现了峰值显存/内存占用的显著压缩。

根据团队在 arXiv 预印本和内部基准测试中的报告,使用该框架后:

  • 以 Qwen2.5-72B-Instruct 模型为例,FP16 半精度全推理峰值内存从约 185GB 降至约 33GB ,压缩率达 82%;

  • DeepSeek 系列蒸馏大模型在微调场景下,原本需多卡 80GB 显卡集群的配置,现可在 2 张消费级 RTX 40 系列显卡+系统 DDR 内存组合下完成,峰值总内存控制在 48GB 以内;

  • 最关键的是,该方法对内存硬件要求极低:在使用 DDR3-1600 (甚至更老的 DDR3-1333 )配置的旧服务器上,实测推理吞吐量仅比高配 DDR5 系统下降约 12%,而带宽利用率反而因调度优化略有提升。

团队负责人、长聘副教授李明在接受采访时表示:“我们观察到大模型推理过程中,绝大部分中间激活值具有高度的时间局部性和可预测性。通过引入一个极轻量的重构模块(仅增加不到 0.6%的参数量),可以在几乎不损失精度的前提下,将跨层激活值高度复用到同一块物理内存区域。同时结合输入自适应的分块调度和近似量化策略,使整个过程对低带宽、高容量的老内存(如 DDR3 )表现出意外的友好性。”

实际演示中,团队在一台 2012 年左右配置的旧服务器(双路 Xeon E5 + 128GB DDR3 ECC 内存,无独立高端显卡)上成功运行了量化后的 70B 模型进行长文本生成,延迟控制在可接受范围内。相比传统分页换出或 CPU-GPU 协同方式,这种“内存内原地复用”避免了大量数据搬运开销。

李教授强调,该工作目前仍处于实验验证阶段,距离工业级部署还有距离,但初步结果显示,它为大量仍在使用 DDR3/DDR4 的大学实验室、中小企业服务器、甚至个人工作站提供了继续运行前沿大模型的可能性。“我们希望这项技术能让 AI 的计算门槛再降低一些,而不是继续堆更高规格的 HBM 和 GDDR 。”

目前代码和部分模型 checkpoint 已在 GitHub 开源(链接: https://github.com/thu-ai-lab/dar-hmr ),团队计划在后续工作中进一步优化对更老硬件的兼容性,并探索与现有推理引擎(如 vLLM 、llama.cpp )的集成。

(注:本文转载自 tg 群组)

2 条回复
viviwon · 2026-02-12 19:52
#1

404

300 · 2026-02-12 19:57
#2

内存 显存 硬盘 时间此起彼伏😏

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: roro4ever
发布: 2026-02-12
点赞: 0
回复: 0