GoForum › 🌐 V2EX

做了一个 STT 音频网关：弱网下实时断句 + VAD 前置，减少 30% 无效识别

guocf20 · 2026-01-11 13:03 · 0 次点赞 · 1 条回复

大家好，最近在做实时语音识别（ STT ）相关的项目时，踩了不少坑。

目前市面上大多数 STT 服务，基本都是基于「原始音频流 + TCP 直推」的假设来设计的，默认网络稳定、客户端性能充足。但在弱网、实时交互、边缘设备等场景下，音频往往是零碎、不连续的，直接送给 STT 会导致：

所以我单独做了一个 STT 前置音频网关，放在客户端和 STT 服务之间，专门负责音频的预处理和断句。

这个网关主要做了几件事：

整体效果如下：

实现上目前集成了：

目标并不是替代 STT ，而是在 不改动 STT 服务本身的前提下，显著改善实时语音交互体验，尤其是在弱网和实时对话场景。

目前功能还在持续迭代中，代码也比较原始，欢迎试用、拍砖、提 PR 。

1 条回复

liangdi · 2026-01-11 13:38

有点意思，我部署测试一下

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: guocf20

发布: 2026-01-11

点赞: 0

回复: 0