GoForum › 🌐 V2EX

做有声读物时， AI TTS 的情绪和口音控制是不是一直很难？

sunwangme · 2026-02-27 17:12 · 0 次点赞 · 0 条回复

最近在折腾把一些偏故事、叙述类的长文本做成有声读物，用途主要是自己听，也可能之后给内容配音用。

一开始以为 TTS 已经挺成熟了，真正用下来才发现，想要“有情绪、有一点口音”的声音，其实挺难的。

主要遇到几个问题：

1.情绪大多只能在 prompt 里简单写，实际听起来变化很生硬

2.口音有时候不是“带点口音”，而是直接变成怪腔怪调

3.长文本生成时，前后语气经常不一致，听久了很出戏

4.分段生成虽然好控制，但整体连贯性又会受影响

期间也试过几种方案，本地模型和一些现成的在线 TTS 都折腾过。本地方案配置成本比较高，调参也挺花时间；在线的很多要么情绪选项很少，要么更适合短句，不太适合整段故事。

想请教下大家：

1.如果是做偏长文本的有声读物，一般是怎么解决情绪一致性的问题的？

2.情绪 / 口音这种需求，是不是本来就不太适合现在的 TTS ？

欢迎分享踩坑经验 🙏

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: sunwangme

发布: 2026-02-27

点赞: 0

回复: 0