VibeVoice实现90分钟、多角色播客生成，拓展语音合成新边界

微软亚洲研究院推出VibeVoice，实现90分钟、最多4人自然对话的高质量语音生成，突破传统模型限制。

AI自动生成播客早已不是新鲜事，但常见的AI播客只局限于几分钟的双人对话，这是因为传统语音生成模型大多基于离散化方法，更擅长生成短句、单一音色、结构规整的语音内容。

不过最近微软亚洲研究院提出了一种全新的语音生成模型VibeVoice。该模型采用next-token diffusion机制，实现了长达90分钟、支持最多4人自然对话的高质量语音生成。更重要的是，VibeVoice生成的语音中，还能听到说话人自然的呼吸、恰到好处的停顿，甚至偶尔的唇齿音，仿佛真的有人在你耳边交谈。

创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力，只需提供一份带角色标注的脚本，例如"主持人：今天我们聊……"、"嘉宾2：你看，……"，VibeVoice就能自动生成最长90分钟、支持最多4人对话的高质量播客音频。

我觉得这个技术对于播客创作者来说真的很有用，特别是那些想做长篇访谈节目但缺乏录制条件的人。不过目前这个技术还在研究阶段，希望早日能公开使用。

VibeVoice实现90分钟、多角色播客生成，拓展语音合成新边界

Related Posts