logo
  • AI Image Generator
  • AI Chat
  • Nano Banana ProAD
  • Blog
Back to List
ADMIN
2026年3月21日
3 Views
2 min read

VibeVoice实现90分钟、多角色播客生成,拓展语音合成新边界

微软亚洲研究院推出VibeVoice,实现90分钟、最多4人自然对话的高质量语音生成,突破传统模型限制。

AI自动生成播客早已不是新鲜事,但常见的AI播客只局限于几分钟的双人对话,这是因为传统语音生成模型大多基于离散化方法,更擅长生成短句、单一音色、结构规整的语音内容。

不过最近微软亚洲研究院提出了一种全新的语音生成模型VibeVoice。该模型采用next-token diffusion机制,实现了长达90分钟、支持最多4人自然对话的高质量语音生成。更重要的是,VibeVoice生成的语音中,还能听到说话人自然的呼吸、恰到好处的停顿,甚至偶尔的唇齿音,仿佛真的有人在你耳边交谈。

创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注的脚本,例如"主持人:今天我们聊……"、"嘉宾2:你看,……",VibeVoice就能自动生成最长90分钟、支持最多4人对话的高质量播客音频。

我觉得这个技术对于播客创作者来说真的很有用,特别是那些想做长篇访谈节目但缺乏录制条件的人。不过目前这个技术还在研究阶段,希望早日能公开使用。