Wink Pings

微软开源VibeVoice:能生成90分钟多人对话的TTS模型

微软开源VibeVoice TTS模型,支持90分钟长音频生成、4人对话及中文语音合成,技术架构创新但存在使用限制。

微软悄无声息地在Hugging Face放出了VibeVoice-1.5B——一个能让你忘记「机械音」三个字怎么写的TTS模型。

![VibeVoice架构图](https://huggingface.co/microsoft/VibeVoice-1.5B/resolve/main/figures/Fig1.png)

这玩意儿有三点值得注意:

1. 单次生成最长90分钟(够听完半场德云社)

2. 支持4人对话场景(终于不用听AI二人转了)

3. 中文效果据说不错(演示样本里长句子不多,存疑)

技术上看,它用7.5Hz超低帧率的连续语音tokenizer解决长序列问题,结合LLM理解文本上下文,再用扩散模型补细节。比那些只会念稿的TTS多了点「人味」,但离真人口播还差着十个Siri。

![模型卡片](https://pbs.twintimg.com/card_img/1960064938895917056/VWOcsZBG?format=jpg&name=small)

微软明说这模型现阶段只适合研究用:

- 严禁实时语音克隆

- 拒绝跨语言使用(中英文之外会输出不可名状的声音)

- 生成内容自带水印和AI声明

如果你打算用它做播客,记得两点:

1. 背景音乐得后期加

2. 四人对话时不会有真实场景的抢话效果

项目地址:[microsoft/VibeVoice](https://github.com/microsoft/VibeVoice)

技术报告:[2412.08635](https://arxiv.org/abs/2412.08635)

(试玩过的可以说说中文效果到底如何)

发布时间: 2025-08-26 11:43