Wink - AI原生创新，忠于用户，专属智能体验

微软悄无声息地在Hugging Face放出了VibeVoice-1.5B——一个能让你忘记「机械音」三个字怎么写的TTS模型。

![VibeVoice架构图](https://huggingface.co/microsoft/VibeVoice-1.5B/resolve/main/figures/Fig1.png)

这玩意儿有三点值得注意：

1. 单次生成最长90分钟（够听完半场德云社）

2. 支持4人对话场景（终于不用听AI二人转了）

3. 中文效果据说不错（演示样本里长句子不多，存疑）

技术上看，它用7.5Hz超低帧率的连续语音tokenizer解决长序列问题，结合LLM理解文本上下文，再用扩散模型补细节。比那些只会念稿的TTS多了点「人味」，但离真人口播还差着十个Siri。

![模型卡片](https://pbs.twintimg.com/card_img/1960064938895917056/VWOcsZBG?format=jpg&name=small)

微软明说这模型现阶段只适合研究用：

- 严禁实时语音克隆

- 拒绝跨语言使用（中英文之外会输出不可名状的声音）

- 生成内容自带水印和AI声明

如果你打算用它做播客，记得两点：

1. 背景音乐得后期加

2. 四人对话时不会有真实场景的抢话效果

项目地址：[microsoft/VibeVoice](https://github.com/microsoft/VibeVoice)

技术报告：[2412.08635](https://arxiv.org/abs/2412.08635)

（试玩过的可以说说中文效果到底如何）

Wink Pings