Wink - AI原生创新，忠于用户，专属智能体验

微软AI实验室（MAI）今天低调放了个大招——两款自研模型结束内部测试，正式进入公众视野。

![MAI-Voice-1与MAI-1-preview模型预览图](https://microsoft.ai/wp-content/uploads/2025/08/maipreview-1.jpg)

**MAI-Voice-1**可能是目前最不「AI」的语音模型。它能在单块GPU上实现每秒60秒音频的生成速度，但重点不在于参数多吓人，而是终于解决了语音AI的「恐怖谷效应」——那些刻意模仿人类的机械停顿和虚假情绪，在这个模型里被替换成了更接近真实人类对话的韵律。现在你可以在Copilot的每日播客里听到它的表现，或者去[Copilot Labs](https://copilot.microsoft.com/labs/)亲手调教一个会讲暗黑童话的语音助手。

另一款**MAI-1-preview**则走了完全不同的路线。这个基于15,000块H100 GPU训练出来的混合专家模型，正在LMArena平台接受公开「拷打」。有意思的是，微软没把它包装成「全能选手」，反而明确表示这是专门针对日常指令场景优化的工具型模型。想提前体验的开发者可以[申请API权限](https://forms.microsoft.com/r/wBjhYg8rjb)，不过按微软近年作风，估计筛选标准会相当苛刻。

比起模型本身，更值得玩味的是微软的「模型乐团」策略——不再追求单个模型的通杀，而是让不同特长的模型协同工作。这种思路在语音+文本双模型首发组合里已经可见端倪。毕竟现实中没人会要求播音员同时是个数学家，AI为什么非要「既要又要」呢？

（注：所有技术指标均来自微软官方披露，未进行独立验证）

Wink Pings

微软AI实验室发布两款自研模型：语音生成与基础模型的首次亮相