微软AI实验室发布两款自研模型:语音生成与基础模型的首次亮相
微软AI实验室推出MAI-Voice-1语音生成模型和MAI-1-preview基础模型,分别应用于Copilot语音交互和文本处理场景,标志着其自研模型战略迈出实质性一步。
微软AI实验室(MAI)今天低调放了个大招——两款自研模型结束内部测试,正式进入公众视野。

**MAI-Voice-1**可能是目前最不「AI」的语音模型。它能在单块GPU上实现每秒60秒音频的生成速度,但重点不在于参数多吓人,而是终于解决了语音AI的「恐怖谷效应」——那些刻意模仿人类的机械停顿和虚假情绪,在这个模型里被替换成了更接近真实人类对话的韵律。现在你可以在Copilot的每日播客里听到它的表现,或者去[Copilot Labs](https://copilot.microsoft.com/labs/)亲手调教一个会讲暗黑童话的语音助手。
另一款**MAI-1-preview**则走了完全不同的路线。这个基于15,000块H100 GPU训练出来的混合专家模型,正在LMArena平台接受公开「拷打」。有意思的是,微软没把它包装成「全能选手」,反而明确表示这是专门针对日常指令场景优化的工具型模型。想提前体验的开发者可以[申请API权限](https://forms.microsoft.com/r/wBjhYg8rjb),不过按微软近年作风,估计筛选标准会相当苛刻。
比起模型本身,更值得玩味的是微软的「模型乐团」策略——不再追求单个模型的通杀,而是让不同特长的模型协同工作。这种思路在语音+文本双模型首发组合里已经可见端倪。毕竟现实中没人会要求播音员同时是个数学家,AI为什么非要「既要又要」呢?
(注:所有技术指标均来自微软官方披露,未进行独立验证)
发布时间: 2025-08-29 08:23