DAILY LESSON / 2026-05-10

OpenAI 一口气发三款语音模型

5 月 7 号，OpenAI 在 API 里一次性发布了三款语音模型。语音 AI 以前只负责「听」和「说」，现在它能「想」了。

OpenAIAIAI模型AI动态科技产业

5 月 7 号，OpenAI 在 API 里一次性发布了三款语音模型。语音 AI 以前只负责「听」和「说」，现在它能「想」了。

第一款，也是最重要的一款：GPT-Realtime-2。

这是 OpenAI 第一个把 GPT-5 级别的推理能力塞进语音的模型。什么意思呢？以前的语音 AI，你说一句它回一句，思路其实挺浅的。遇到复杂一点的问题，比如你让它帮你分析一份合同里的风险条款，或者一边跟你聊、一边帮你查资料、一边调用工具去干活，它就吃力了。

GPT-Realtime-2 不一样。你说话的时候，它在后台真的在推理。它的上下文高达 128K，比以前翻了四倍。它还能自己调用外部工具，能承受你中途打断、纠正、换个方向接着聊。

OpenAI 还给推理分了五档：最小、低、中、高、超高。你按需选择。快速问答用低档省钱，复杂任务开高档确保质量。

第二款：GPT-Realtime-Translate。

这是一个实时翻译模型，支持 70 种输入语言翻译成 13 种输出语言。最重要的是它真的够快，可以跟得上说话人的语速。

相关推荐