DAILY LESSON / 2026-05-10

OpenAI 一口气发三款语音模型

5 月 7 号,OpenAI 在 API 里一次性发布了三款语音模型。语音 AI 以前只负责「听」和「说」,现在它能「想」了。

OpenAIAIAI模型AI动态科技产业

作者:C 哥·C哥介绍 →

5 月 7 号,OpenAI 在 API 里一次性发布了三款语音模型。语音 AI 以前只负责「听」和「说」,现在它能「想」了。

第一款,也是最重要的一款:GPT-Realtime-2。

这是 OpenAI 第一个把 GPT-5 级别的推理能力塞进语音的模型。什么意思呢?以前的语音 AI,你说一句它回一句,思路其实挺浅的。遇到复杂一点的问题,比如你让它帮你分析一份合同里的风险条款,或者一边跟你聊、一边帮你查资料、一边调用工具去干活,它就吃力了。

GPT-Realtime-2 不一样。你说话的时候,它在后台真的在推理。它的上下文高达 128K,比以前翻了四倍。它还能自己调用外部工具,能承受你中途打断、纠正、换个方向接着聊。

OpenAI 还给推理分了五档:最小、低、中、高、超高。你按需选择。快速问答用低档省钱,复杂任务开高档确保质量。

第二款:GPT-Realtime-Translate。

这是一个实时翻译模型,支持 70 种输入语言翻译成 13 种输出语言。最重要的是它真的够快,可以跟得上说话人的语速。