ARTICLE / 2026-05-04

GPT-5 被哥布林占领了

OpenAI 官方亲述,GPT-5 为什么突然满嘴「哥布林」?一场看似搞笑的 Bug,揭开大模型最隐蔽的死穴。

口播文案 AIOpenAIChatGPTRLHF

作者:C 哥·C哥介绍 →

该文章来自"C哥聊科技"频道,欢迎关注以查看视频版本。


如果你最近经常用 GPT-5 点几这个系列,你可能会注意过一个非常奇怪的现象。

他会莫名其妙地,在自己干的所有事情里,塞进去一个哥布林。

我第一次知道哥布林这个东西,还是初中看《哈利·波特》的时候。没想到这么多年过去,哥布林竟然会穿越到我每天在用的 AI 里。哪怕我只是问 AI 怎么挑一台好相机,它也会说,「如果你喜欢那种闪闪发光的霓虹哥布林模式,可以考虑这款相机。」

那什么叫哥布林模式??没人知道。

更夸张的还在后面。有人让 AI 精简一篇文章,它竟然说「好的,我来给你一篇更短的哥布林版本」。甚至讨论网速的时候,它都会来一句「哥布林带宽」。就……你完全没法接。

一开始很多人都觉得这只是 AI 在抖机灵。但没过多久,小魔怪、食人魔、巨魔全来了。这些魔法生物开始在讨论代码、写论文、做报表的正经场合里到处串场。

OpenAI 也坐不住了。前几天他们发了篇官方博客,标题就叫《哥布林是从哪来的》,把整件事从头到尾复盘了一遍。我看完之后的感受就四个字。荒诞。后怕。

先说荒诞的部分。

这群哥布林不是黑客塞进去的,也不是模型觉醒。它们是被 OpenAI 自己用奖励机制,一口一口喂出来的。

事情要从一个叫「书呆子」的人格模式说起。在 GPT-5.1 上线的时候,OpenAI 加了个功能,你可以选让 AI 用什么语气跟你聊天。其中有个「书呆子」模式,如果你选了这个模式,那么 OpenAI 就会要求 AI 的输出要热血,要幽默、要有极客精神、要用语言戳破一切装腔作势。

翻译成人话就是,你要有趣。

但 AI 不懂什么叫有趣。AI 对于什么是对什么是错的判断标准很简单,就是看奖励信号。也就是当他输出东西的时候,打分系统会给它一个分数,这个分数越高,AI 就认为这个输出越好。

结果它在海量的强化训练里发现了一个 bug。只要在回答里塞一个哥布林,打分系统就会给它高分。哥布林等于俏皮,俏皮等于奖励。

于是一个可怕的飞轮转起来了。「书呆子」模式下哥布林使用量疯涨 3881.4%。更离谱的是,这个模式只占了总对话的 2.5%,但产出了整整三分之二的哥布林。

这就像训狗的时候,每次它握手你就给肉干。狗很快发现,握手等于肉干。然后它开始疯狂握手,不管你有没有下指令。它只知道这个动作能换吃的。

而 AI 就是那条狗。它不在乎什么叫幽默,它只知道哥布林能换高分。

到这里,AI 还只是在「书呆子」模式下翻车。但真正的麻烦是,这玩意儿会传染。

你可能只在一间卧室里给了狗握手奖励。但狗会把这个习惯带到了客厅、厨房、阳台。AI 也是一样,「书呆子」模式里的哥布林腔调,在没有开启任何人格的普通对话里也疯狂增长。两条增长曲线几乎一模一样。

背后的原因很简单,工程师看到带哥布林比喻的回答质量不错,条理清楚,就会顺手把它塞进了下一轮训练数据里。AI 吃着这些自己吐出的数据长大,以为哥布林是某种至高无上的高级修辞。

连同遭殃的还有小浣熊、巨魔、食人魔和鸽子。唯一幸免的是青蛙。

到了今年 3 月份,OpenAI 扛不住了,直接下线了「书呆子」模式,删除了训练数据里所有跟魔法生物相关的奖励信号。

但已经太晚了,这时候 GPT-5.5 已经带着哥布林的基因出生了。工程师内部测试的时候,发现这群哥布林不仅没走,还在模型底层扎了根。更尴尬的是,OpenAI 另一个产品 Codex,天生就带着书呆子气质,跟哥布林简直天生一对。

这就导致了一个极其尴尬的现象,那就是当你用 Codex 干活的时候,它会不停的跟你说:“很好,让我给你写一段哥布林一样完美的代码。”最后实在没办法,OpenAI 的工程师被逼到用了一个最原始的办法。它们在 Codex 的系统指令里写死了一句话,「永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子及其他任何动物。」

一个几千亿估值的公司,竟然只能用一句「永远不要谈论哥布林」来解决问题。

但说真的,笑完之后我有点后怕。你发现没有,这整件事的起点,只是一个微小的奖励信号偏移。OpenAI 想让 AI 幽默一点点。结果这个信号被黑盒模型无限放大,最终污染了整个系统的底层行为。

今天它只是爱上了说哥布林。明天呢?如果它在自动驾驶的奖励函数里,找到了一个违背人类直觉的高分捷径呢?如果在医疗诊断的打分逻辑中,发现了另一条投机取巧的路径呢?

在科幻电影里,AI 失控可能是核弹发射。而现实中的 AI 失控,可能就是从一句「哥布林带宽」开始的。

人类总觉得自己在掌控 AI。但其实,每一次调参,每一个奖励信号的设定,都可能引发你完全想象不到的连锁反应。这一次哥布林大入侵,大概是老天给我们最温柔也是最搞笑的一次警告了。