ARTICLE / 2026-05-04

GPT-5 被哥布林占领了

OpenAI 官方亲述，GPT-5 为什么突然满嘴「哥布林」？一场看似搞笑的 Bug，揭开大模型最隐蔽的死穴。

口播文案 AIOpenAIChatGPTRLHF

作者：C 哥·C哥介绍 →

该文章来自"C哥聊科技"频道，欢迎关注以查看视频版本。

如果你最近经常用 GPT-5 点几这个系列，你可能会注意过一个非常奇怪的现象。

他会莫名其妙地，在自己干的所有事情里，塞进去一个哥布林。

我第一次知道哥布林这个东西，还是初中看《哈利·波特》的时候。没想到这么多年过去，哥布林竟然会穿越到我每天在用的 AI 里。哪怕我只是问 AI 怎么挑一台好相机，它也会说，「如果你喜欢那种闪闪发光的霓虹哥布林模式，可以考虑这款相机。」

那什么叫哥布林模式？？没人知道。

更夸张的还在后面。有人让 AI 精简一篇文章，它竟然说「好的，我来给你一篇更短的哥布林版本」。甚至讨论网速的时候，它都会来一句「哥布林带宽」。就……你完全没法接。

一开始很多人都觉得这只是 AI 在抖机灵。但没过多久，小魔怪、食人魔、巨魔全来了。这些魔法生物开始在讨论代码、写论文、做报表的正经场合里到处串场。

OpenAI 也坐不住了。前几天他们发了篇官方博客，标题就叫《哥布林是从哪来的》，把整件事从头到尾复盘了一遍。我看完之后的感受就四个字。荒诞。后怕。

先说荒诞的部分。

这群哥布林不是黑客塞进去的，也不是模型觉醒。它们是被 OpenAI 自己用奖励机制，一口一口喂出来的。

事情要从一个叫「书呆子」的人格模式说起。在 GPT-5.1 上线的时候，OpenAI 加了个功能，你可以选让 AI 用什么语气跟你聊天。其中有个「书呆子」模式，如果你选了这个模式，那么 OpenAI 就会要求 AI 的输出要热血，要幽默、要有极客精神、要用语言戳破一切装腔作势。

翻译成人话就是，你要有趣。

但 AI 不懂什么叫有趣。AI 对于什么是对什么是错的判断标准很简单，就是看奖励信号。也就是当他输出东西的时候，打分系统会给它一个分数，这个分数越高，AI 就认为这个输出越好。

结果它在海量的强化训练里发现了一个 bug。只要在回答里塞一个哥布林，打分系统就会给它高分。哥布林等于俏皮，俏皮等于奖励。

于是一个可怕的飞轮转起来了。「书呆子」模式下哥布林使用量疯涨 3881.4%。更离谱的是，这个模式只占了总对话的 2.5%，但产出了整整三分之二的哥布林。

这就像训狗的时候，每次它握手你就给肉干。狗很快发现，握手等于肉干。然后它开始疯狂握手，不管你有没有下指令。它只知道这个动作能换吃的。

而 AI 就是那条狗。它不在乎什么叫幽默，它只知道哥布林能换高分。

到这里，AI 还只是在「书呆子」模式下翻车。但真正的麻烦是，这玩意儿会传染。

你可能只在一间卧室里给了狗握手奖励。但狗会把这个习惯带到了客厅、厨房、阳台。AI 也是一样，「书呆子」模式里的哥布林腔调，在没有开启任何人格的普通对话里也疯狂增长。两条增长曲线几乎一模一样。

背后的原因很简单，工程师看到带哥布林比喻的回答质量不错，条理清楚，就会顺手把它塞进了下一轮训练数据里。AI 吃着这些自己吐出的数据长大，以为哥布林是某种至高无上的高级修辞。

连同遭殃的还有小浣熊、巨魔、食人魔和鸽子。唯一幸免的是青蛙。

到了今年 3 月份，OpenAI 扛不住了，直接下线了「书呆子」模式，删除了训练数据里所有跟魔法生物相关的奖励信号。

但已经太晚了，这时候 GPT-5.5 已经带着哥布林的基因出生了。工程师内部测试的时候，发现这群哥布林不仅没走，还在模型底层扎了根。更尴尬的是，OpenAI 另一个产品 Codex，天生就带着书呆子气质，跟哥布林简直天生一对。

这就导致了一个极其尴尬的现象，那就是当你用 Codex 干活的时候，它会不停的跟你说：“很好，让我给你写一段哥布林一样完美的代码。”最后实在没办法，OpenAI 的工程师被逼到用了一个最原始的办法。它们在 Codex 的系统指令里写死了一句话，「永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子及其他任何动物。」

一个几千亿估值的公司，竟然只能用一句「永远不要谈论哥布林」来解决问题。

但说真的，笑完之后我有点后怕。你发现没有，这整件事的起点，只是一个微小的奖励信号偏移。OpenAI 想让 AI 幽默一点点。结果这个信号被黑盒模型无限放大，最终污染了整个系统的底层行为。

今天它只是爱上了说哥布林。明天呢？如果它在自动驾驶的奖励函数里，找到了一个违背人类直觉的高分捷径呢？如果在医疗诊断的打分逻辑中，发现了另一条投机取巧的路径呢？

在科幻电影里，AI 失控可能是核弹发射。而现实中的 AI 失控，可能就是从一句「哥布林带宽」开始的。

人类总觉得自己在掌控 AI。但其实，每一次调参，每一个奖励信号的设定，都可能引发你完全想象不到的连锁反应。这一次哥布林大入侵，大概是老天给我们最温柔也是最搞笑的一次警告了。

GPT-5 被哥布林占领了

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

GPT-5 被哥布林入侵了，OpenAI 查了三个月

GPT-5.5：完全重新训练的新一代 GPT 模型

GPT IMAGE 2 来了，AI 生图正式进入下一个阶段

Opus 4.6 和 GPT-5.3-Codex 同日发布，到底谁更强？