不知道互联网的AI,却能预言未来?Talkie 揭秘
GPT 原作者 Alec Radford 开源了一个只用 1931 年前数据训练的 AI,不知道互联网、没见过 Python,却能写出正确代码。这是今年最值得关注的 AI 研究。
该文章来自"C哥聊科技"频道,欢迎关注以查看视频版本。
如果训练一个知识截止于 1911 年的 AI,它能不能像爱因斯坦在 1915 年那样,独立推导出广义相对论?相信很多人都会和我一样好奇这个问题。很多人说,AI 只会鹦鹉学舌,没有真正的创造力。但就在几天前,亚历克·拉德福德开源了一个知识截止于 1930 年 12 月 31 日的 AI 模型。这个人可不是一般人,他是 GPT-1、GPT-2、GPT-3 的第一作者,可以说是一个人把大语言模型从象牙塔搬进了现实。
而他发布的这个 AI 从来没听说过互联网,不知道二战是什么,没有互联网,没有 iPhone,也没见过一行 Python 代码。但它不仅能写出正确的 Python 程序,还能做「反向预测」,帮我们理解「哪些事情是 1930 年的人类根本想象不到的」。
这个模型叫 Talkie。团队用了 2600 亿个 token 的文本训练它,这些文本全部来自 1930 年之前的英语资料,包括书籍、报纸、科学期刊、专利文献和法律判例。那为什么选 1930 年?第一是因为版权。美国版权法规定这个时间点之前的作品已进入公共领域,可以合法大规模使用。第二是 1930 年恰好是旧世界和新世界的分水岭,在此之前,世界上还没有晶体管、核能和数字计算机。Decrypt 的记者实测跟 Talkie 对话,发现你问它希特勒,它的回答只停在 1930 年前的信息——那时候希特勒还没掌权,在它看来就是个三流政客。你问它投资建议,它的回答带着大萧条时代的谨慎,「现金为王」「别冒险」。
你可能会问,搞一个「古董 AI」有什么用?这才是这个项目最精彩的地方。
研究团队做了一件事,把近 5000 条《纽约时报》的「历史上的今天」事件发给 Talkie,让它计算每条事件的「惊奇度」,也就是这件事对模型来说有多意外。结果发现了一个极其有意思的曲线,1950 到 1960 年代的事件,对 Talkie 来说惊奇度最高。为什么是这十年?因为二战结束了,冷战开局了,核武器出现了,联合国成立了,世界秩序被彻底重写。这些都是 Talkie 训练数据里完全没有的东西。模型觉得最「意外」的,恰好是历史上最不可预测的剧变期。
你看,这不就是在用 AI 做「反向预测」吗?它不知道未来会发生什么,但它能告诉你,哪些事情是当时的思维框架根本想象不到的。
但跟牛的是它的编程能力。
你想想,Talkie 的训练数据里完全没有数字计算机的概念。比如 Python 这门语言,它是 1991 年才被发明出来的。但研究团队做了一个实验,给它看几个简单的 Python 函数例子,然后让它写一个新功能。它竟然写出来了。
最典型的一个案例是给它一个「加密」函数,让它写对应的「解密」函数。Talkie 正确完成。这说明它不是瞎猜的,它真的理解了「反函数」这个抽象概念。
一个从没学过编程的 AI,理解了正函数和反函数的对称关系。听着很离谱对吧?但仔细想想,在 1930 年以前的数学和密码学文献里,「逆运算」这个概念是存在的。Talkie 学了抽象推理能力,然后把这套能力迁移到了一个它从没见过的领域。
这就是这个项目最核心的价值,它证明了 AI 学到的不仅仅是记忆和模式匹配,它可以形成可迁移的概念结构。
当然,Talkie 还很初级,只有 130 亿参数,所以智商有限,用它可能并没有办法来证明 AI 能不能独立推导出相对论。但团队的野心是今年夏天做出一个 GPT-3 级别的古董模型,用超过 1 万亿 token 的史料训练。到那时候,它会展现出什么样的泛化能力?说实话,这个我也猜不到。
说真的,Talkie 让人们重新思考了一件事,我们一直在追求更大的模型、更新的数据、更强的性能。但也许,理解 AI 真正的能力边界,最有效的方法反过来,用最「旧」的数据,看它究竟能走多远。
我是 C 哥,点赞关注,咱们下期见。