杨立昆放话:五年内JEPA统治世界,大模型路线走错了
图灵奖得主杨立昆最近在播客里扔了个炸弹:「五年内,JEPA模型全面统治全球。」
图灵奖得主杨立昆最近在播客里扔了个炸弹:「五年内,JEPA模型全面统治全球。」
这话听着夸张,但说这话的人不是网红博主,是深度学习三巨头之一、亲手帮 Meta 建起FAIR实验室的人。他今年初离开Meta,拿了10亿美元种子轮,在巴黎创办了AMI Labs,就为了证明一件事:现在所有人在追的大语言模型,方向错了。
到底什么是JEPA?为什么他敢押上全部身家赌这条路?今天聊聊这个。
大模型为什么走不通
杨立昆的核心观点其实很简单:语言是离散的,现实世界是连续的。
你让一个大模型预测下一个词,它能做得很好。但你让它预测「把杯子推下桌子会怎样」,它就懵了。因为它没有物理世界的常识,不知道重力是什么,不知道杯子会碎。
他打了个比方:两岁小孩通过观察世界,已经知道球扔出去会掉下来。但GPT看了几万亿字的文本,还是不知道这件事。因为文本里没有物理规律,物理规律要从视觉和交互中学。
更关键的是,大模型没有「预测行为后果」的能力。它生成一个token的时候,根本不知道这个token会导致什么。杨立昆说,这就像一个法国国王说的:「我死后哪管洪水滔天。」你敢让这样的系统做决策吗?
JEPA到底是什么
JEPA的全称是联合嵌入预测架构(Joint Embedding Predictive Architecture)。名字听着复杂,思路其实很直觉。
传统AI生成模型是「逐像素预测」:给你一张图,它要把每个像素都猜出来。但现实世界太复杂了,风吹树叶的每一片轨迹都不可能精确预测。所以生成模型做出来的视频总是「糊的」,因为它在猜一个根本猜不准的东西。
JEPA的做法完全不同:它不猜像素,它猜「表征」。