大语言模型本质{上不安全,且无法被修复} | 杨立、昆最新对话实录
(来源:图灵人工智能)
近日,AMI Labs创始人、前Meta首席AI科学家杨立昆接受海外播客Unsupervised Learning的深度访谈,本次对话围绕为何大语言模型无法通往真正的人类级智能展开,探讨了世界模型与JEPA架构的技术逻辑、AMI Labs的成立背景与产品愿景、他在Meta/FAIR十余年的亲历与反思、开放AI平台Tapestry的设计理念,以及整个行业的技术演进判断。
关于大语言模型的定位与边界,杨立昆表示,大语言模型本身并没有任何问题,在它们擅长的领域里做得非常出色,他本人也在使用。但他明确指出,大语言模型绝对不是通往人类级别、类人智能甚至类动物智能的正确技术路径。他认为,目前大多数AI技术本质上都局限于语言符号的操作,而真实世界是高维的、连续的、充满噪声且极其混乱的,训练AI去理解真实世界物理规律的难度,远远超过处理语言符号。他的核心判断是,这条路到不了那个终点,但这并不意味着大语言模型毫无用处。
关于大语言模型在数学与代码领域的能力边界,杨立昆指出,大语言模型之所以能在数学和代码领域取得巨大成功,是因为在这些场景下语言本身就是推理的载体。证明定理是它们的强项,但它们并不擅长提出全新的概念和定义,它们更像是一个被给予明确问题后负责解出答案的问题解决者。他认为,大语言模型是优秀的程序员,但不是软件架构师,也不是计算机科学家。它们改变了人类的工作模式,使人类在抽象层次结构中向上走了一级,核心职责变成了决定要建造什么,具体的建造过程则可以借助大语言模型完成。
关于大语言模型实现零样本AI Agent的可能性,杨立昆表示,要扭转他对大语言模型局限性的判断,唯一的标准是实现零样本的AI Agent,即给一个从未被训练过、没有现成脚本、面对全新问题的AI Agent,看它能否顺利完成任务。他指出,除非AI具备预测自身行动后果并以此进行规划的能力,否则这一目标绝对无法实现。单靠大语言模型是做不到的,因为它们的推理本质上只是在预测下一个Token,而不是基于全局搜索的规划。
关于世界模型的本质定义,杨立昆指出,世界模型在最通用的层面上,是能够让AI Agent预测其自身行动后果的机制。他认为,如果一个AI连预测自身行动后果的能力都没有,就根本无从构建真正意义上的AI Agent。具备世界模型的AI可以通过规划、推理、搜索和优化的过程,设计出一系列动作去完成任务、达成目标,而这与大语言模型自回归式逐Token预测的方式在底层架构上是完全不同的。
关于生成像素路线的根本性失败,杨立昆表示,所有在图像和视频领域成功学习到优秀底层表示的架构,无一例外全都是非生成式架构,而所有走生成式路线的尝试,本质上最后都失败了。他指出,无论是变分自编码器(VAE)、稀疏自编码器还是掩码自编码器(MAE),生成像素的路线在面对超大规模神经网络时,要么退化为学习恒等函数,要么消耗极其恐怖的算力却无法跑出令人满意的结果。他的判断是,预测像素根本就是一条注定失败的死胡同。
关于JEPA架构的核心逻辑,杨立昆指出,联合嵌入预测架构(JEPA)的核心逻辑是,将两个不同版本的输入同时送入编码器,通过预测器直接在特征空间中用一个编码器的表示去预测另一个编码器的表示,而不是在像素空间中进行生成。他表示,DINO系列、I-JEPA、V-JEPA等一系列成果已经证明,这套技术在表示图像和视频时效果要远远好过生成像素。他认为,这一认知不仅是他个人的顿悟,也让整个领域的很多人意识到,非生成式的联合嵌入路线才是正确方向。
关于视觉-语言-动作模型(VLA)的失败判断,杨立昆明确指出,VLA路线在工业实际落地中完全无法实用,现在行业内已经基本公认这条路线走不通。他认为,VLA本质上是试图借用大语言模型的技术来训练机器人输出动作指令,其致命软肋在于不够可靠,且对训练数据的需求量大得惊人。
关于模仿学习路线的数据效率困境,杨立昆表示,当前头部机器人公司的演示背后,是用极其海量的人工操作数据强行堆出来的,这种方法成本极高且非常脆弱,机器人想要解决任何一个全新的微小任务都必须重新收集海量数据。他以一个17岁年轻人只需二十小时就能学会开车为例,指出这恰恰证明了单靠模仿学习甚至无法解决自动驾驶这一单一任务,L5级自动驾驶至今无法交付的根源正在于此。他认为,基于世界模型的AI所展现出的泛化能力,其任务光谱要宽广得多,对训练数据量的消耗要低好几个数量级。
关于AMI Labs的成立背景与定位,杨立昆表示,AMI Labs的核心使命是打造适用于真实世界的AI。他指出,Meta内部环境在2024年已经发生了根本性转变,整个战略重心被强行扭转到追赶大语言模型领域的行业领先者上,大量探索性研究被边缘化,FAIR的管理模式也已违背他认为保护创新和留住优秀人才所必需的环境。他认为,JEPA和世界模型的绝大多数应用场景,是Meta这类社交巨头并不感兴趣的工业领域,而当时团队已经开始跑出非常漂亮的成果,完成从纯研究到技术工程化落地的跨越成了必然的选择。
杨立昆表示,他预计在12到18个月内,团队将开发出一套在极广泛模态上训练分层世界模型的通用方法论,并将其应用于机器人、工业过程控制和医疗健康等多个场景。他引用Linus Torvalds当年对Linux"彻底主导世界"的预言,表示五年内JEPA架构的世界模型将成为下一代AI的基础设施。他同时预判,最迟到2027年初,必须改变范式这一判断将对所有人来说变得彻底清晰。
关于大语言模型的安全性根本缺陷,杨立昆明确指出,大语言模型本质上就是不安全的,且在当前范式下根本无法被根治。他认为,LLM无法被做到绝对可靠,因为根本无法阻止它们产生幻觉,更无法保证具备AI Agent特性的LLM不会采取连自己都无法预料后果的行动。他指出,LLM完成任务的方式完全受限于训练数据,并没有任何底层的硬性约束能强迫它们准确预测任务能否被妥善执行。他提出的替代方案是目标驱动型AI,即在世界模型的指导下,通过优化算法寻找能完成任务并使代价最小化的行动序列,同时叠加多个底层安全约束,从架构设计源头上确保系统无法违反这些约束。
关于大语言模型在医疗领域的根本局限,杨立昆指出,大语言模型真正擅长的是反刍书本上现存的陈述性知识,而医学远不止于此。他认为,为特定患者设计超出既定模板的治疗方案,或者推演如何引导干细胞分化为胰岛β细胞这类需要对生理机能动态变化建立精确认知模型的任务,完全超出了大语言模型的能力范畴,必须依赖能够理解真实世界物理规律的世界模型才能实现。
关于图灵奖三巨头的观点分歧,杨立昆表示,他与Geoffrey Hinton、Yoshua Bengio的观点分歧始于2023年,起因是GPT-4的出现。他指出,他本人并没有改变主意,是Hinton和Bengio变了。他认为,Hinton经历GPT-4后的醍醐灌顶,本质上是在借题发挥,意味着他终于可以宣告胜利、功成身退,其推算逻辑——将大脑皮层等效神经元数量与GPT-4参数量做类比——并不成立。他表示,Hinton现在对潜在危险的发声已经比一两年前少得多,Bengio的情况也类似,他们两人真正担心的,是社会和政治体系是否有能力确保AI红利实现最大化,而不是AI接管世界的末日预言。
关于AI安全恐慌叙事的批评,杨立昆表示,他完全不认同通过制造恐慌来迫使政府对AI进行严厉监管的做法。他指出,在这种恐慌叙事的背后,存在着现实的商业利益考量,让公众和政府相信AI非常危险,对某些机构而言具有明确的商业价值。
关于Tapestry开放平台与AI技术主权,杨立昆指出,随着AI助手逐渐成为人们获取信息的核心入口,如果全球大多数国家的公民只能使用由美国硅谷或中国公司研发的AI助手,其语言、文化、价值体系都将受到特定观念的单一引导。他认为,解决方案是建立一个开放、免费的基础模型平台,允许任何人针对特定语言、文化、价值体系进行微调。他表示,Tapestry采用类联邦学习机制,贡献者无需共享原始数据,只需贡献参数向量,通过全局共识向量的不断收敛,最终形成一个凝聚全球知识与文化的开源共识模型。
关于Llama系列演进的内幕,杨立昆指出,他对Llama的技术贡献为零,他唯一的贡献是极力主张开源Llama 2,并在内部长达数月、每周两小时的高层例会辩论中联合博兹(Andrew Bosworth)共同游说,指出安全风险被严重夸大,开源带来的产业激活机遇远大于风险,事实最终证明这一判断是正确的。他表示,从Llama 3开始,GenAI团队因短期绩效重压策略变得极度保守,Mistral的诞生正是源于Llama核心团队骨干在研发Llama 2期间意识到可以独立创业。他认为,Scale的收购案是Meta内部全面转向大语言模型路线的催化剂之一。
01
大语言模型的边界:能做什么,为何到不了人类智能
你当年在所有人都不看好神经网络的时候,力排众议重注这个方向,已经成为行业传奇。你最近似乎在很多方面又下了一场相似的赌注,对抗当前几乎所有人都在顶礼膜拜的大语言模型和主流生成式架构。大语言模型的能与不能究竟是什么?你所看到的底层局限性在哪里?为什么你选择追求完全不同的架构?
Yann LeCun:首先我想强调的是,大语言模型本身并没有任何问题。事实上,大语言模型是目前我们所有人都在使用的许多非常实用的AI产品的基础,其中也包括我。在它们擅长的领域里,它们做得非常出色。但我的核心观点是,它们绝对不是通往人类级别、类人智能、甚至是类动物智能的正确技术路径。我并不是说大语言模型毫无用处,我只是说这条路到不了那个终点。
目前大家耳熟能详的大多数AI技术,本质上都局限于语言符号的操作,不管是人类语言、计算机代码、数学公式,还是那些几乎不能被称作人类语言的法律条文。语言在某种程度上非常特殊,它完美契合了最近大获成功的架构类型,也就是以GPT为代表的大语言模型。
但是真实世界呢?理解物理世界又谈何容易?事实证明,现实要比语言复杂得多,因为它是高维的、连续的、充满噪声且极其混乱的。训练一个AI去理解真实世界的物理规律,难度要大得多。这正是我们想要攻克的方向,也是我几乎贯穿整个职业生涯都在探索的目标。
你当年也亲手帮着构建了最早的一批核心开源模型
Yann LeCun:没错。我对Llama唯一的贡献是极力主张开源Llama 2。当时公司内部对于是否开源发生过一场激烈的辩论,法务部门和政策部门坚决反对,而公关部门则表示赞成。所有的工程团队,包括博兹(Andrew Bosworth,Meta CTO)也都赞成开源。在长达几个月的时间里,从马克·扎克伯格往下的大约40名高层每周都要开两个小时的例会进行讨论。在这场内部大辩论中,我联合博兹一起极力游说,我们指出安全风险基本上被严重夸大了,相反,通过开源Llama 2来激活整个AI产业、建立行业生态的机遇极其巨大。后来的事实证明,一切正如我们所预料的那样。
但我必须重申,我对Llama没有任何正向或负向的技术干预,从没有做过任何事情去阻止或放慢它的进程。FAIR内部有很多人在研究大语言模型,这很好,我从未表示反对。我只是表达过,这不是通往人类智能的终极路径,但它确实非常实用。就像语音识别、机器翻译一样,它们都很有价值。
(关于LLM的能力边界)
我们可以思考一下数学和代码这两个领域。在这两个领域中,语言本身就是推理的载体。当你用严谨的方式在纸上推导数学时,而不是靠直觉,你本质上是在操纵语言。大语言模型非常擅长这个,证明定理之类的事情正是它们的强项。但它们并不擅长提出全新的概念和定义。它们更像是一个被给予明确问题、然后把它解出来的问题解决者,幕后大部分数学工作其实是一种创造性的行为,而这恰恰是模型所欠缺的。
代码也是同理。大语言模型是优秀的程序员,但它们不是软件架构师,也不是计算机科学家。它们可以替我们编写代码,但还远未达到可以完全取代人类的阶段。这改变了人类的工作模式,人类在抽象层次结构中向上走了一级,我们的核心职责变成了决定要去建造什么,至于具体的建造过程,完全可以借助大语言模型来完成。这里最核心的一点是,大语言模型之所以能在这些领域取得巨大成功,是因为在这些场景下,语言本身就是推理的载体,而在其他非语言推理的领域则不然。
(关于大语言模型能否实现零样本AI Agent)
大语言模型需要做到什么,才能彻底扭转我的这一看法?答案是实现零样本的AI Agent。给一个AI Agent一个全新的问题,它从未被训练过、没有现成脚本、完全陌生,看它能否顺利完成任务。除非它具备预测自身行动后果并以此进行规划的能力,否则绝对无法做到这一点。单靠大语言模型是无法实现的,你可能需要一个在搜索和规划能力上得到显著增强的大语言模型。
目前擅长数学和代码的大语言模型,实际上正是通过这种方式运作的。因为它们会在Token空间中搜索能够达成特定任务的Token序列,并且它们可以运行代码或验证证明是否正确。也就是说,你有一种手段去检验输出结果的正确性。但这并不是一种高效的规划方式,而且它仅仅适用于可以在Token空间中进行此类搜索的特定领域。而我谈到JEPA时,强调的是我们不应该在Token空间中进行这种尝试,而应该在抽象的思想空间中进行。
大语言模型的潜力并不会耗尽,只是在部署到日益增多的实际用例时,能力会受到限制,因为必须为每一个具体的用例收集海量的训练数据。如果这些AI无法预测自身行为的后果,就无法彻底消除幻觉或危险行为,从而无法让它们变得完全可靠。而要做到这一点,它们就必须拥有显式的世界模型。
02
世界模型与JEPA架构:为什么"生成像素"是一条死路
你的AMI公司,核心专注于世界模型并扩展联合嵌入预测架构(JEPA),这显然是你在Meta公司期间亲自开创的。能谈谈这个架构的起源,以及你在多大程度上从人类大脑的运作方式中汲取了灵感?
目前市场上存在两个主要的技术阵营,比如谷歌团队推出的Genie以及相关的视频模型,还有在机器人领域专注于构建视觉-语言-动作模型(VLA)的团队,以及李飞飞教授主导的3D空间模型。当你审视那些让你对JEPA模型深信不疑的底层证据,并将其与生成式路线进行对比时,你认为目前我们在评估这些架构和方法时处于什么阶段?
Yann LeCun:让我先从"世界模型"这个概念本身说起。世界模型现在已经迅速沦为了一个行业流行语,不仅在学术界,在工业界某种程度上也是如此。目前市场上主要存在两个技术阵营。
我首先不想去谈视觉-语言-动作模型(VLA),因为现在行业内已经看得很清楚了,这条路线根本走不通,在实际应用中完全无法落地。所谓的视觉-语言-动作模型,本质上是试图借用大语言模型的技术,来训练一个AI输出控制机器人的动作指令,给它视觉和语言作为输入,然后让它直接输出动作,可能还有语言输出。现在这条路线基本上被公认为失败了,因为AI不够可靠,而且对训练数据的需求量大得惊人。
那么什么是真正意义上的世界模型?在最通用的层面上,世界模型是能够让AI Agent预测其自身行动后果的机制。站在我的角度来看,我完全无法想象,如果一个AI连预测自身行动后果的能力都没有,凭什么去构建一个AI Agent。这太关键了。我们在真实世界中行动时,随时随地都在运用这种预测能力。如果我们不考虑后果就盲目行动,那就要承担极大的风险,通常在别人眼里这种行为非常愚蠢。放眼当下的国际政治舞台,因无法预见行动后果而导致重大风险的例子比比皆是。
所以这就是世界模型的本质,它就是预测自身行动后果的能力。如果具备了这种能力,就可以通过规划、推理、搜索和优化的过程,设计出一系列动作去完成某项任务、达成某个目标。这绝对不是像大语言模型那样自回归地、一个接一个地预测下一个动作,而是通过全局搜索,找到一条能够完美达成设定目标的行动序列。
这种底层蓝图跟目前大语言模型是完全不同的。大语言模型既没有预测自身行动后果的能力,也完全不具备任何规划能力,因为它们的推理本质上只是在预测下一个Token,而不是基于全局的搜索。这就直接涉及到了我认为智能行为不可或缺的两个核心特征,也就是预测行动后果的能力,以及通过搜索和优化进行规划,从而找出产生正确结果的最优行动序列的能力。
紧接着是第三个特征,也就是究竟该如何去预测行动的后果。如果我面前放着一个打开的、没盖盖子的水瓶,如果推它的底部,它会在桌面上滑动,如果推它的顶部附近,它大概率会直接翻倒。但我们谁也无法精确预测这个水瓶具体会往哪个方向倒,无法精确预测它会滑行多少距离,水会怎么溅出来,甚至桌面是不是倾斜的、水会往哪个方向流。我们在物理世界中行动时,绝不可能在像素级别去做出这种预测。我们大脑中的世界心理模型在做预测时,是在一个高度抽象的表示层面上进行的。
当你在研究这种架构的时候,它的大部分灵感是不是直接来源于人类的大脑?因为你刚才阐述的方式确实跟我们人类做决定的方式一模一样。
Yann LeCun:至少深受认知科学的启发。不过,要将这些认知理论完美转化为神经架构,中间还存在着巨大的鸿沟。认知科学确实为我们提供了极大的动力。心理学家所谓的系统2,指的就是这种深思熟虑、充满反思性的理性行为,你会提前在脑海中模拟并预见行动的后果,并据此做出严密的规划。这与系统1截然相反,在系统1下,你纯粹是在进行反应性和本能性的行动。这不仅仅是一种理论启发,更有海量的经验证据在告诉我们,绝对不要去生成像素。
长期以来,我一直对通过预测来学习世界模型这一技术难题充满兴趣,大约在五年前,我脑子里突然闪现了一个顿悟,意识到所有在图像和视频领域成功学习到优秀底层表示的架构,无一例外全都是非生成式架构,而所有走生成式路线的尝试,本质上最后都失败了。
比如变分自编码器(VAE),或者更广泛意义上的自编码器。直观上来看,这似乎是学习输入端抽象表示的一种极其自然的方式,你把一张图像输入到神经网络里,然后训练它在输出端原封不动地重构这张图像。然而事实是,面对一个超大规模的神经网络,如果你只是用这种方式,神经网络根本学不到任何有价值的特征,它只会退化并学会一个最简单的恒等函数。如果用变分自编码器去学习图像的特征表示,虽然能跑出一点结果,但质量其实非常糟糕。稀疏自编码器也面临同样的困境。
后来行业里演化出了另一套技术,属于去噪自编码器的衍生流派,掩码自编码器(MAE)就是其中的典型代表,在自然语言处理领域大名鼎鼎的BERT本质上也是这个逻辑。它的做法是,拿到一张图像后,先人为地将其损坏或遮挡一部分,然后训练这个庞大的神经网络去恢复和补全原始图像。当时在FAIR实验室内部有一个叫作MAE的掩码自编码器大项目,但最终的结果让人非常失望,消耗了极其恐怖的算力,却完全没有跑出一个真正令人满意、惊艳的结果。
与此同时,当年在MAE团队里的一批核心成员,以及我们在巴黎和纽约的另外几拨同事,开始另辟蹊径,尝试使用非生成式架构,也就是联合嵌入架构(Joint Embedding Architecture)。它的核心逻辑是,拿到一张图像后以某种方式进行损坏,然后将两张图像同时送入编码器,尝试直接从损坏图像的特征表示中,去预测原始图像的特征表示,这就是联合嵌入预测架构(JEPA,Joint Embedding Predictive Architecture)。
联合嵌入预测架构的意思是,包含一个负责做出观察的编码器,以及另一个负责做出不同观察的编码器,通过一个预测器,尝试直接在特征空间中利用第二个编码器的结果去预测第一个编码器的表示。事实证明,这套技术在表示图像和视频时,效果要远远好过生成像素。比如DINO、DINOv1、v2、v3这一系列项目,这个技术栈目前依然是巴黎FAIR实验室团队的核心研究方向。还有像I-JEPA和V-JEPA,以及在这之前诞生的一系列技术如SimCLR和MoCo,这些突破大部分都打着Meta公司的烙印,当然其他顶尖团队也有类似的探索。这被证明是一种比预测像素高级得多的图像表示学习方式。那一刻,不仅是我,很多人的脑子都突然开窍了,这才是正确的道路,而预测像素根本就是一条注定失败的死胡同。
(关于机器人演示与生成式路线的质疑)
很多头部的模型大厂最近发布的机器人演示看起来越来越惊艳了,在那些演示中,即使机器人面对一个从未见过的陌生房间,或者从未训练过的特定任务,它们似乎也展现出了一些类似于规划和推理的能力,并且能够非常顺畅地执行任务。对于看到这些演示、并因此觉得生成式方法似乎正在引领技术走向实质性突破的听众,你会怎么回应?
Yann LeCun:突破确实是存在的,有些演示也确实足够震撼。但人们往往忽视了,这些AI背后是用极其海量的数据强行堆出来的。这些数据要么是通过昂贵的远程人工操作收集的,要么是让人类手里拿着长得像机械夹具的设备亲自演示、然后追踪并记录动作数据,或者更进一步,直接追踪人类手部和手指的运动轨迹,再将这些高维数据转化为机器人的控制命令。这些技术路线本质上大都依赖于模仿学习,然后在此基础上,主要在仿真环境里用一点点强化学习进行微调。
这种方法的致命软肋在于,必须依赖庞大到近乎奢侈的数据量来让AI进行模仿,这不仅成本极其高昂,而且表现得非常脆弱。机器人想要解决任何一个全新的微小任务,都必须重新去帮它收集海量的数据。相反,如果AI有一个世界模型,允许它自主预见和预测自身行动的结果,它就可以直接在脑海中通过规划动作去解决一个从未见过的全新任务,而根本不需要提前针对这个任务进行专门的训练。基于世界模型的AI所展现出的泛化能力,其带宽和任务光谱要宽广得多,而且与那些纯靠模仿学习和微调堆出来的AI相比,它对训练数据量的消耗要低好几个数量级。
(关于用视频模型生成合成数据作为仿真路径的判断)
现在行业中存在一种设想,即利用视频模型生成海量的合成数据来进行仿真模拟,即便不够完美,这些视频模型从物理规律的角度来看也足够有效,能够推动机器人技术和底层物理世界的研究。英伟达一直在这个方向发力,谷歌似乎也走上了这条路,你怎么看?
Yann LeCun:我还是那个问题,为什么一个17岁的年轻人20个小时就能学会开车?不需要数百万小时的演示,也不需要合成数据,这些都不需要。我希望AI的学习速度能达到这种水平。如果我们攻克了这个难关,就根本不需要生成数据了。我们可能仍需要在仿真环境中训练AI,但绝对不需要像现有AI那样耗费如此多的时间和尝试次数。这本质上是一个数据效率问题。
为什么一个17岁的年轻人只需十几二十个小时就能学会开车,而人类拥有驾驶汽车的数百万小时数据,却依然无法交付L5级自动驾驶汽车。显而易见,单靠模仿学习甚至无法解决自动驾驶这单一任务。
任务之间确实存在协同效应。无论使用何种技术,训练解决的任务越多,AI就能用越少的数据掌握更多新任务。但我们对世界模型寄予的厚望是,AI能够实现零样本学习。人类完全具备这种能力,许多动物也是如此。这就是真正的愿景,只需极少甚至不需要训练数据,再结合少许强化学习风格的微调,就能解决更多问题。
(关于Scaling Law路线的商业惯性)
如果站在OpenAI的立场上,既然知道现有的道路可以通过Scaling Law持续变得越来越好,那么从商业逻辑上讲,确实没有太大的动力去探索高数据效率的其他路径,这种纠结你怎么看?
Yann LeCun:确实如此。其他公司同样没有动力去另辟蹊径,因为大家都在狂热追逐同一个目标。谁也输不起落后的代价,所以大家都在同一个方向死磕。这其实带有一种同质化竞争的跟风效应,尤其是在美国硅谷,所有人都在同一个赛道死磕。正因如此,我特意将AMI Labs的总部设在巴黎,美国办公室设在纽约,而不是硅谷。
这是一场豪赌,但我们非常有信心,因为我们已经取得了一些实质性的成果。
03
AMI 的核心定位与语言模型的安全性根本缺陷
你最近围绕JEPA这个核心技术理念创办了AMI Labs,能介绍一下AMI到底是什么,它的全称和核心定位是什么?
在过去五六年里,你们在大模型和真实世界理解方向上大幅加快了步伐,并在过去两年取得了实质性的突破,是什么让你意识到Meta公司内部的环境已经不再适合继续推进这个项目,从而选择离开并创办AMI Labs?
在你看来,AMI技术最让你兴奋的初始应用场景是什么?这项技术未来会走向何方?
你认为未来几年内JEPA模型会发展到什么阶段?有哪些关键的里程碑,或者你如何看待它的演进路径?
大语言模型本质上不安全这一判断,背后的技术逻辑是什么?当前形式的大语言模型究竟存在怎样的架构性缺陷,使得安全问题无法被根治?
Yann LeCun:AMI的全称是高级机器智能(Advanced Machine Intelligence),如果用一句话来概括它的口号,那就是打造适用于真实世界的AI。目前大家耳熟能详的大多数AI技术,本质上都局限于语言符号的操作,不管是人类语言、计算机代码、数学公式,还是那些几乎不能被称作人类语言的法律条文。真实世界要比语言复杂得多,因为它是高维的、连续的、充满噪声且极其混乱的。训练一个AI去理解真实世界的物理规律,难度要大得多。这正是我们想要攻克的方向,也是我几乎贯穿整个职业生涯都在探索的目标。
在过去五六年里,我们在大模型和真实世界理解方向上大幅加快了步伐,并在过去两年取得了实质性的突破。因此,围绕它创办一家初创公司并全力去推进,就成了一件顺理成章的事。到了去年年底,我很清楚地意识到,Meta公司内部的环境已经不再适合继续推进这个项目了,这也是为什么我选择离开并创办了AMI Labs。
后来公司将几乎所有的精力都重新聚焦到了大语言模型上。尽管有马克和安德鲁·博斯沃思的支持,我们叫他博兹,但底下的所有管理层完全看不到意义,这让项目在公司内部层面变得有些艰难。正如我所说,JEPA和世界模型的应用,比如在可穿戴AI Agent等设备上大有可为,但Meta却选择直接解散了由吉滕德拉·马利克(Jitendra Malik)领导的整个机器人AI团队,他现在去了亚马逊。这清晰地表明,这里的环境已经变了。大部分潜在应用都在Meta毫无兴趣的工业领域,而且FAIR当时还面临着越来越大的内部压力,被迫去用大模型技术支援Llama的迭代。至此,情况已经非常明朗了。
这种全力硬推大语言模型的做法在面对资本市场和投资者时确实很有效。而当我必须为AMI筹集资金时,投资者和许多风投机构的员工也已经读过我的论文、听过我的演讲,他们意识到了大语言模型的局限性,并对构建下一代AI的想法产生了极大的兴趣。
(关于AMI的应用场景)
走向真实世界的AI。现在的家用机器人停留在哪里?L5级自动驾驶汽车又在哪里?我什么时候能用上家用机器人?
Yann LeCun:这还要等上好几年。尽管现在有无数家公司在制造机器人,但实际上没有一家真正知道如何让它们足够聪明、真正派上用场,更不用说放心让它们在家里照顾婴儿了,目前还完全做不到。即便是在相对单一的制造任务中,除了针对少数任务进行模仿学习之外,也没人知道如何稳定可靠地实现这一目标。如何让这些机器真正发挥价值,这是一个相对长期的目标。
从短期来看,工业领域存在着海量的应用需求。你需要一个智能AI,能够预测如果改变这个复杂系统中的某个控制变量会发生什么。无论这个系统是喷气发动机、化工厂、发电厂、某条生产线,还是一个病人或人类细胞。这些系统极其复杂,无法用几个简单的方程来建立数学模型,传统的建模方法根本行不通。你必须训练一个神经网络,利用深度学习通过数据来对该系统的动态特性进行建模。最终,你会得到该过程或该系统的现象学模型。如果它能够基于动作条件化,那么你基本上就拥有了该系统的世界模型,从而可以针对你的任何目标进行最优化控制。我认为这在工业领域的应用前景是超乎想象的。
两年时间太短了。五年吧,五年内基本上可以彻底主导世界。
也就是说,五年内有望实现主导世界。
Yann LeCun:这当然是个玩笑,不过这是引用了Linus Torvalds的名言。当年人们问他对Linux的目标是什么,他回答说彻底主导世界。他其实真的做到了,现在世界上几乎每台计算机都在运行Linux。所以虽然是个玩笑,但它确实代表了未来智能AI的蓝图。未来大语言模型仍会有一席之地,但基本上只是作为语言界面。而我们正在设计的,是具备思考能力的AI。它们最初可能不会说也不会听,但它们会进行思考,随后可以在这之上叠加听说的能力。
我认为在一年左右的时间里,我们将开发出一套通用方法论,用于在极广泛的模态上训练分层世界模型。我们知道目前利用某些技术在视频上能取得不错的效果,虽然我们对这些技术并不完全满意,因为它们存在一些缺陷,但我们已经在一套我们认为真正符合预期的核心方法论上完成了小规模验证。接下来的任务是扩大其规模,使其达到其他技术在视频等任务上的性能水平,同时我们还要在从工业合作伙伴那里获得的其他类型的数据集上进行验证。我们将展示我们有能力训练世界模型,可能是支持规划的动作条件化世界模型,并将其应用于多种不同的场景。其中一部分是机器人,另一部分是各种类型的工业过程控制,或许还包括医疗健康领域,因为我们在该领域也有合作伙伴。这些应该会在12到18个月内实现。随后,我们将与合作伙伴共同将该方法论和模型推向实际应用,其中一些伙伴已经是我们的投资人,从而积累构建某种通用世界模型的经验。
你之前也有过类似的经历,在神经网络上做出了极具逆向思维的豪赌,而历史证明你是完全正确的。当你审视这次的赌注时,如果与当前AI各个前沿领域的大多数人交流,他们可能会觉得这在今天依然属于非主流,你认为需要多长时间,这个选择的正确性才会变得显而易见?
Yann LeCun:我觉得可能比预期的要快。因为你已经能看到世界模型正在成为一个热门词汇,至少在研究层面上是这样,并且它开始向工业界渗透。很多人开始意识到VLA模型表现并不理想,大语言模型在处理真实世界的数据时也无能为力。工业界特别是用户端已经意识到了这一点。鉴于机器人产业的重要性,很多人都在苦苦思索如何突破瓶颈、如何让机器人真正派上用场。我认为,大家近来已经意识到必须改变范式,并且最迟到2027年初,这一点对所有人来说都会变得彻底清晰。这并不意味着到那时我们就能拿出完美的解决方案。我们希望可以,但仍需拭目以待。
(关于大语言模型的安全性根本缺陷)
Yann LeCun:我接下来说的话可能会再次引发争议,而且Meta的一些同事肯定不喜欢我这么说。但我认为,大语言模型本质上就是不安全的。我不认为它们能够被做到绝对可靠和安全。它们无法变得绝对可靠,因为根本无法阻止它们产生幻觉。而且如果它们具备AI Agent的特性,更无法保证它们不会采取一些连它们自己都无法预料后果的行动。
既然存在对可靠性的担忧,那么当看到它们能够通过长达15小时的编程测试时,你会感到惊讶吗?
Yann LeCun:编程是个特例,因为实际上可以去运行并验证生成的代码是否符合规范。但并非所有事情都像编程这样,现在已经有编程AI Agent抹掉用户硬盘,或者因为做出愚蠢举动让人损失惨重的例子了。我认为当前形式的大语言模型本质上是不安全的,因为它们无法预测自身行为的后果,而且它们完成任务的方式完全受限于其训练数据。用户给它一个提示词,它去完成相应的任务,但这仅仅是在其训练过程恰好引导它做出正确响应的范围内。并没有任何底层的硬性约束能强迫它们必须完成这个任务,并准确预测该任务能被妥善执行。
在早期,它们很著名的一个表现是会陷入死循环,不断重复同一个问题。
Yann LeCun:是的,而且它们缺乏常识。比如之前流传的一个笑话,有人问需要洗车而洗车店离家只有100码,是否应该步行过去。两个星期前我又试了一次,除了谷歌的Gemini之外,其他大语言模型都回答应该步行过去。
所以这意味着它们是在相关的演讲视频或者他人提出的案例数据上进行了训练。
Yann LeCun:是的,只要有人在播客中指出大语言模型无法做到某件事,听众就会把这些问题输入到ChatGPT中,于是这些内容就成为了训练集的一部分。到了下一个版本,这个案例被包含在微调数据中,模型自然就能答对。但这并不是因为模型突然变得聪明了,而仅仅是因为它被显式地用这个问题训练过。
所以说大语言模型本质上是不安全的,在当前的范式下根本无法根治。我一直提倡并不断探讨的是一种全新的架构,即目标驱动型AI。简单来说,就是直接给AI设定一个目标去完成这项任务。那么系统如何确保自己能完成任务?它拥有一个世界模型,可以用它来预测并想象自己采取一系列行动后会产生什么后果。如果预测的结果能够满足一个衡量任务完成度的代价函数,前提是该AI的运作机制完全基于优化算法,也就是在其世界模型的指导下,寻找能够完成任务并使代价最小化的一系列行动,那么它就绝对不会做出常规之外的举动。
当然,这个过程中也会有很多地方可能出错。特别是代价函数可能不够精准,用户以为正在用来衡量任务完成度的函数也许存在偏差。世界模型也可能不够精确,导致AI做出的预测与现实不符,也就是它对自身行动后果的预判出现了失误。因此系统依然会犯错,但至少它在一定程度上具备了预测行动后果的能力,我认为这对于任何具备AI Agent特性的系统来说都是不可或缺的。
此外,不仅可以为系统添加一个确保任务完成的代价函数,还可以并行加入许多其他目标函数、代价函数,甚至是一些底层的安全约束,比如规定在执行任务的过程中绝不能伤害任何人。用户无法在抽象层面上完美定义这些,但可以通过诸多底层的目标函数组合叠加,来确保系统不会产生危害。从架构设计的源头上看,系统是绝对无法违反这些约束的,它必须满足这些条件。但大语言模型完全不是这样,大语言模型永远有失控的可能,在训练误差与测试误差之间总是存在鸿沟,总会存在某一个提示词,能让系统做出极其荒谬的傻事。
(关于大语言模型在医疗领域的边界)
在医疗健康领域中,有哪些事情是你认为大语言模型永远无法胜任,而必须依赖一个更理解现实世界的模型的?
Yann LeCun:比如为慢性病,或者是针对特定患者的非慢性病设计一套治疗方案,这可能完全超出了之前观察到的任何既定模板。如果对患者生理机能的动态变化有一个优秀的认知模型,就能设计出一种真正让患者恢复健康状态的治疗方案。当提到患者时,它甚至可以具体到一个细胞。如何引导一个干细胞分化为能产生胰岛素的胰岛β细胞,对于1型糖尿病患者来说,他们的免疫系统出现了自身免疫异常,基本上把自己的β细胞吞噬殆尽了,该如何持续培育出新的β细胞,能否向它发送某种信号,是否拥有一个人类细胞的模型,能让人推演出需要向干细胞发送怎样的一连串指令,才能促使它成功转化为β细胞。
大语言模型确实可以发挥其擅长的能力,比如将顶尖医生或顶级医疗机构的诊疗经验在全世界范围内进行规模化普及,如果能做到这一点,其潜在的社会影响力将是无与伦比的。而你所描绘的愿景,对很多事情来说显然仍处于蓄势待发的阶段,它的高度在于如何做到比顶尖医生更胜一筹。
Yann LeCun:但这绝不仅仅是赶超顶尖医生的问题,因为大语言模型真正擅长的是反刍那些主要能从书本上读到的知识。如果医学仅仅关乎积累书本上现存的陈述性知识,那么只要闭门读书就能成为一名医生了,但现实显然并非如此,人们必须经历住院医师规范化培训,必须亲自去听诊心跳、按压腹部,通过这些实际操作来诊断是否患有阑尾炎等疾病。
04
图灵奖三巨头的分歧、AI安全恐慌与开放平台Tapestry
你与Geoffrey Hinton、Yoshua Bengio共同获得了图灵奖,但随着时间的推移,他们似乎对大语言模型的威力、潜在威胁或安全风险深信不疑。你们的观点是从什么时候开始产生分歧的?在你看来,是什么促成了这种转变?
你目前正在推进的Tapestry项目,听起来和AMI Labs的核心方向有些不同,能和我们聊聊这个项目的核心构想是什么,它试图解决什么问题,以及它的技术实现路径?
很多人都在担心,随着闭源模型变得越来越强大,技术会被巨头垄断并用于迭代下一代,从而产生某种逃逸情景,导致闭源模型把开源对手远远甩在身后,你如何回应这种担忧?
Yann LeCun:我们的观点是从2023年开始产生分歧的。
我并没有改变主意,是他们变了。大约在同一时间,基本上是因为GPT-4的出现。Geoffrey Hinton过去基本上与这些完全脱节,他从未真正对大语言模型感兴趣。直到2023年GPT-4发布时他才注意到它,并且经历了一次醍醐灌顶,认为这些AI真的太接近人类水平的智能了,甚至可能已经具备了主观体验。他做了一个粗略的推算,人类大脑皮层大约有160亿个神经元,如果要实现类似反向传播的机制,虽然大脑并不直接进行反向传播,但如果它在做类似的事情,比如针对某种目标函数进行某种梯度估计,可能需要一个由几个实际神经元组成的网络,才能模拟神经网络中一个虚拟神经元的功能。于是他说,假设需要一个由10个真实神经元组成的回路来重现一个反向传播神经元的功能,那么突然之间,大脑皮层在等效后就只有16亿个神经元了,而GPT-4已经非常接近这个量级,所以也许它很快就能变得和人类一样聪明。
我完全不相信这种说法。这不过是Geoff在借题发挥,意思是自己终于可以功成身退、宣告胜利了。他倾尽职业生涯去寻找大脑皮层的学习算法,也许并没有发现它真正的奥秘,但反向传播似乎是个完美的替代品,效果惊人,也许这就是大家所需要的,所以现在他可以退休了,去环游世界,到处演讲谈论AI的潜在前景与危险。这基本上就是他的思想轨迹。
他现在对潜在危险的发声已经比一两年前少得多了。他大概也意识到,这或许正是设计出真正智能系统的一种途径。首先,他可能意识到当前的大语言模型并没有那么聪明,其次,在迈向人类级别的智能之前,可能还需要一些概念上的重大突破,而且新AI的蓝图将与大语言模型截然不同,大家完全有办法让它们变得可控。这些话我已经说了好多年了,不过他最近总算也意识到了。Yoshua Bengio的情况也类似。我认为他们两人真正担心的,是社会和政治体系是否有能力确保AI的红利实现最大化,而不是让AI沦为少数富人敛财、加剧不平等的工具,或者因为滥用而酿成重大灾难。这并不是那种AI接管世界的末日预言,他们担心的更多是恶意的技术使用者。
这一点在今天的大语言模型身上似乎确实可能发生。
Yann LeCun:确实存在这种危险,但我不认为这像某些人宣扬的那样具有毁灭性。当然,绝不像Anthropic声称的那样危言耸听,他们甚至试图游说政府,通过制造恐慌来迫使政府对AI进行严厉监管,我完全不认同这种做法。
我想他们确实是真诚相信的,但同时,让他们坚信这一点并向公众和政府灌输其AI非常危险的观念,背后也存在着现实的商业利益考量。
(关于新架构的安全性判断)
尽管你对将大语言模型作为人工智能的终极形态持悲观态度,但你对这些新架构给出的时间表其实相当激进。看起来你并不认为大家距离一些非常惊艳的能力有多遥远。如果这些突破最终来自于更新的架构,你如何看待其背后的安全问题,这会让人更安心,还是更担忧?
Yann LeCun:我认为,大语言模型本质上就是不安全的,我不认为它们能够被做到绝对可靠和安全。而我一直提倡并不断探讨的目标驱动型AI架构,从设计源头上看,系统是绝对无法违反安全约束的,它必须满足这些条件。不仅可以为系统添加一个确保任务完成的代价函数,还可以并行加入许多其他目标函数、代价函数,甚至是一些底层的安全约束,比如规定在执行任务的过程中绝不能伤害任何人。通过诸多底层的目标函数组合叠加,来确保系统不会产生危害。但大语言模型完全不是这样,大语言模型永远有失控的可能,在训练误差与测试误差之间总是存在鸿沟,总会存在某一个提示词,能让系统做出极其荒谬的傻事。
(关于Tapestry开放平台与AI技术主权)
Yann LeCun:这个项目和AMI Labs的核心方向有点不同。这是我过去三年左右一直在构思的一个想法。核心在于,人们现在越来越多地使用AI助手来处理各种事务。传统的搜索引擎使用率在下降,大家遇到问题更倾向于直接询问自己喜欢的AI助手。如果Meta等公司正在推进的智能眼镜等智能硬件计划得以实现,未来你基本上只需通过智能眼镜或其他智能设备进行语音交互。也就是说,你所有的日常信息摄入都将通过AI助手来承载。
如果你生活在美国和中国以外的地区,而你使用的AI助手是在美国加州,或是中国北京、上海、深圳研发的,这其实对你并不利。你所使用的语言,这些AI可能并没有经过针对性的优化训练;你的文化,美国硅谷和中国的设计者可能无法深刻理解,在互联网公开的训练数据中也缺乏足够的代表性;你的价值体系,更是完全无法在这些模型的构建者身上得到体现。
那么解决方案是什么?如何服务好印度的农民,或者是法国或德国的哲学家?你需要的是一个开放、免费的大语言模型风格的基础模型平台,任何人都可以对其进行微调,以迎合特定语言、特定文化、特定价值体系、政治取向或信仰等群体的需求。我们需要多元化的AI助手。世界上有很多既不是美国也不是中国的国家,它们极度渴望在AI领域获得技术主权,不仅是为了自身的工业发展,也是为了服务好本国公民。它们不希望自己的公民仅仅受到某种特定观念的单一引导,它们需要独立的技术主权。
如何实现这一目标?要让这样一个开放平台达到行业顶尖水平,唯一的途径就是使用比闭源专有AI更多、更高质量的数据进行训练。如果你去和印度、法国、越南、摩洛哥、瑞士、韩国、日本、哈萨克斯坦的人交流,会发现每个人都极度渴望这种主权。你可以告诉他们,大家完全可以在本地训练自己的模型,不需要共享核心数据。这正是Tapestry最关键的优势。它鼓励全球的贡献者加入进来,共同训练一个全球通用模型,该模型将成为凝聚全球知识与文化的宝库。
贡献者需要提供数据和算力资源,但他们对自己的数据拥有绝对的控制权,不需要与其他贡献者共享原始数据。他们贡献的是参数向量。这类似于一种联邦学习机制,由许多分布式的数据中心组成,它们从模型的全球共识中获取参数向量,可以把它看作所有贡献者参数向量的平均值。所有贡献者会定期通过中央服务器等机制与其他节点同步,分享彼此的参数向量。通过这种方式交换参数向量,本地的训练节点每当更新自己的参数向量时,都会尽可能使其逼近这个全球共识向量。随着训练的深入,所有这些参数向量最终会收敛到一个共识模型中,它基本上就成为了人类所有知识的结晶。
这样一来,你就拥有了一个开源开放的模型,其性能不亚于在全网所有数据上训练出来的闭源模型。随后,你可以根据自己的特定需求,针对本国的政治、文化、语言特色或兴趣中心进行微调。推动这一进程的发展存在一种必然的客观规律,不仅是因为大多数国家都渴望技术主权,还因为AI正在迅速演变为一种平台,而平台天然具有向开源开放靠拢的趋势。当年Linux的崛起就是如此,互联网的软件基础设施以及无线网络同样如此。它们最初也都是专有的,幕后技术最终全都被开源生态彻底取代了。
很多人都在担心,随着闭源模型变得越来越强大,技术会被巨头垄断并用于迭代下一代,从而产生某种逃逸情景,导致闭源模型把开源对手远远甩在身后。
Yann LeCun:别忘了1996年互联网基础设施的大玩家是谁,当时有升阳公司(Sun Microsystems)、惠普、戴尔等几家公司。升阳公司捆绑销售他们的专有硬件和Solaris系统,惠普推崇HP-UX,他们当年宣称Unix比微软Windows稳定得多,没人会傻到在Windows上运行网页服务器。戴尔则在推广Windows NT。但现在谁还会用Windows NT来当网页服务器?这一切都被Linux彻底淘汰了。如今整个互联网都运行在Linux之上,甚至连微软的Azure也在运行Linux。所以,今天的OpenAI、Anthropic等公司就像是昨天的升阳公司和HP-UX。
也就是说即这些大模型自身存在局限性,其能力不可能无限膨胀,因此随着时间的推移,开源社区完全有可能追赶上来。
Yann LeCun:他们已经面临数据枯竭了。互联网上公开可用的文本数据基本已经被消耗殆尽,没有更多新数据了。这些公司目前能做的,无非是购买商业版权数据,或者用合成数据来进行训练。
在过去几年里,这些大模型在完成大规模预训练后,依然展现出了非常惊人的后生动力。比如国际数学奥林匹克金牌水平的突破,或者在SWE-bench这种长任务视界基准测试上的表现一直在稳步提升。
Yann LeCun:没错,这确实很有意思。但我们可以思考一下这两个领域,即数学和代码。在这两个领域中,语言本身就是推理的载体。虽然它不是推理的唯一载体,但当你用严谨的方式在纸上推导数学时,而不是靠直觉,你本质上是在操纵语言。大语言模型非常擅长这个,证明定理之类的事情正是它们的强项。但它们并不擅长提出全新的概念和定义。它们更像是一个被给予明确问题、然后把它解出来的问题解决者。幕后大部分数学工作其实是一种创造性的行为,而这恰恰是模型所欠缺的。
代码也是同理。大语言模型是优秀的程序员,但它们不是软件架构师,也不是计算机科学家。它们可以替我们编写代码,但还远未达到可以完全取代人类的阶段。这改变了人类的工作模式,人类在抽象层次结构中向上走了一级,我们的核心职责变成了决定要去建造什么,至于具体的建造过程,完全可以借助大语言模型来完成。这里最核心的一点是,大语言模型之所以能在这些领域取得巨大成功,是因为在这些场景下,语言本身就是推理的载体,而在其他非语言推理的领域则不然。
05
FAIR十年亲历、Llama内幕与下一代AI架构的技术突破
你花了十多年的时间,一手打造了世界上最受尊敬的研究实验室之一FAIR,最近你离开了Meta。回首那段时光,你认为自己在执掌FAIR期间,做得最对和最错的事情分别是什么?
在整个行业中,普遍存在着一种微妙张力,是要求在公司里尽可能宽容地支持各种不同方向的探索性研究,还是因为某项技术现在见效了,未来6到12个月公司要靠它赚钱,所有人就必须聚焦在这一件事上。你对这种现象如何看待,以及你在整个行业中所观察到的现状是什么?
目前很多这类组织显然都承受着巨大的短期压力,因为眼下的行业竞争实在是太惨烈了。你之前治下的FAIR架构模式,谷歌很多年来也有类似机制,同时OpenAI和Anthropic也有大批研究员在自由尝试各种不同的方向。你认为这在未来是否还有存续的可能,还是说未来唯一的出路只能是离职去创办自己的公司?在如今如此内卷的竞争动态下,行业内是否还有地方能保留FAIR最初的那种纯粹的科研风骨?
你是怎么知道是时候离开Meta的?听起来这些想法你已经酝酿了很久,是否有某个瞬间让这个想法变得清晰明确?
Scale的收购案是促成Meta内部全面转向纯大语言模型路线的催化剂之一吗?媒体上很多流行的叙事都在说,当亚历克斯进来后,在内部运行一个前沿科学研究机构就变得更困难了,你在何种程度上感受到了这一点?
在过去这一年里,有什么事情是让你彻底改变了看法的?
最后,能向听众介绍一下你目前正在推进的最新技术工作,特别是在防止表征崩溃方面有哪些新的突破?
Yann LeCun:大家做得最正确的事情,是建立了一个真正具备创新能力的顶级研究实验室,输出大量的基础方法、科学理论以及像PyTorch这样造福整个行业的工具。可以说,除了谷歌的少数人之外,整个行业基本上都构建在PyTorch之上。同时,大家建立了一种开放和尊重科学流程的文化,我认为这对于突破性创新是必不可少的。
因为创新是一个完整的链条,最前端是纯自由探索的蓝天研究和全新概念的提出,这其中很大一部分发生在大学里,还有一部分发生在全球屈指可数的几家工业界先进研究实验室中,比如谷歌算一个,FAIR曾经也是一个,希望未来依然是,但我现在说不准,此外还有零星几家。
接着是第二阶段,当发现一个极佳的想法时,会向前推进并看看它能否转化为实用的成果。但这依然停留在研究层面,其核心在于绝不自欺欺人,不满足于仅仅拼凑出一个针对眼前特定问题的临时方案,而是要看看构想出来的、或是从社区其他人那里汲取的这项技术,是否真的能够被进一步推进并转化为现实。大家不急于做成产品,但需要证明它能在某些特定任务或基准测试中打破纪录。而到了第三阶段,承载该研究实验室的公司需要表态,现在要启动大项目,为这个愿景投入庞大的工程力量,全面向前推进。这也是大多数项目最终折戟沉沙的地方,许多公司都在这个交接棒的环节上掉了链子。
Meta过去在这方面其实做得挺不错的,但也远非完美。它不至于成为一个反面教材,就像当年施乐帕克完全错失了图形用户界面、鼠标和窗口系统的历史机遇那样,但Meta确实也错失了一些关键步骤。这在一定程度上是组织架构导致的,因为需要一个在保持与研究紧密相连的同时、又完全独立于产品线的中间组织,来承担起将技术再往前推一把的交接工作,而不是去开发一个只有三个月期限的短期产品,而是持续深化技术。大家曾在Facebook和Meta拥有过这样的机制,但后来弄丢了,导致FAIR基本上在公司内部被孤立了,有很多绝妙的点子,却没有任何业务部门愿意过来接盘。
到了2023年,GenAI团队成立,最初从FAIR抽调了大约60到70名科学家和工程师,随后这个团队迅速扩张。但由于该团队背负了极其沉重的短期业务压力,导致GenAI根本没有闲暇与FAIR进行深度沟通。因此,GenAI没能站在最前沿去引领大语言模型的颠覆性创新,反而不得不将全部精力倾注在短期见效的项目上,做起事来变得极其保守。这就导致了研究与落地之间出现了一条巨大的鸿沟,形成了一种严重的脱节。
(关于基础研究与商业产品化的张力)
Yann LeCun:这确实是一个很微妙的权衡。研发本质上存在两种完全不同的模式。一种是大量的探索性研究,去探寻各种不同的可能性。可一旦当某种技术表现出极大的商业可行性、需要被进一步做大做强时,它其实就已经不再属于科学研究的范畴了。此时在上面工作的人虽然在媒体口中依然被称为研究员,但其实工作性质已经彻底转向了工程落地和产品化推进。
这种情况在Meta公司内部发生过很多次,很多最终成型的产品最初都始于FAIR实验室的研究。最典型的例子发生在2023年初,当时在FAIR实验室开发的Llama 1表现出巨大的潜力。Meta公司随后立即成立了一个全新的组织GenAI,试图将其转化为真正的业务和一系列产品,相继推出了Llama 2和Llama 3。但随后的Llama 4表现多少让人有些失望。因为扎克伯格对此很不满意,他直接重组了整个团队,调整了架构,并招募了新的人才。
同时,在过去这一年里,Meta公司也意识到自己在行业中已经有些落后了。这导致高层将整个战略重心强行扭转到如何拼命追赶行业领先者上。这种做法带来了一个令人遗憾的副作用,大量的探索性研究基本上被边缘化,不再享有高优先级。虽然这并没有直接影响到我正在推进的JEPA和世界模型项目,因为扎克伯格本人、首席技术官博斯沃思以及公司里的一批核心高管对这个项目依然非常感兴趣,并且深信它的长期颠覆性价值,但公司的其他人完全专注于大语言模型。
这让我很清楚地意识到,Meta公司已经不再是继续死磕这个项目的最佳土壤了。再加上我们当时已经开始跑出非常漂亮的成果,很明显我们必须完成从纯研究到技术工程化落地、规模化扩展并最终打造产品的跨越。同时我们也意识到,这项技术的绝大多数应用场景,可能并不是Meta公司这类社交巨头最感兴趣的。我们研究的这类技术,很多应用场景其实是在工业界,比如制造业。
(关于行业内基础研究空间的存续)
Yann LeCun:我认为在谷歌研究院和DeepMind内部,目前依然保留着几块能让人纯粹做科研的净土。但不可否认的是,整个行业正在变得越来越封闭。谷歌已经彻底把大门紧闭,Meta甚至包括FAIR也在朝着同一个方向退缩,如今内部对论文发表的限制明显变多了。因此,这对于那些真正渴望做出颠覆性研究的顶尖人才来说,吸引力已经大打折扣。他们能获得的资源变少了,而且一旦做出了某些在中期内具有商业应用前景的成果,就会被高层勒令保密。我认为这种氛围对颠覆性创新而言非常糟糕,根本无法滋养伟大的研究。
要获得大家在FAIR早期、或是贝尔实验室和施乐帕克黄金时代所见证的那种行业突破性成果,唯一的秘诀就是找到最顶尖的人才,这些人往往拥有极其敏锐的科研嗅觉,知道该朝什么方向发力、该攻克什么项目,接着给足他们成功所需的资源,然后赶紧放手让他们大干一场,不要在中间碍事。
这随后会对更广泛的科研生态带来怎样的冲击。
Yann LeCun:实际上,那些至今仍倾向于选择和我一起共事的人,通常从一开始就是带有某种理想主义且足够疯狂的人。我很赞同这样一个观点,在学术界攻读博士期间,你应该专注于研究下一代AI,而不是当前这一代。如果你现在还在学术界研究大语言模型,那真的非常枯燥。至少对我而言很无聊。这基本上只是在研究大语言模型如何工作以及为什么工作,去解释它们为什么有效,或者找出它们的局限性。这更像是描述性科学,缺乏真正的创造性。我不觉得这有什么特别的吸引力。虽然它是有用的,但如果你真想展示如何用大语言模型做全新的事情,学术界根本没有你所需的GPU算力。所以别想了,读博期间不要去研究大语言模型,毫无意义,你很难做出实质性贡献。
(关于离开Meta的时机判断)
Yann LeCun:这是多种因素共同作用的结果。首先,很多人对我此前在Meta的角色有完全错误的看法。我是在2013年底加入的,真正开展工作是在2014年初。前四年半时间里,我一直担任FAIR的负责人。我亲手组建了FAIR这个组织,沉淀了团队文化,招募了核心人才并进行日常管理。四年半后,出于多方面的考虑,我卸任了主管职务,转任首席AI科学家。主要原因是我快60岁了,当时是58岁,而我发自内心不想做管理工作。为了让这个研究机构顺利启动,我愿意兼顾一段时间的管理,但我确实不擅长。我更像是一个科学或技术领域的愿景规划者、工程师和科学家,其他人在管理上比我优秀得多。因此我选择放手,由乔尔·皮诺(Joëlle Pineau)和安托万·博德斯(Antoine Bordes)接管了FAIR的管理权,我则专注于首席AI科学家的工作。
我那时候直接向CTO汇报,我的核心目标是重启一个我认为极具必要性的研究项目,因为FAIR的愿景自始至终都是构建智能系统。在管理FAIR期间,由于精力被行政事务分散,我把自己的科学研究暂时搁置了。我当时确实没有时间,而我认为设计出人类水平、类人AI的架构才是最重要的。我提出过一个概念,未来的AI应当基于自监督学习,并通过视频等感官信号进行预测。这些属于世界模型的范畴,也是一些经典的老想法。我曾在2016年的NeurIPS上发表过主题演讲,明确指出这才是AI研究应该走的方向,那就是构建世界模型,预测你自身行为的后果并进行规划。当时我就直言,强化学习无法带我们抵达彼岸,因为它的效率太低,而监督学习也已经触及天花板,因此未来的核心绝对是自监督学习和世界模型。
那么,我们该如何攻克自监督学习和世界模型?在这条路上我曾启动过几个项目,尝试过几种路径,但有些未能成功,比如早期的视频预测项目。后来,我提出了一个新的概念,你可以利用视频来训练自监督学习,但必须让系统在表征空间内做出预测。这就是联合嵌入预测架构JEPA的核心逻辑。一旦拥有了JEPA,你就可以通过引入动作条件将其转化为世界模型,并用它来进行规划。这个想法是在2020年左右成熟的。
到了2022年,我写了一篇长篇愿景论文。我想,干脆把我的全部愿景一股脑写出来,毫无保留地公开所有秘密,我不在乎。或许这能把志同道合的人凝聚到这个愿景周围。结果令人惊叹,我不仅吸引了一群渴望在这个方向深耕的学生来到纽约大学和巴黎与我并肩作战,而且FAIR内部的一个完整团队也备受鼓舞,表示这正是他们想做的研究。随后乔尔·皮诺也认为这应该成为FAIR的重大核心使命。我们在内部将这个项目命名为高级机器智能,这是项目的内部名称,而现在它成了公司的名字。马克·扎克伯格读了那篇论文,非常清楚其核心价值并对这个项目表示赞同。前任CTO迈克·施罗普夫(Mike Schroepfer)、我的直属主管兼首席产品官克里斯·考克斯(Chris Cox)都非常喜欢这个想法。因此,我们在高层获得了巨大的支持,内部称之为AMI,而且这个项目在视频表征上的进展非常顺利。
(关于Llama系列演进的内幕)
Yann LeCun:实际上,从Llama 3开始就已经初露端倪了。Llama 1最早只是FAIR内部的一个小项目,那是2022年底到2023年初的事情。后来GenAI团队成立,研发Llama的核心人员基本上都被打包划归到了GenAI。他们开始着手研发Llama 2,在这期间,其中几位骨干意识到自己完全可以出去做一家初创公司,这就是Mistral诞生的前因。Llama 1的两位核心作者联合一位来自谷歌的技术专家共同创立了Mistral,还有其他几个人也陆续离职去追寻其他机会。由于各种错综复杂的原因,那段时间在Meta过得并不愉快,于是引发了一波人才流失。随后,在很大程度上接手了Llama 2、Llama 3和Llama 4的GenAI团队在短期绩效的重压之下,策略变得极度保守。这是团队分化与高层施压共同作用的结果,事情变坏的途径有很多种,很难去单纯归咎于某一个特定的人,但总而言之,事情就是这样演变的。
Scale的收购案是促成内部全面转向纯大语言模型路线的催化剂之一吗?
Yann LeCun:绝对是这样。当然背后可能还有其他深层原因。虽然我没有内部核心信息可以透露,但有一种可能性是,马克在亚历克斯身上看到了一个年轻版的自己,甚至将他视为潜在的接班人。
媒体上很多流行的叙事都在说,当亚历克斯进来后,在内部运行一个前沿科学研究机构就变得更困难了,你在何种程度上感受到了这一点?
Yann LeCun:外界对我的角色、我对亚历克斯的关系以及Meta内部如何管理AI存在极大的误解。我对Llama的技术贡献为零,完全没有任何贡献。我对Llama唯一的贡献是极力主张开源Llama 2。当时公司内部对于是否开源发生过一场激烈的辩论。法务部门和政策部门坚决反对,而公关部门则表示赞成。所有的工程团队,包括博兹也都赞成开源。在长达几个月的时间里,从马克·扎克伯格往下的大约40名高层每周都要开两个小时的例会进行讨论。在这场内部大辩论中,我联合博兹一起极力游说,我们指出安全风险基本上被严重夸大了,相反,通过开源Llama 2来激活整个AI产业、建立行业生态的机遇极其巨大,我们将彻底引爆AI行业。后来的事实证明,一切正如我们所预料的那样。
但我必须重申,我对Llama没有任何正向或负向的技术干预,从没有做过任何事情去阻止或放慢它的进程。FAIR内部有很多人在研究大语言模型,这很好,我从未表示反对。我只是表达过,这不是通往人类智能的终极路径,但它确实非常实用。特别是从2018年我卸任FAIR主管之后,我从不直接干涉具体研究人员的选题,我唯一做的就是发表我的愿景,吸引志同道合的人加入我的项目。他们选择与我合作是因为对这个方向感兴趣,而不是因为我是他们的老板,我并没有命令他们。因此,我在Meta内部对大语言模型没有任何直接的技术影响力。我对战略的影响主要停留在长期规划,以及如何维持一个研究实验室的创新活力上。但在过去的一年里,从2024年初到2025年,FAIR的调整方向和管理模式已经违背了我认为保护创新、前沿研究突破以及留住优秀人才所必需的环境。事实上,很多极其优秀的人才已经选择离开。
(关于过去一年中改变认知的核心事件)
Yann LeCun:那就是关于我们过去所说的无监督学习,也就是现在常说的自监督学习的整个理念。在2003年之前,无监督预训练的核心思想是,先让模型从输入数据中提炼出高质量的特征表征,然后再用少量的监督标签数据进行微调,早期的实践证明这套技术完全可行。我曾试图将这一方法应用于视频,因为我的终极梦想是通过让系统单纯地观察世界的流逝,来理解物理世界的运行规律。这就是基本思想。我在2010年代初期开始倡导这个方向,并在没有GPU的艰难条件下做了一些简单的视频预测实验。在FAIR成立后,我们开始更严肃地推进像素级视频预测,幕后发现这条路走不通,于是我开始转向捍卫自监督学习。这种泛化地训练一个系统,不为了完成特定任务而仅仅是为了进行预测,然后将以此学到的通用表征作为下游任务的输入,不管是结合监督学习还是强化学习,这套表征都能发挥巨大威力。这也是我在2016年NeurIPS主题演讲后半部分的核心议题。
让我感到意外的是,这套理念最终取得了极其耀眼的成功,但爆发的战场不是在视频领域,而是在语言领域。如今的大语言模型本质上就是自监督学习一个堪称奇迹的成功典范。
(关于防止表征崩溃的最新技术突破:SIGReg)
Yann LeCun:大语言模型之所以能成功,是因为在处理离散的文本符号序列时,进行预测是非常容易的。因为语言中的可能符号是有限的,比如总共只有100,000个可能的Token。你可以让神经网络输出一个包含所有可能Token的概率分布,然后从中进行采样,将采样的Token移入输入流,接着预测下一个Token,进行自回归预测,这只是一种特例。
一旦面对真实世界,这种生成模型就彻底失效了。因此,你必须训练一个去学习表征并在表征空间中做出预测的系统。这带来了一个很大的难题,直到大约五年前我才认为这是可以解决的,尽管我在几十年前就发明过一种相关的技术。这个难题就是,如果你输入两个内容,比如一段视频的前半段和它的后续片段,或者一张图像及其损坏的版本,你把它们同时输入编码器,并训练一个预测器去通过其中一个的表征来预测另一个的表征。此时系统存在一个极其简单的偷懒解,编码器对所有输入都只输出一个恒定不变的常数表征,这样预测任务就变得毫无难度。这在学术上被称为崩溃,也就是表征崩溃(Representation Collapse)。
所以,自监督学习在构建JEPA这类联合嵌入架构时,最核心的难点在于你该如何防止表征崩溃?
Yann LeCun:我在1993年提出的解决方案是对比学习。基本逻辑是,你既要给系统提供应该相互预测的正样本对,也要提供不应该相互预测的负样本对。事实证明这种方法有效,但它的致命缺点是无法很好地向高维空间扩展。
在80年代末,Geoffrey Hinton和Sue Becker发明了另一种技术,通过双网络架构来最大化两者之间的互信息(Mutual Information)。Jürgen Schmidhuber至今还在对我生气,因为他在1992年也提出了一个类似的版本,并坚称那就是JEPA。其实那不是JEPA,那只是防止联合嵌入架构崩溃的另一种手段。虽然可行,但那是一种非常特殊的做法,我认为它不够好。
现在你有了JEPA架构,必须想出一个防止崩溃的好方法,目前主要有几种路径。正如我所说,对比学习并不是一个好方法。另一类被称为蒸馏方法,它们确实能有效防止崩溃,但至今没人能从理论上完美解释其中的底层机理。一个典型的代表就是DINO,这是一个使用蒸馏方法的联合嵌入方法。在这种方法中,其中一个编码器负责训练另一个编码器,扮演教师的角色。我们对处于训练状态的编码器执行反向传播,而对于没有接受训练的那个编码器,则不进行反向传播,而是通过某种指数移动平均的方式与另一个编码器共享权重。这更像是一套经验配方。谷歌旗下DeepMind曾发表过一篇名为《Bootstrap Your Own Latent》的论文,用的就是这个技巧。这个技巧源于强化学习的某种直觉,确实能抑制崩溃,但其背后的黑盒机制依然不透明。虽然有几篇理论文章试图在简化场景下进行解释,但并不令人满意。你以为你正在最小化的损失函数,在数学上其实并不是那么回事,因此你无法在训练过程中对其进行有效监控,它在训练时实际上往往是上升的。因此,我们并不喜欢这种方法,但不可否认它确实管用。我们训练的一些大规模视频表征学习系统,包括V-JEPA、V-JEPA 2、V-JEPA 2.1以及I-JEPA,目前都是基于这种方法训练出来的。
但我们正在全力告别这种方法。最近我们发表了几篇论文,提出了一种显式正则化项来防止这种崩溃,其核心逻辑是直接最大化编码器输出的信息量。这与1989年Becker和Hinton、1992年Schmidhuber以及自那以后的许多其他人的研究属于同一家族。在某种程度上,它也有对比技术的影子,但它不需要依赖样本对比。那么接下来的问题就是,你如何精准衡量并最大化一个神经网络输出的信息量?糟糕的是,如果你想最大化这个量,你或者需要能够测量它,或者需要拥有它的一个下界。对于信息量,我们在数学上只有上界公式,无法直接精确测量。我们只能想出上界,所以我们采用一个上界并寄希望于好运。它还算有用。
最新的一个成果叫做SIGReg,即草图各向同性高斯正则化(Sketch Isotropic Gaussian Regularization)。在此之前我们还有一个叫VICReg,即方差-不变性-协方差正则化(Variance-Invariance-Covariance Regularization)。这次的SIGReg真的非常酷。这是我以前的博士后、现在布朗大学担任助理教授的Randall Balestriero的心血之作。它的核心在于强制编码器输出的变量分布在本质上符合联合高斯分布,从而在数学上最大化其信息承载量。这与Schmidhuber、Sue Becker和Geoffrey Hinton所做的非常不同。在我看来,这个方向极具前景,我们目前演进出了多个变体。一个可以产生稀疏表征,另一个可以产生各向同性表征但不一定是高斯分布。我们最近与Randall在Mila的学生联合发表了一篇论文,成功利用这种正则化方法训练出了一个世界模型。虽然目前还处于小规模实验阶段,但我认为它代表了未来。如果你只想读一篇论文,我强烈推荐这一篇,名字是《LE World Model》。这个名字是Randall选的,我可不负责。