2025年3月,NVIDIA在美国圣何塞举办年度GPU技术大会(GTC),吸引了超过2.5万名与会者。NVIDIA CEO黄仁勋在大会主题演讲及媒体问答中分享了他对人工智能发展的看法,包括对通用人工智能(AGI)的乐观预期。与此同时,Meta首席AI科学家杨立昆(Yann LeCun)作为特邀嘉宾,与NVIDIA首席科学家Bill Dally同台对谈,讨论下一代AI模型的发展方向。在这场大会上,两位业界领军人物AI推理方式展开了一场引人关注的“辩论”,一方展望基于token序列预测的当前大模型走向更强AI的前景,另一方则质疑这种方法的局限,倡导引入“世界模型”等新理念。接下来将分别介绍双方观点,并分析相关技术细节和业界反响。
黄仁勋的观点:从Token推理到AGI的乐观展望
黄仁勋对于以大型语言模型为代表的AI取得的进展持非常乐观的态度。他将目前生成式模型逐字逐词元(token)推理出答案的过程视为一种可不断扩展的智能生产过程,认为这些模型的能力随着规模和数据增长而快速提升。黄仁勋多次表示AGI的出现指日可待。例如,他预言如果以通过人类各种考试作为AGI的标准,那么在未来五年内AI有望在所有此类考试中取得优异成绩(当然他也强调AGI的定义仍有争议)。他提出可以将“制智能”类比为制造业,建立“AI工厂”来大规模生产以token为原料的智能成果(文本、代码乃至动作)。
在GTC大会上,黄仁勋强调AI系统推理能力正在不断增强,并将其作为下一阶段发展的重点。NVIDIA发布了新的推理加速库(如Dynamo)来提升大模型多步推理和复杂决策的效率。黄仁勋对这些基token预测的模型演进出更高级智能抱有信心,认为通过引入工具使用、增加上下文长度以及多模态感知等手段,模型的类人推理水平会持续提高。此外,他十分看好“物理化AI”(Physical AI)的前景,即将AI与机器人相结合,让智能体直接作用于物理世界。他在大会上展示了新一代通用机器人平台(Isaac GR00T等),宣“通用机器人的时代已经来到”。这种观点表明黄仁勋相信,在现有AI技术(如大模型)的基础上结合实体机器人和强化学习,能够加速朝着通用智能方向演进。
总结而言,黄仁勋描绘了一幅渐进进化的路线图:依托当今大模型的token生成能力,不断投入计算资源和改进算法,让AI掌握更多知识和技能,最终“制造”出接近人类水平的智能。他倾向于认为AGI并非遥不可及的科幻目标,而是可以在可见的几年内通过工业界和研究界的努力逐步逼近的现实。这种乐观态度在业界具有代表性,反映了对当前AI范式的信任和扩展现有技术实现突破的信念。
杨立昆的观点:批判Token预测范式与“世界模型”理念
与黄仁勋的乐观形成鲜明对比,杨立昆对当前流行的大型语言模型(LLM)的局限性提出了尖锐批评。他直言自己“已对LLM不再感兴趣”,并称这类模型无非是大型的“token生成器”(即根据上下文不断预测下一个词元的系统),由于在离散的词元空间中工作,其能力存在先天限制。杨立昆指出,现有的AI系统存在四大缺陷:缺乏对物理世界的认知, 没有持续的长时记忆, 无法真正理解因果进行推理, 以及难以进行复杂的规划。这些弱点导致仅靠在海量语料上做下一个词的预测,无法产出真正类似人类智能的行为。他甚至断言,单纯依赖这种自回归语言模型的范式是条死胡同,再过五年可能没有人会再使用目前这种纯LLM范式。取而代之的将是更高效的新型AI架构。
为了解决上述不足,杨立昆提出了发展**“世界模型”的构想。所谓世界模型,是指AI内部建立对外部物理环境的模拟和理解,就像人类婴儿在出生几个月内就开始形成对物理世界的直观模型一样。杨立昆强调人类智能的具身性**(embodiment)——我们通过与真实世界的交互来学习和推理,而不仅仅是通过语言。相比之下,目前的大模型只是读了互联网文本,却从未“体验”世界。这导致它们缺乏常识物理理解,容易产生与现实不符的输出。杨立昆在演讲中解释:“我们需要一个预测器,给定世界的状态以及你设想执行的一个动作,它能够预测世界的下一个状态。有了这样的世界模型,AI就可以规划一系列行动来达到特定目标。” 简而言之,他主张让AI像人一样具备因果预测能力:能在脑海中模拟“如果我这么做,接下来会发生什么”,从而实现真正的推理和计划。
在技术路径上,杨立昆倡导探索全新架构和训练范式,而非一味放大现有的Transformer自回归模型。他曾发表论文提出“自主机器智能之路”,主张用自监督学习构建世界模型、结合能量函数等原理,以克服当前生成模型在理解和推理上的不足。他还批评目前流行的强化学习在培养通用智能方面收效甚微,认为仅靠语言生成无法让AI真正“理解”这个世界。相反,他举例指出,人类婴儿在几个月大时通过观察和感知就摄取了相当于比最大LLM多几个数量级的信息(比如4个月大婴儿通过感官获取的环境信息量,约是当前最大语言模型训练数据量的450倍),这说明效率和与环境交互才是智能的关键,而不仅仅是数据规模。杨立昆甚至创造了“高级机器智能(AMI)”这一术语来替代AGI,认为“人类智能各有所长,称其‘通用’并不准确”,但更高级别的机器智能在未来三到五年是可以实现的。
综上,杨立昆的观点可以概括为:**当前的大模型路径存在根本局限,AI需要“走出文本”,通过构建世界模型和具身学习来获得真正的理解与推理能力。**只有采用与人类类似的学习机制(感知世界、预测反馈)并设计出全新的模型架构,才能在不无限堆叠算力的前提下实现接近人类的智能水平。他的这一立场为业界敲响警钟,提醒大家不要被当下LLM的表面成功冲昏头脑,而应着眼于AI发展的长远瓶颈。
技术细节:Token预测VS世界模型与具身智能
为了更清晰地理解这场辩论,下面对涉及的关键技术概念做简要说明:
· 语言模型的Token预测机制:当前主流的大型语言模型(如GPT-4、Llama等)采用自回归生成方式,即根据已经生成的单词/词元序列,预测下一个最可能的词元,逐步生成文本。这种模型通过在海量语料库上训练得到词元接续的概率分布,从而能够回答问题、生成文章。然而,其本质仍是统计关联,并不真正“理解”语义或事实。由于训练目标只是下一个词的预测,它可能出现幻觉(编造不真实的输出)或不一致的逻辑推理。这种token级推理目前在语言和编码任务上展现出强大能力,但也存在明显局限:模型缺乏长期记忆(只能利用有限长度的上下文窗口),无法主动感知外部环境(只从训练文本间接学习),对于需要多步骤推理的问题往往容易出错。正如杨立昆所批评的,它更像是一个强大的“自动补全”工具,而非真正理解问题后在大脑中演绎推导出答案。
· 现有大模型的局限性:除了上述记忆长度和环境感知缺乏的问题,大模型在推理深度和计划能力上也有不足。它们通常倾向于表层关联而缺少因果推演能力。例如,让纯语言模型解决复杂的数学题或物理推理题依然具有挑战,需要借助链式思维提示等技巧勉强提高准确率。另外,模型缺少自主探索和执行行动的能力——它不会主动去验证一个答案,也无法与真实世界交互来获得新信息。这种封闭的、静态训练导致其智能水平受限于训练数据覆盖的范围。当问题超出训练分布或需要现实常识时,模型往往暴露出能力边界。因此,批评者认为仅靠堆叠参数和数据来提升现有LLM,难以跨越这些根本性障碍。
· 人类智能的具身性:人类与AI最大的不同在于人类智能是浸入式的、具身的。婴儿通过感官和肢体与世界不断互动,从中学习物体的概念、物理规律、因果关系。这种通过体验获得的常识是人类推理的基石。所谓“具身性”,指智能体拥有身体和感觉并在环境中行动,这让知识的获得和应用与具体环境紧密相连。具身智能理论认为,认知并非发生在真空中,理解往往需要通过与世界交互来形成意义。例如,我们知道水杯打翻会洒水,是因为我们亲身观察甚至经历过类似现象。因此,很多AI研究者主张,让AI拥有传感器或虚拟的交互环境,进行自主试错学习(如强化学习和自监督学习结合),才能培养出类似人类的直觉和常识推理能力。当前的LLM因为缺乏这种与世界的直接连接,被认为无法获得真正的常识和物理直觉。
· “世界模型”的概念:世界模型是杨立昆等人提出用以弥补上述不足的关键理念,来源于认知科学和机器人学中的概念。世界模型指AI在内部模拟外部世界的状态和动态变化的模型。通过世界模型,AI可以在“脑内”试验各种假想的动作并预测其结果。这类似于人在心中想象“如果我这么做,会发生什么”的过程。例如,一个具备世界模型的AI机器人在搬运物体时,可以预判如果用力过猛物体可能掉落,从而调整力度。在实现上,世界模型需要AI能够以连续空间的表示来理解环境,而非仅限于离散的词元。这可能涉及训练AI通过视觉、听觉等多模态感知来建立对现实世界的因果模型。一旦拥有世界模型,AI就可进行规划:因为它能连贯地预见多步行动的后果,进而选择正确的行动序列以达成目标。这样的能力超出了纯语言模型的范畴,被视为迈向人类水平认知的关键一步。当然,构建世界模型在技术上非常具有挑战,需要解决高维连续空间的表示学习、模拟环境的准确性,以及与决策规划的结合等难题。然而,如果成功,它将赋予AI类似人类的“内在模拟器”,显著提升AI的理解与推理深度。
总的来说,技术层面的讨论聚焦于两种范式的差异:其一是大数据+大算力驱动的纯符号预测(token预测)范式,依赖于从相关性中涌现智能;其二是具身交互驱动的世界模型范式,试图让AI从因果关系中学习真实的世界规律。前者在短期取得了惊人的成果,但被批评有天花板;后者被寄予厚望,但实现路径仍在探索之中。这也是这场辩论背后的核心技术议题。
业内回应与争议
这场关于AI推理路径的辩论在业界引发了广泛讨论和不同观点的碰撞。一些研究者和开发者对杨立昆的看法表示赞同,认为当前对大型语言模型的炒作有过热之嫌,AGI的前景也许并不如乐观派描绘得那样近在咫尺。有人直言如今LLM领域充斥着“夸大和炒作的马戏表演”(指过度渲染模型能力以追逐投资和关注的现象),赞赏杨立昆敢于揭示大模型的基本局限,提醒大家正视AI尚未解决的问题。例如,有资深从业者支持杨立昆对长期记忆和真实理解缺失的批评,认为现阶段模型还远未达到人类认知的灵活度,AGI更可能是一个长期挑战而非近景。持这种观点者主张,在追逐模型规模的同时,应加大对新原理和多模态方向的研究投入。
然而,另一些业内人士则对杨立昆的论断持保留甚至反对态度。他们认为虽然当前LLM有不足,但并非一无是处的“死胡同”。实际上,大型语言模型很可能成为未来智能体系的重要基础模块。正如一位评论者所指出的,认为业界有人主张“大模型是唯一途径”其实是个稻草人论据:大多数研究者都意识到还需结合记忆、工具、反馈等多种手段,LLM将是众多关键组件之一。这类观点强调渐进改进:通过在现有模型上加入长程记忆模块、引入检索工具(例如让模型上网搜索资料)、增加多模态感知和动作接口,AI已经在朝更通用智能的方向演化。一些正面的例子被提出来反驳杨立昆的悲观看法:例如OpenAI最新推出的能够自主在网络上检索信息并撰写报告的研究型代理,被视为LLM+工具用来提升推理能力的成功案例。此外,Meta公司本身一方面由杨立昆唱衰纯LLM,另一方面其开源的大模型Llama却达到了一亿次下载,显示出业界对LLM的巨大需求——这被认为体现了AI社区在探索新方法的同时,也会继续改进和应用现有大模型。
关于AGI是否可行以及何时实现,业内并无共识,争议颇大。黄仁勋和杨立昆都属于相对乐观的一派(前者相信沿当前路线持续突破可及,后者则认为换道新方法后不久可及),但也有许多知名专家对此持谨慎或怀疑态度。一些研究者质疑“通用智能”这个概念本身的实用性,认为智能是多维度的、难以用单一标准衡量,当前AI即便在特定任务上超越人类,也不等于具备真正的常识和自我意识。还有人担心过度强调AGI目标可能导致忽视眼前更实际的问题和风险。例如,对于“AI是否会自主创新、提出完全全新的解决方案”这一能力边界,杨立昆就明确表示目前的系统并不具备:
它们更像是拥有海量记忆和检索能力的学者助手,而非真正独立思考的科学家。总的来看,业界在短期乐观与长期谨慎之间存在张力:一方面最近的进展令人鼓舞,另一方面实现人类水平的通用智能仍被很多人视为需要更多重大突破的远大目标。这场辩论将这种分歧推到了聚光灯下,引发大家对AI能力边界和发展路线的深刻反思。
辩论意义简明总结
黄仁勋与杨立昆在GTC 2025上的这场关于AI推理方式的交锋,具有重要的指引意义。它代表了当前AI领域两种截然不同但又并非完全对立的思想:一种强调延续现有大模型范式并快速迭代,另一种主张突破现有范式构建更接近人类认知机制的新模型。这种讨论促使业界更加清醒地认识到:
· 认清短板,明确方向:再强大的语言模型也有其内在短板,需要通过新思路来弥补。正如杨立昆所言,真正的智能可能需要“理解”这个世界,而不仅仅是阅读世界。这为研究人员指明了下一步努力方向——如何赋予AI持久记忆、常识物理和自主规划能力。
· 平衡渐进改进与颠覆创新:黄仁勋的乐观让人们看到现有技术潜力尚远未耗尽,通过工程上的不断改良,AI能力仍在快速爬升。而杨立昆的警示则提醒大家需要前瞻性创新,以免在错误的路径上浪费过多资源。未来AI的发展或许既要汲取当下大模型的长处,又要大胆尝试全新的架构,实现“双轨并进”。
编者按:本文来自埃格林医药,作者李长青博士,动脉网获权转载。
· 推动多学科融合:辩论涉及的具身智能、世界模型等概念,促使AI领域更多借鉴认知科学、神经科学和机器人学的成果。这将推动学术界和工业界更加重视跨领域合作,例如加强对模拟环境、强化学习以及大模型结合的研究投入,为实现更高级AI开辟道路。
· 理性看待AGI:这场讨论也让大众更加理性地看待AGI。既不能盲信AGI即将不请自来,也不应视之为不可触及的幻影。取而代之的是务实地定义我们期望的“高级机器智能”目标,并评估实现路径的可行性和风险。
杨立昆偏爱用“先进机器智能”来强调这一点:与其纠结于何谓“通用”,不如着眼于具体能力的提升。当业界领袖公开讨论AGI的现实性时,监管者和公众也能据此更好地参与关于AI未来的对话。
总而言之,2025年GTC大会上的这场辩论为AI未来的发展方向提供了宝贵的洞见。黄仁勋的愿景鼓舞人心,展示了沿现有道路演进的光明前景;杨立昆的批判发人深省,为行业敲响警钟、引领新的探索。两种观点的碰撞并非你输我赢的零和游戏,反而共同勾勒出一个更加完整的图景:即真正的AI突破可能需要既有量的积累,也有质的飞跃。对于AI研究者和从业者而言,这场辩论的意义在于启发我们既要最大化利用当前技术的优势,又要勇于突破思维定势,开创通往更高智能的全新道路。这无疑将对未来数年的AI发展战略产生深远影响,引领我们更稳健地迈向人机智能的新纪元。