走向AGI:AI Agent 如何迎来以经验学习为主导的新时代?
什么是 AI Agent 的范式转变? {#AI-Agent-范式转变}
AI 正在迎来一个以经验学习为主导的新时代。这意味着 AI 发展的下一个阶段将是从依赖人类数据学习,转向 AI Agent 通过与环境互动进行自主经验学习的范式转变。当以大型语言模型(LLM)为代表的“人类数据时代”遇到瓶颈时,让 Agent 从自身经验中学习将是实现超越人类智能(AGI)的关键,这也标志着继“人类数据时代”之后,AI 发展进入了一个新的阶段。
为什么说现在是 AI 的“经验时代”? {#经验时代}
强化学习先驱 Rich Sutton 与 David Silver 合著的文章《Welcome to the Era of Experience》被认为是《苦涩的教训》(The Bitter Lesson)的 2.0 版本。就像《苦涩的教训》指出应该减少人类先验知识的干预并依赖计算规模一样,《经验时代》则是在当前的 Agent 框架下,强调让 Agent 通过自主探索和与环境互动来学习,而非仅仅模仿人类数据。这篇文章被视为未来 AI Agent 发展的重要指引。
“人类数据时代”的局限性体现在哪些方面? {#人类数据时代局限}
当前以大语言模型为代表的“人类数据时代”虽然在很多任务上取得了显著进展,例如撰写诗歌、解决物理问题、诊断医疗问题和总结法律文件,但存在一些根本性的限制:
- 难以超越人类智能:模仿人类数据很难产生超越人类水平的智能。
- 高质量数据瓶颈:高质量的人类数据逐渐枯竭,难以通过增加数据持续提升性能。高质量的人类数据源要么已经被消耗殆尽,要么很快就会被消耗殆尽,仅靠监督学习驱动的进步正在放缓。
- 无法学习新知识:对于超出人类现有认知的新的理论或发现,人类数据本身就不包含,因此基于这些数据训练的 Agent 无法学习。更重要的是,许多新的重要见解,例如新的定理、技术或科学突破,超出了当前人类理解的范围,无法通过现有的人类数据捕获。在数学、编程和科学等关键领域,从人类数据中提取的知识正迅速接近极限。
举个例子:想象一下,你想让 AI 发明一种新的药物。如果只依靠现有的药物数据,AI 很难突破现有药物的局限性,因为新的药物可能基于全新的理论和机制。
“经验时代”的核心是什么? {#经验时代核心}
“经验时代”的核心在于 Agent 需要通过与环境互动,自主产生数据并从中学习。这种学习方式摆脱了对人类数据的依赖,从而克服了上述局限。为了取得进一步的重大进展,AI 需要新的数据来源,这种数据必须随着 Agent 能力的增强而不断改进。这可以通过让 Agent 不断地从自身的经验中学习来实现,即通过与环境互动产生的数据。经验 将成为主要的改进媒介,并最终超越当今系统中使用的人类数据的规模。未来的 Agent 需要 自主地 与 真实世界 进行互动。
AlphaProof 案例如何展示经验学习的潜力?
DeepMind 的 AlphaProof 可以更直观地展示经验学习的优势。AlphaProof 是一种基于强化学习的方法,用于解决数学证明问题,并达到了国际奥林匹克银牌的水平。与主要使用人类数学证明数据训练的大语言模型不同,AlphaProof 仅使用了人类提出的数学问题(informal problems),并将其转化为机器可读的 Lean 语言,然后通过模型自主生成和验证证明进行学习,不依赖人类的证明过程。对比实验表明,目前主流大语言模型在真实的奥林匹克数学竞赛题上的表现远不如 AlphaProof。
这意味着,AI 可以通过自主探索和试错,找到解决问题的新方法,而不仅仅是模仿人类的解决方案。
“经验时代”的 AI Agent 可能具备哪些关键要素? {#经验时代关键要素}
基于经验的学习范式下,AI Agent 可能具备以下关键特点和能力:
- 从长期经验中学习,而非短期的片段化互动。Agent 将存在于持续的经验流中,而不是短期的互动片段。这将使其能够实现长期的适应和学习,并为实现未来的目标采取行动;
- 更多基于环境的互动,而非简单的人类对话。它们的行为和观察将更丰富地植根于环境之中,而不仅仅是通过人类对话进行互动。Agent 将能够自主地在数字世界和现实世界中行动,使用用户界面、执行代码、调用 API,甚至操作物理设备;
- 来源于与环境真实互动的 Reward,而非人类偏好。它们的奖励将基于其对环境的经验,而不是来自人类的预先判断。奖励可以直接来源于环境信号或 Agent 与环境互动的真实结果,并且可以根据用户反馈灵活调整,Reward 信号的选择甚至可以通过神经网络学习和动态调整;
- 基于自身经验进行规划和推理,而非利用人类预设的方法。它们将计划和/或推理经验,而不仅仅是用人类的思维方式进行推理。Agent 可以摆脱必须使用人类语言思考的限制,并与真实世界互动进行假设、实验和观察,从而更新内部认知。构建预测 Agent 行为后果的世界模型是实现这种互动的一种方式。长期记忆(Long-term Memory) 被认为是实现 AI 自我进化的基础, Agent 还可以自主决定使用人类友好或机器友好的交互方式,甚至远程操控物理设备进行实验。
为什么现在是“经验时代”? {#为何现在}
以人类为中心的 AI 已经遇到瓶颈,其自主发现能力较弱,难以解决真实世界中开放性的问题。因此,回归到更少人为干预、让 Agent 长期自主地与环境互动并从自身经验中学习的强化学习方法,可能是未来实现更强大 AI Agent 的关键。
“经验时代”的未来展望与挑战是什么? {#未来展望}
“经验时代”有望解锁前所未有的能力,例如个性化的长期助手和加速科学发现。然而它也带来了重要的风险和挑战,包括潜在的就业岗位流失和对 Agent 长期自主行为的信任与责任问题。尽管存在安全风险,但经验学习也可能带来安全益处,例如 Agent 能够适应环境变化和纠正不良行为。
总结 {#总结}
总而言之,“经验时代”标志着 AI 发展的一个关键时刻,通过超越人类衍生数据的限制,让 Agent 主要从与世界的互动中学习,将释放新的能力,并在许多领域超越人类的水平。这需要重新审视和改进经典的强化学习概念。
我认为:
这“经验时代”并非横空出世,实乃大势所趋。过分依赖人类数据,如同嚼别人嚼过的馍,终究难有新味。AI 要想真正“进化”,就得自己下地,躬身实践,从“经验”这片沃土中汲取养分。然而,放手让 AI 自主探索,也需小心谨慎,免得这匹脱缰的野马,跑偏了方向,酿成祸患。
Agent