强化学习 | 学AI很简单-易之网

AI合作新突破：多智能体上下文学习引领未来合作变革

AI合作与博弈策略：从囚徒困境到多智能体协作的最新突破 **何为“囚徒困境”以及其在AI中的体现？** **“囚徒困境”**是一个经典的博弈论模型，描述两个AI（或人类）在选择合作或背叛时的战略互动...

AI前沿 # AI # AI合作 # 上下文学习

4个月前

6,5720

万亿参数模型：LoRA强化学习，AI技术革新，GPU资源降至10%！

Mind Lab 团队的 AI 技术革新：万亿参数模型上的 LoRA 强化学习训练什么是 Mind Lab 团队的突破性成果？ Mind Lab 团队（成员来自 OpenAI、DeepMind、Se...

AI前沿 # AI # DeepMind # GPU

7个月前

47,8610

DeepSeek-R1：强化学习突破，首个Nature同行评审大模型，推理技术揭秘

DeepSeek-R1：首个通过Nature同行评审的大语言模型，推理能力背后的技术揭秘 ## 1. 为什么DeepSeek-R1能够登上Nature封面？ DeepSeek-R1的研究成果，即《De...

AI前沿 # AI # deepseek # Nature

9个月前

28,9950

Kimi K2模型：代码能力突破，开源模型新SOTA，加速通用Agent落地

Kimi K2 模型发布：更强代码能力与通用 Agent 任务什么是 Kimi K2 模型？#KimiK2,#大模型,#开源模型 Kimi K2 是一款由 Moonshot AI 推出的新型基础模型...

AI前沿 # 3D场景 # Agent # AgenticToolUse

12个月前

40,3890

Kimi深度研究：RL赋能AI Agent，信息洞察新方式？

Kimi深度研究：强化学习赋能的AI Agent，洞察信息新方式？ 1. 什么是Kimi深度研究？ 1.1 深度研究的起源与发展深度研究并非简单的问答，而是一个完整的调查过程。最早由OpenAI在...

AI前沿 # Agent # AI # keywords

1年前

26,4350

DeepResearcher：强化学习加持，真实网络环境训练，AI研究模型新突破

好的，收到你的指令。我将以专业的文案编辑助手身份，对你提供的内容进行整理、润色和补充，使其成为一篇逻辑清晰、结构合理、内容丰富的文章。以下是根据你的要求生成的 Markdown 代码块格式的回复： D...

AI前言 # AI # AI研究模型 # DeepResearcher

1年前

23,5030

AI Agent破局：经验学习崛起，迎接AGI新时代！

走向AGI：AI Agent 如何迎来以经验学习为主导的新时代？什么是 AI Agent 的范式转变？ {#AI-Agent-范式转变} AI 正在迎来一个以经验学习为主导的新时代。这意味着 AI ...

AI前言 # Agent # AGI # AI

1年前

23,3370

人形机器人半马：AI下半场开启，实践出真知，中国制造崛起

为什么说人形机器人半马开启了AI的下半场？什么是人形机器人半程马拉松？全球首场人形机器人半程马拉松于4月19日在北京亦庄开跑，吸引了20支机器人赛队和12000名人类选手。这场约21公里的赛事，对...

AI前言 # AI # 中国制造 # 人工智能

1年前

19,8610

Anthropic CEO 透露：未来3-6个月将推出GPT-5级别新模型，强化学习引领AI推理

Anthropic CEO Dario 透露未来 3-6 个月将推出全新模型 Anthropic 的新模型将如何区别于现有的推理模型？在最近的一次 WSJ 采访中，Anthropic CEO Dar...

AI前沿 # Anthropic # 强化学习 # 推理模型

1年前

35,9110

DeepSeek-R1：一家非美公司的开源壮举，挑战AI发展格局

为什么说DeepSeek-R1的出现“毫无意义”？我们正处在一个有趣的时代，一家非美国公司 DeepSeek 正在以一种出人意料的方式，践行着 OpenAI 最初的使命：推动真正开放、前沿的人工智能...

AI前沿 # AlphaZero # deepseek # GRPO

1年前

58,2160