强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。
受先前基于一致性自我提升研究的启发,研究团队引入了一种简单而有效的自我训练强化学习方法论,称为自我奖励训练(Self-Rewarded Training,SRT...
这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职责;但现有模型往往只给出...
二、ViT 的对比预训练可能会限制其在强化学习中的适用性,因为它会鼓励使用静态的实例级特征,而不是强化学习任务所需的动态因果表示。为了缓解这种不匹配,可以在强化...
【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(...
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈...
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模型、推荐系统。
方法:论文提出了一种新的在线强化学习框架StepGRPO,通过引入逐步推理奖励机制,帮助多模态大模型提升推理能力。它利用软关键步骤匹配和逻辑评估为推理过程提供密...
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Code...
为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再只奖励结果...
在人工智能与虚拟交互深度融合的当下,智能体正以前所未有的速度重塑着各个领域的运作模式。从智能客服的精准答疑,到工业场景中自动化作业的精准执行,智能体已成为推动产...
别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能教育的帖子。该系...
为支持该方法,研究团队提出了一个创新性的强化学习框架 —— 基于强化学习的视觉规划(Visual Planning via Reinforcement Lear...
在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练。
【新智元导读】100多天前,DeepSeek-R1凭借低训练成本,名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有...
这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。
深度强化学习(DRL)通过结合深度学习和强化学习的优势,在复杂环境中实现了自主学习和决策,取得了显著的成果。本文详细介绍了强化学习的基本概念、深度Q网络(DQN...
长期追踪百度技术发展的朋友可能还记得,早在 2023 年 10 月,百度就发布过基于「系统 2」的慢思考技术,X1 和 X1 Turbo 便是以此为基础进化而来...
在强化学习领域,奖励函数是核心要素,它决定了智能体如何学习和决策。设计一个恰当的奖励函数,能让智能体在复杂环境中不断探索、优化,最终实现最优策略。
DeepSeek-R1-Zero 的核心创新之一是采用纯强化学习(Reinforcement Learning,RL)进行训练。这一方法颠覆了传统的依赖有监督微...