首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

机器之心

来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。

1800

LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?

机器之心

受先前基于一致性自我提升研究的启发,研究团队引入了一种简单而有效的自我训练强化学习方法论,称为自我奖励训练(Self-Rewarded Training,SRT...

900

从打分器到思考者:RM-R1用推理重塑模型价值判断

机器之心

这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职责;但现有模型往往只给出...

1800

One RL to See Them All?一个强化学习统一视觉-语言任务!

机器之心

二、ViT 的对比预训练可能会限制其在强化学习中的适用性,因为它会鼓励使用静态的实例级特征,而不是强化学习任务所需的动态因果表示。为了缓解这种不匹配,可以在强化...

1500

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

新智元

【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(...

2900

每周AI论文速递(2506202-250606)

叶子的技术碎碎念

我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈...

3310

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

机器之心

本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模型、推荐系统。

4010

2025年,大模型LLM还有哪些可研究的方向?

Ai学习的老章

方法:论文提出了一种新的在线强化学习框架StepGRPO,通过引入逐步推理奖励机制,帮助多模态大模型提升推理能力。它利用软关键步骤匹配和逻辑评估为推理过程提供密...

10210

DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习

AI浩

由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Code...

6710

类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型

机器之心

为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再只奖励结果...

4000

【愚公系列】《Manus极简入门》007-三分钟用Manus打造一个智能体

愚公搬代码

在人工智能与虚拟交互深度融合的当下,智能体正以前所未有的速度重塑着各个领域的运作模式。从智能客服的精准答疑,到工业场景中自动化作业的精准执行,智能体已成为推动产...

14910

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

机器之心

别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能教育的帖子。该系...

8810

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

机器之心

为支持该方法,研究团队提出了一个创新性的强化学习框架 —— 基于强化学习的视觉规划(Visual Planning via Reinforcement Lear...

13210

首次,AI下棋不再是「黑盒」!

新智元

在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练。

11610

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

新智元

【新智元导读】100多天前,DeepSeek-R1凭借低训练成本,名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有...

15410

矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%

机器之心

这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。

11810

【AI前沿】深度学习基础:深度强化学习

屿小夏

深度强化学习(DRL)通过结合深度学习和强化学习的优势,在复杂环境中实现了自主学习和决策,取得了显著的成果。本文详细介绍了强化学习的基本概念、深度Q网络(DQN...

30510

一场文心大模型的「AI马拉松」

机器之心

长期追踪百度技术发展的朋友可能还记得,早在 2023 年 10 月,百度就发布过基于「系统 2」的慢思考技术,X1 和 X1 Turbo 便是以此为基础进化而来...

10210

《解密奖励函数:引导智能体走向最优策略》

程序员阿伟

在强化学习领域,奖励函数是核心要素,它决定了智能体如何学习和决策。设计一个恰当的奖励函数,能让智能体在复杂环境中不断探索、优化,最终实现最优策略。

17810

一本书读懂DeepSeek核心技术(文末送书)

老_张

DeepSeek-R1-Zero 的核心创新之一是采用纯强化学习(Reinforcement Learning,RL)进行训练。这一方法颠覆了传统的依赖有监督微...

19710
领券