查看: 6|回复: 1

英伟达开源 Polar 框架:让 AI 编码智能体实现强化学习“零门槛”进化

18

主题

0

回帖

54

积分

注册会员

积分
54
发表于 前天 15:53 | 显示全部楼层 |阅读模式
AI总结
AI总结中
5月28日,英伟达(NVIDIA)研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于,它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能体(Agent)在不修改任何原生代码的情况下,无缝接入 GRPO(广义相对策略优化)强化学习训练。



一、行业痛点:智能体强化学习的“围墙”

随着代码智能体从简单的单步任务迈向复杂长流程任务(如仓库级修改、OS 交互),开发者愈发依赖成熟的执行框架(Harness)。然而,将这些复杂的框架接入传统的强化学习基础设施面临巨大的壁垒:


  • 接入成本高: 传统方法要求将代码逻辑强行重写为 env.init()、env.step() 等标准环境接口,极其繁琐。
  • 信息丢失: 在重构过程中,往往会丢失关键的工具调用细节、多轮对话上下文或子智能体协作逻辑,导致模型无法获取高质量的训练信号。




二、核心解法:将“边界”作为训练入口

Polar 不要求重写执行框架,而是将“模型 API 边界”作为训练的切入点


  • 黑盒化处理: Polar 在代码执行框架与模型推理服务器之间设置了一个透明代理(Gateway)。无论智能体使用的是 Anthropic、OpenAI 还是 Google 的 API 接口,Polar 都能无缝拦截、转发请求。
  • 轨迹重构: 在转发过程中,Polar 实时记录提示词、采样 Token、对数概率等关键信息,并将其重建成强化学习训练器所需的“轨迹”数据。
  • 高效异步架构: 系统通过 Rollout Server 负责调度与持久化,Gateway Node 处理生命周期与资源回收。通过预热缓冲池(READY buffer)与并行任务处理,有效消除了长尾任务对 GPU 的训练阻塞。


三、性能飞跃:让编码智能体脱胎换骨

实验数据显示,Polar 配合 GRPO 训练带来了显著的性能增益:


  • SWE-Bench Verified 基准测试: 基于同一个 Qwen3.5-4B 底座模型,在不同代码框架下表现惊人:


    • Codex 框架: pass@1分数从3.8% 飙升至26.4%(涨幅高达 594.74%)。
    • Claude Code 框架: 从29.8% 提升至34.6%。
    • Pi 框架: 从34.2% 提升至40.4%。

  • 极致效率: 引入 prefix_merging 策略后,相比传统的 per_request 模式,训练墙钟时间缩短约 5.39倍,GPU 利用率从20.4% 跃升至 87.7%


行业点评

英伟达 Polar 的开源,实质上是为“AI 智能体”领域铺设了一条通往强化学习训练的“高速公路”。它不仅让研究人员能够利用海量开源代码框架进行高效训练,更通过系统层面的优化降低了 GPU 算力门槛。

随着 Polar 的普及,开发者无需再为“如何让模型适配训练框架”而苦恼,未来 AI 编码智能体的进化路径将变得更加标准化与高效。这标志着 AI 智能体的训练正在从实验室的手动调优,向规模化、系统化的工程化生产迈进。

论文地址:https://arxiv.org/pdf/2605.24220

Source URL: https://news.aibase.com/zh/news/28430

0

主题

-2

回帖

-4

积分

限制会员

积分
-4
发表于 昨天 02:32 来自手机 | 显示全部楼层

摸鱼侠 发表于 2026-5-28 15:53
英伟达开源 Polar 框架:让 AI 编码智能体实现强化学习“零门槛”进化5月28日,英伟达(NVIDIA)研究团队正 ...
英伟达开源 Polar 框架是 AI 编码智能体领域的重大突破,解决痛点,性能飞跃,铺就强化学习“高速路”,推动行业高效发展!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|BOSS中文网 Stonespider

相关侵权、举报、投诉及建议等,请发 E-mail:admin#boss.im

Powered by Discuz! X5.1 Licensed © 2001-2026 Discuz! Team.|浙ICP备2022024777号-14

返回顶部