关于举办 “构建企业级可控自进化大模型智能体:LLM RL 强化学习内核技术、七大关键痛点解决方案与项目落地实战” 线上高级研修讲座的通知
各有关单位:
当前,大模型智能体正迈入以 “推理能力” 为核心竞争力的新纪元。OpenAI CEO Sam Altman 多次公开表示,将大模型打造为高效推理引擎才是技术演进的正确方向。尤其在基于数学题解、代码生成、逻辑推演的复杂任务中,如何持续提升大模型解决难题的 “思考、反思、自优化” 能力,从而确保智能体产品可控、灵活且具备持续进化能力,已成为 Agentic AI 成功的关键。强化学习(Reinforcement Learning)正是推动这一跃迁的核心引擎。谷歌首席科学家 Jeff Dean 曾指出,通过强化学习实现经验驱动的能力进化,是提升 LLM 智能体能力的清晰路径。从 GPT 系列采用的 RLHF+PPO 策略对齐,到 DeepSeek 提出的可编程强化学习(GRPO)与自监督奖励调度,再到 Google Gemini 实践的多 Agent 协同演化和 self - play 优化,强化学习已成为提升推理智能体泛化能力、自适应性与演化能力的核心驱动力。
在此背景下,为帮助各单位成功落地大模型智能体技术,构建可控、可靠、可规模化的 Agentic AI 系统,CIIT 项目办公室联合北京智益方信息科技有限公司、北京智联新一代信息技术有限公司将于 2025 年 7 月 25 日至 27 日举办 “构建企业级可控自进化大模型智能体:LLM RL 强化学习内核技术、七大关键痛点解决方案与项目落地实战” 线上高级实训讲座。本讲座课程以强化学习技术体系为核心,系统解析 RLHF→GRPO - DAPO→TTRL→AZR 五阶段闭环推理系统的工程实现路径,涵盖算法设计、训练机制与部署落地的全链路技术方案。特邀曾任硅谷顶级 AI 研究机构 Chief Technology Officer、Chief AI Officer、Chief Data Scientist 等职位的专家授课,通过 “实战驱动 + 源码解析 + 项目落地” 三位一体教学模式,深度赋能学员掌握强化学习核心技术,全面提升模型 “能思考、能反馈、能自进化” 的核心能力。课程以五大强化学习核心技术为基础:RLHF(基于人类反馈的强化学习),从人类偏好数据出发,训练奖励模型并结合 PPO 优化策略,构建模型对齐能力与基础推理质量控制机制;GRPO(群体相对策略优化),以 Python 定义任务反馈逻辑,替代传统奖励模型,尤其适用于数学、代码等结构化任务;DAPO(解裁剪与动态采样策略优化),在 GRPO 基础上引入 Token 级策略调度、边界控制及动态采样奖励机制,提升策略泛化性与训练稳定性;TTRL(测试时强化学习),无需人工标签与奖励模型,通过无监督奖励构造与多轮生成反馈,直接在测试阶段优化推理行为;AZR(绝对零推理者),构建自演化的推理智能体,集成自博弈、多数投票、语言模型奖励生成等机制,形成闭环强化进化系统。通过 21 大模块的源码驱动教学,逐层解析强化学习算法组件与实现细节,覆盖 RLHF+GRPO+DAPO+TTRL+AZR 的完整训练路径。课程分三阶段推进:第一阶段聚焦推理型 LLM 核心机制与强化学习基础,掌握策略梯度方法(RLHF/PP0/GRPO)及思维链(CoT)推理引导技术;第二阶段深入 DeepSeek - R1/Open - R1 源码,构建 Token 级奖励链路与训练评估流程;第三阶段实战演练 AZR 自演化系统,实现多 Agent 自博弈与自生成奖励的闭环推理架构。此外,课程还包含大模型部署进阶内容,涵盖多 LoRA 融合、推理加速优化及 vLLM 部署等工程实践,助力企业构建生产级推理智能体系统。
通过本课程,学员将系统掌握前沿推理型大模型构建范式,显著提升模型推理精度、自适应能力及无监督进化潜能,抢占智能时代 Agentic AI 技术制高点。
敬请各相关单位积极参加!
联系人:吴
联系方式:13817964035(微信同号)
中国通信工业协会
通信和信息技术创新人才培养工程项目办公室
2025 年 6 月 11 日
《构建企业级可控自进化大模型智能体:LLM RL 强化学习内核技术、七大关键痛点解决方案与项目落地实战》高级实训讲座简章
一、实训时间和方式
时间:2025 年 7 月 25 日至 7 月 27 日(周五、周六、周日共 3 天)
方式:腾讯线上直播
二、实训对象
涉及人工智能及大模型技术全产业链各厂商、大模型技术提供商、企业级 AI 解决方案商、云计算与大数据平台商、分布式计算技术服务商、智能体框架开发商、电信与广电运营商、云厂商、互联网公司、IT 公司、智能交互技术公司、科研院所、AI 实验室与高等院校,央国企各级 IT 主管、部门负责人及 CIO、大模型智能体研发专家、人工智能技术专家、AI 研发工程师、AI 解决方案工程师、数据科学家、数据工程师、机器学习工程师、大模型工程师、算法工程师、信息系统研发与运维工程师、分布式系统架构师、分布式系统研发工程师 / DevOps 工程师、智能体通信协议设计师、AGI 系统设计者、大模型推理引擎开发者、LLM 企业级应用开发者、LLM 微调 / 训练工程师、多智能体系统开发工程师、AI 平台系统架构师、推理型 LLM 架构设计负责人,来自金融、制造、零售、医疗、教育、能源、交通、电商等行业的 AI 负责人,负责企业内部 AI 战略决策、研发、部署及维护的专业技术人员、架构师、产品经理、项目经理等,包括从事 Agentic AI 系统在多模态推理、自动化运维、智慧客服、智能制造、个性化推荐、场景决策支持等方向的产业级落地实践、强化推理优化与闭环演化机制的技术厂商与研发团队、对 Agentic AI 系统构建有实际需求的开发者、组织、创业者及所有对智能体有深入兴趣或需求的单位和个人。
三、实训大纲
四、实训收益
五、实训详细内容
模块
具体内容
模块一:构建可控大模型智能体 —— RL 强化学习驱动的 Reasoning LLM 推理优化闭环 | 推理型大模型(Reasoning LLM)的定义、结构化推理步骤、思维链提示技术、推理能力提升技术路径、推理与训练阶段算力对比等多方面内容,还涉及多种优化技术及评估指标 |
模块二:LLM 微调技术 —— 多任务适配 ×LoRA×QLoRA 算法及源码级 PEFT 工程实现 | 任务类型分解、多任务训练问题及解决方法、LoRA 和 QLoRA 算法核心机制、源码实现细节以及多 LoRA 路径加载和相关训练策略等 |
模块三:解构人类偏好对齐闭环 —— RLHF× 策略优化 × 奖励建模的工程级全流程实战 | RLHF 基本流程、人类偏好数据采集、SFT 阶段目标、奖励模型相关内容、强化学习阶段核心思想及优化目标函数等,还探讨了 RLHF 面临的问题及解决方案 |
模块四:构建稳定可控的 RLHF 训练闭环 —— 基于 TRL 的 PPO 在 LLM 中的策略优化实战 | PPO 中各模型的来源与作用、训练流程、关键组件及核心机制,以及常见训练问题及应对策略等 |
模块五:RLHF token - level 到 sequence - level —— 从 Policy Gradient 到 PPO×DPO 实现 | 策略梯度理论基础、PPO 和 DPO 的策略优化方式及两者对比,以及常见组合策略等 |
模块六:可编程 RL —— 基于 GRPO 的 RL Fine - Tuning 驱动下一代推理调优范式技术 | GRPO 与其他方法的对比、核心理念、总 loss 分解、可编程 reward function 相关内容、训练和评估相关要点以及工程化部署集成等 |
模块七:DeepSeek R1 源码详解:数据生成的工程实现与自动化任务结构生成系统 | 未详细列出具体子项,推测围绕 DeepSeek R1 源码在数据生成和任务结构生成方面的工程实现展开讲解 |
模块八:源码详解 DeepSeek - R1 的 SFT + GRPO 多阶段强化训练及 Reward Engine | 未详细列出具体子项,应聚焦于 DeepSeek - R1 的 SFT 与 GRPO 多阶段强化训练过程及奖励引擎的源码解析 |
模块九:推理服务与系统评估全流程 ——Evaluation×vLLM×Slurm×Make 实战 | 评估入口、任务注册、模型推理、Slurm 执行脚本、输出评估格式、配置文件使用等多方面的实战内容,还包括模型部署和服务相关要点 |
模块十:GRPO 进阶 ——Clip - Higher 策略、动态样本和 Token - Level 策略 loss 结构 | DAPO 对 GRPO 的改进、相关策略和结构的详细解析、实验指标和对比以及源码实现等 |
模块十一:源码详解 LLM DAPO Token - Level 策略梯度 × 动态采样 × 推理稳定性的实现 | DAPO 的整体架构与策略优化路径、关键策略和技术的源码实现,以及训练稳定性指标设计等 |
模块十二:解锁 LLM Test - Time RL 强化学习奖励机制重塑 LLM 的推理对齐与推理自演化 | TTRL 的定义、无监督奖励机制、多次推理机制、奖励信号估计方法等多方面内容,还涉及与传统 RLHF 比较及应用效果验证等 |
模块十三:基于强化学习的零监督奖励 × 自我演化闭环 × 推理能力自发现的智能体技术 | Absolute Zero Reasoning 定义、相关机制和技术、自我演化闭环系统以及无监督推理进化相关内容等 |
模块十四:Absolute Zero RL 多策略自博弈系统源码精解 —— 多策略自博弈与行为优化 | Zero - shot Prompting 与 Self - refinement 策略、环境交互接口、Arena 类、自我博弈控制流以及多种策略实现和动态加载策略的工厂模式等 |
模块十五:RL 多策略评分 × 多层奖励 × 多模判断的复杂推理评估引擎源码实战全解析 | 奖励模型设计与调用接口、多类型奖励、多步打分策略、支持的评估模式、兼容的 Judge 模型等多方面内容,还包括奖励相关的多种机制和操作 |
模块十六:精控训练闭环的 Token - Level PPO 策略优化全解:从 Loss 构造到 Entropy | Token 级 reward 分配、PPO loss 构成、支持的多种机制和策略,以及训练过程中的各种设置和记录等 |
模块十七:自我演化 ×Curriculum Learning 策略 —— 多任务构建、自举、难度调度源码 | 任务生成、难度自定义、任务类型支持、自举策略、任务切换调度周期等多方面内容,还涉及任务池管理和 curriculum 更新相关要点 |
模块十八:多 Agent 推理协作系统 ——Reflection×Backtracking×Evaluation 系统源码 | 多 Agent 角色职责、多轮对话机制、角色行为模式、奖励计算、反思和回溯机制等多方面内容,还包括评估和日志记录相关要点 |
模块十九:Absolute Zero Reasoner 运行框架,训练脚本与自形成推理进程全链路解析 | 配置文件作用、运行脚本类型、self - play 训练脚本、策略模块输入等多方面内容,还涉及 seeding 脚本、testing 模块以及演练相关要点 |
模块二十:RL Absolute Zero Reasoner 端到端测试流程、推理验证与策略评估体系解析 | 支持的测试功能、测试框架、测试样例、结果输出和评估指标等多方面内容,还包括多模型比较评估和测试结果可视化相关要点 |
模块二十一:大模型部署系统进阶:多 LoRA 融合 × 推理优化 ×vLLM 部署全链路工程实战 | 部署场景分类、LoRA 微调后模型部署策略、部署环境配置、推理指标定义等多方面内容,还包括 LLM 文本生成结构、配置与调度要点以及 vLLM 相关技术解析 |
六、特邀专家
王老师:现任美国一家大模型分布式 Agentic AI 公司的 Co - Founder 和 CTO、杰出 AI 工程师、Chief Data Scientist 及首席机器学习工程师,拥有丰富的大语言模型(LLM)和智能 Agent 产品落地经验。专注于以 Reinforcement Learning 驱动的对话式 AI(Conversational AI)、生成式 AI(Generative AI)、大语言模型(LLM)的微调与对齐(Fine - tuning/Alignment)、LLM 幻觉检测与控制技术,以及 LLM Computer Use 等领域。在硅谷任职期间,王老师曾领导多个企业级大模型与 Agent 产品的架构设计和开发,不仅满足复杂业务需求,还有效最小化 LLM 的幻觉(Hallucinations)和偏见(Biases)风险,助力企业构建高效可靠的生成式 AI 解决方案。
联系方式:13817964035(微信同号)