🎮

Reinforcement Learning (强化学习)

Reinforcement Learning

技术原理

AI训练算法

强化学习（Reinforcement Learning，RL）是机器学习的三大范式之一（另外两个是监督学习和无监督学习）。它让AI通过在环境中试错来学习，就像训练宠物一样——做对了给奖励，做错了没有奖励。

核心概念

Agent（智能体）：做决策的AI
Environment（环境）：Agent所处的外部世界
State（状态）：环境当前的情况
Action（动作）：Agent可以做的事情
Reward（奖励）：环境对动作的反馈（好/坏）
Policy（策略）：从状态到动作的映射——Agent的"行为准则"

RLHF（人类反馈强化学习）

这是让ChatGPT等AI助手"好用"的关键技术。流程如下： 1. 人类标注员对AI的多个回答进行偏好排序 2. 训练一个"奖励模型"来预测人类偏好 3. 用强化学习优化AI，使其输出更符合人类偏好

RLHF的作用

让模型更有帮助（不说废话）
更安全（拒绝有害请求）
更诚实（承认不确定）
更符合指令（遵循格式要求）

2026年进展

DPO（Direct Preference Optimization）：直接优化偏好，无需训练奖励模型，更简单高效
RLVR（可验证奖励强化学习）：在数学、编程等可自动验证的任务上效果极佳
DeepSeek-R1用纯RL（无监督微调）就训练出了强大的推理能力