强化学习(Reinforcement Learning,RL)是机器学习的三大范式之一(另外两个是监督学习和无监督学习)。它让AI通过在环境中试错来学习,就像训练宠物一样——做对了给奖励,做错了没有奖励。
核心概念
- Agent(智能体):做决策的AI
- Environment(环境):Agent所处的外部世界
- State(状态):环境当前的情况
- Action(动作):Agent可以做的事情
- Reward(奖励):环境对动作的反馈(好/坏)
- Policy(策略):从状态到动作的映射——Agent的"行为准则"
RLHF(人类反馈强化学习)
这是让ChatGPT等AI助手"好用"的关键技术。流程如下: 1. 人类标注员对AI的多个回答进行偏好排序 2. 训练一个"奖励模型"来预测人类偏好 3. 用强化学习优化AI,使其输出更符合人类偏好
RLHF的作用
- 让模型更有帮助(不说废话)
- 更安全(拒绝有害请求)
- 更诚实(承认不确定)
- 更符合指令(遵循格式要求)
2026年进展
- DPO(Direct Preference Optimization):直接优化偏好,无需训练奖励模型,更简单高效
- RLVR(可验证奖励强化学习):在数学、编程等可自动验证的任务上效果极佳
- DeepSeek-R1用纯RL(无监督微调)就训练出了强大的推理能力