强化学习(RL)
预训练和指令微调(SFT)让模型学会了知识并掌握了对话格式,但这还不够。模型可能会给出极其啰嗦的回答,或者一本正经地胡说八道(幻觉)。强化学习(RL),特别是人类反馈强化学习(RLHF),就是用来解决这些问题的“终极对齐手段”。
我们可以把这个过程拆解为一个非常有趣的“四步闭环”:
1. 模型生成(学生答卷)
首先,给大模型输入一个提示词(Prompt),比如“如何评价某部电影”。模型会根据它的知识,生成多个不同版本、不同风格的回答。
2. 人类排序(老师打分)
接下来,人类评估员(通常是专业的标注员)会像老师批改作文一样,对这几个回答进行对比和排序。比如:A回答比B回答好,B回答比C回答好。这一步非常关键,它把人类主观的“好坏标准”转化成了客观的“偏好数据”。
3. 奖励模型(培养“评委”)
大模型有成百上千亿个参数,让人类去给每一次生成都打分是不现实的。所以,我们需要利用刚才人类排好的数据,专门训练一个**“奖励模型(Reward Model)”**。这个模型就像一个被人类教导过的“AI评委”,它学会了人类的偏好,以后只要看到任何回答,它就能自动给出一个分数(奖励信号)。
4. 强化学习优化(疯狂刷题)
这是最硬核的一步。大模型再次开始生成回答,但这次它的目标变了:它要努力生成那些能让“AI评委”打高分的回答。
在这个过程中,模型会不断进行“试错-反馈-改进”的循环:
- 如果生成了评委喜欢的内容,就获得正反馈(加分);
- 如果生成了啰嗦、有害或错误的内容,就获得负反馈(扣分)。
通过一种叫做PPO(近端策略优化)的强化学习算法,模型会不断微调自己的参数,最大化自己获得的奖励。
强化学习带来的三大“超能力”
引入强化学习后,大模型会发生质的飞跃:
- 更懂人类意图:它不再仅仅是机械地接话,而是真正理解了人类想要什么样的帮助。
- 大幅减少“幻觉”:通过定制奖励函数,模型学会了“知之为知之,不知为不知”。如果模型不知道答案,强行瞎编会被扣大分,而坦诚说不知道反而能拿中等分数,这就逼迫模型变得更诚实。
- 动态进化:传统的训练是静态的,而强化学习让模型具备了在未知环境中自主探索、持续优化的能力。
前沿进化:从 RLHF 到更聪明的算法
强化学习领域也在飞速进化。传统的 RLHF 需要同时训练四个模型,非常消耗算力。现在的最新技术(比如 DeepSeek 采用的GRPO算法)已经简化了流程,不再需要单独训练复杂的奖励模型,而是通过组内相对奖励来优化,不仅省钱,还能让模型在数学推理等复杂任务上表现得更聪明。
