当前位置：首页 > news >正文

强化学习（RL）

news 2026/7/4 4:00:03

预训练和指令微调（SFT）让模型学会了知识并掌握了对话格式，但这还不够。模型可能会给出极其啰嗦的回答，或者一本正经地胡说八道（幻觉）。强化学习（RL），特别是人类反馈强化学习（RLHF），就是用来解决这些问题的“终极对齐手段”。

我们可以把这个过程拆解为一个非常有趣的“四步闭环”：

首先，给大模型输入一个提示词（Prompt），比如“如何评价某部电影”。模型会根据它的知识，生成多个不同版本、不同风格的回答。

接下来，人类评估员（通常是专业的标注员）会像老师批改作文一样，对这几个回答进行对比和排序。比如：A回答比B回答好，B回答比C回答好。这一步非常关键，它把人类主观的“好坏标准”转化成了客观的“偏好数据”。

大模型有成百上千亿个参数，让人类去给每一次生成都打分是不现实的。所以，我们需要利用刚才人类排好的数据，专门训练一个**“奖励模型（Reward Model）”**。这个模型就像一个被人类教导过的“AI评委”，它学会了人类的偏好，以后只要看到任何回答，它就能自动给出一个分数（奖励信号）。

这是最硬核的一步。大模型再次开始生成回答，但这次它的目标变了：它要努力生成那些能让“AI评委”打高分的回答。
在这个过程中，模型会不断进行“试错-反馈-改进”的循环：

如果生成了评委喜欢的内容，就获得正反馈（加分）；
如果生成了啰嗦、有害或错误的内容，就获得负反馈（扣分）。
通过一种叫做PPO（近端策略优化）的强化学习算法，模型会不断微调自己的参数，最大化自己获得的奖励。

引入强化学习后，大模型会发生质的飞跃：

更懂人类意图：它不再仅仅是机械地接话，而是真正理解了人类想要什么样的帮助。
大幅减少“幻觉”：通过定制奖励函数，模型学会了“知之为知之，不知为不知”。如果模型不知道答案，强行瞎编会被扣大分，而坦诚说不知道反而能拿中等分数，这就逼迫模型变得更诚实。
动态进化：传统的训练是静态的，而强化学习让模型具备了在未知环境中自主探索、持续优化的能力。