当前位置：首页 > news >正文

PaperReading：《GPT-4 Technical Report》

news 2026/7/2 16:14:54

论文链接: https://arxiv.org/pdf/2303.08774

这篇文章其实就是 OpenAI 对 GPT-4 的“官方说明书+成绩单”，主要包含以下几点内容：

GPT-4 是个多面手：不只能处理文字，还能看懂图片（比如图表、截图、漫画），输出还是文字。虽然现实里很多事不如人，但专业考试、学术测试超厉害——比如模拟律师考试考进前10%，比 GPT-3.5 （之前的版本）强太多，3.5 才考倒数10%。
训练有技巧，效果能预测：它是用“预测下一个词”的方式预训练的，之后又通过人类反馈优化过（让回答更靠谱、符合需求）。而且工程师们找到了方法，能通过小模型（计算量只有 GPT-4 的千分之一）的表现，提前猜到 GPT-4 能做到什么程度，不用等它完全训练完才知道。
本事很全面：
- 多语言都行：把英文考题翻译成26种语言，24种语言的表现都超过了之前英文模型的最佳水平，包括威尔士语、斯瓦希里语这种小众语言。
- 考试通杀：SAT、GRE、AP 课程（美国高中进阶课程）、甚至医学、侍酒师的专业考试，都能考到高分，有的能进人类考生的前10%。
- 会写代码、能推理：解数学题、写 Python 函数、分析图表里的数据，都比之前的模型厉害。
也有短板：
- 会“瞎编”：有时候会说些没根据的话（叫“幻觉”），还可能坚持错误答案。
- 知识有保质期：2021年9月之后的事它不知道，也没法从自己的使用经历里学新东西。
- 可能有偏见：输出内容里会带一些社会偏见，比如刻板印象。
安全上花了功夫：
- 怕它被用来干坏事（比如教人造危险化学品、传播仇恨），找了50多个领域专家“找茬”测试，还优化了模型，让它拒绝这类请求——现在生成有害内容的概率比 GPT-3.5 低了82%。
- 但也不是完美的：还是有办法“绕开”限制（比如用特殊指令诱导），所以还得靠后续监控。
能帮上很多忙，但别过度依赖：可以用来写东西、分析问题、辅助工作，但不能完全信它的输出，尤其是重要场景（比如法律、医疗），得有人把关。