当前位置: 首页 > news >正文

斯坦福CS146S课程 提示词工程全解(第1周):6大核心技术从原理到代码实战

斯坦福CS146S课程 提示词工程全解(第1周):6大核心技术从原理到代码实战

本文对应斯坦福 CS146S 课程第1周内容,完整覆盖课件核心理论 + 6个作业代码逐行解析 + 新手踩坑排错指南,零基础也能吃透提示词工程的核心逻辑。


课程以及作业地址:https://github.com/ShouZhengAI/CS146S_CN

一、本章导学

1.1 学习目标与能力收获

学完本章你将掌握:

  • ✅ 6种核心提示词技术的原理、适用场景和效果差异;
  • ✅ 从零设计提示词的方法论,能通过迭代优化解决实际问题;
  • ✅ 读懂「模型调用 + 自动测试」类 Python 脚本的完整逻辑;
  • ✅ 本地大模型开发的常见坑点与排错思路;
  • ✅ 能够根据业务场景,选择合适的提示词技术组合方案。

二、核心知识点精讲

2.1 前置认知:从 Software 1.0 到 3.0

这是课程的核心认知框架,理解了它就能明白「提示词工程为什么存在」。

版本核心逻辑编程方式类比
Software 1.0人类手写每一行规则,程序严格按代码执行传统编程(if/else、循环)你亲手给机器写操作手册,一步都不能错
Software 2.0用数据训练模型,让模型自己学习规律机器学习、深度学习你给机器看一万张猫的照片,让它自己学会认猫
Software 3.0用自然语言给大模型下指令,让大模型完成任务提示词工程(Prompt Engineering)你给一个能干的助理提要求,它自己想办法把事做完

提示词就是 Software 3.0 的「编程语言」,提示词工程就是教你怎么把需求说清楚、让大模型做对事的学问。

2.2 基础概念:提示词的三类角色

大模型的对话接口通常有三种角色的消息,各司其职:

  1. System Prompt(系统提示词)
    • 用户看不到,是给模型定的「底层规矩」;
    • 用来设定人设、输出规则、边界约束、任务目标;
    • 优先级最高,全程生效。
  2. User Prompt(用户提示词)
    • 用户实际提出的问题/指令;
    • 是单次任务的具体需求。
  3. Assistant(助手回复)
    • 模型生成的输出内容;
    • 多轮对话中会作为上下文继续传给模型。

2.3 六大核心提示词技术

本周学习的6种技术,是提示词工程的基石,几乎所有复杂的大模型应用都由它们组合而来。

1. Zero-shot / K-shot 提示词

定义

  • Zero-shot(零样本):不给任何示例,直接让模型做事。比如直接说「把这个单词反转」。
  • K-shot(少样本):给模型 K 个「输入-输出」的示例,让它照着示例的格式和逻辑做新任务。

核心原理:大模型有「上下文学习(In-context Learning)」的能力——不需要改参数,只要在对话里给示例,它就能当场学会任务模式。

适用场景:格式固定、逻辑简单的任务,比如文本反转、分类、格式转换。
小白类比:Zero-shot 是老板只说「去做个报表」;K-shot 是老板先给你3张做好的报表当模板,再让你做新的。

关键经验:示例的质量(和目标的相似度)远比数量重要。结构高度匹配的1个示例,好过10个不相关的示例。

2. 思维链 Chain-of-Thought (CoT)

定义:引导大模型不要直接给答案,而是一步步说出推理过程,最后再给出结论。

  • Zero-shot CoT:只加一句「Think step by step(一步步思考)」;
  • Multi-shot CoT:给几个带完整推理过程的示例。

核心原理:大模型是「逐词生成」的,直接出答案很容易跳步算错;强迫它把中间步骤写出来,能显著提升复杂推理的准确率。

适用场景:数学题、逻辑推理、代码调试、复杂问题分析。
小白类比:做数学题直接写答案很容易算错,老师让你把步骤写出来,正确率就高很多。

3. 自一致性 Self-consistency

定义:同一个问题让模型生成多次答案,最后取「出现次数最多的那个」作为最终结果。

核心原理:模型每次推理的路径可能不同,错误的路径千奇百怪,正确的路径往往殊途同归——多数票胜出的答案,正确率更高。本质是「模型版投票表决」。

适用场景:有唯一正确答案的推理题,搭配思维链使用效果最佳。
小白类比:一道难题你自己算5遍,取出现最多的答案,比只算一次更靠谱。

4. 工具调用 Tool Calling

定义:让大模型学会「调用外部工具」,比如查数据库、执行代码、调API,而不是全靠自己脑子里的知识回答。

核心原理:大模型不用真的会执行工具,只要能按固定格式输出「要调用哪个工具、传什么参数」,程序拿到后去执行,再把结果塞回对话里就行。

适用场景:需要实时数据、精确计算、操作外部系统的场景,是减少幻觉的核心手段。
小白类比:你让助理算账,助理不用自己心算,而是拿计算器算完告诉你结果。

5. 检索增强生成 RAG

定义:回答问题前,先从外部知识库(文档、数据库)里检索相关内容,再让模型只根据检索到的内容生成答案。

核心原理:解决大模型的「幻觉」和「知识过时」问题——模型不用记所有知识,需要的时候去「查资料」,只按资料回答。

适用场景:企业内部知识库问答、产品文档客服、基于专属文档的生成任务。
小白类比:闭卷考试模型容易瞎蒙,开卷考试给它指定教材,它就只能按教材答题。

6. 反思 Reflexion

定义:先生成一版答案,然后把「答案的错误/反馈」告诉模型,让它自我反思、修正,生成优化后的版本。

核心原理:单轮生成模型容易有疏漏,但把错误信息明确反馈给它,它通常能精准修正——形成「生成→评估→反馈→优化」的闭环。

适用场景:代码生成、文案润色、方案优化等可以迭代改进的任务。
小白类比:写第一版草稿 → 老师批改指出错误 → 你改出第二版,通常比一稿质量高。

2.4 提示词工程最佳实践

  1. 角色设定(Role Prompting):给模型一个明确的身份,比如「你是资深Python开发工程师」,输出质量会显著提升;
  2. 结构化格式:用标签、分段、列表把输入内容分清楚,比如<文档>...</文档>,模型更容易理解边界;
  3. 明确输出要求:说清格式、长度、约束,比如「只输出代码,不要任何解释文字」「最后一行写 Answer: 数字」;
  4. 清晰易懂原则:你把提示词给一个完全没背景的人看,如果他会困惑,那大模型也会困惑;
  5. 小步迭代:每次只改一个变量,观察效果变化,不要一次性大改,否则不知道是哪步起了作用。

四、课后思考题

5.1 题目

如果你要为公司开发一个「内部技术文档问答机器人」,要求:

  1. 答案必须严格来自内部文档,不能编造不存在的API和参数;
  2. 回答代码问题时,要给出可运行的代码,且能自我检查修正;
  3. 遇到需要计算、查日志的问题,能调用外部工具获取准确结果。

请问你会组合使用本周学的哪几种提示词技术?每种技术分别承担什么作用?

5.2 参考答案

推荐组合方案:RAG + 工具调用 + Reflexion + 思维链,分工如下:

  1. RAG:核心底座。用户提问后先从内部技术文档库里检索最相关的几段内容,作为唯一参考上下文,从根源避免编造信息。
  2. 工具调用:扩展能力。遇到查日志、执行代码、算数据的问题,让模型调用对应工具,不用靠记忆回答,保证结果精准。
  3. 思维链:提升推理准确率。回答复杂逻辑、代码问题时,引导模型分步分析,减少跳步错误。
  4. Reflexion:质量兜底。生成答案后,先做自检(比如检查代码是否有语法错误、是否符合文档),发现问题自动修正一轮再输出。

六、本章总结

本周我们完整学习了提示词工程的6大基础技术:

  • K-shot:靠示例让模型快速学会任务模式;
  • CoT:靠分步思考提升复杂推理准确率;
  • 自一致性:靠多轮投票降低随机错误;
  • 工具调用:靠外部工具突破模型能力边界;
  • RAG:靠外部知识库减少幻觉、更新知识;
  • Reflexion:靠反馈闭环自我迭代优化。

这6种技术不是孤立的,真实业务里几乎都是组合使用,它们共同构成了大模型应用开发的「提示词工具箱」。

七、下一章预告

下一章我们将进入「提示词进阶与评估」,讲解:

  • 如何量化评估提示词的效果,而不是靠感觉;
  • 提示词的对抗与安全,如何避免提示注入攻击;
  • 更复杂的多轮对话与代理(Agent)基础逻辑。
http://www.cnnetsun.cn/news/3073142.html

相关文章:

  • 如何将VR视频转换为2D格式:VR-Reversal完整指南
  • MySQL数据分析入门:从SQL查询到实战电商案例全解析
  • 基于HarmonyOS 7.0 跨端开发的篆刻印章设计页面实战
  • 基于HarmonyOS 7.0 跨端开发的化石猎人采集指南页面实战
  • TVA与具身智能深度融合的内在必然性(7)
  • 从Vgs到VCO:用拉扎维《模拟CMOS》的核心概念,手把手拆解一个PLL设计流程
  • Sunshine游戏串流服务器:打造你的终极跨平台游戏串流系统
  • 量子机器学习在湍流模拟中的创新应用
  • 设计高可用后端架构需要考虑的五个关键点
  • 单通道EEG实现非侵入式脑机接口图像重建技术
  • 终极GPU内存检测方案:MemtestCL专业显卡稳定性验证指南
  • 30天无限续杯:JetBrains IDE试用期重置的完整指南
  • 面向Shopify卖家的最佳AI营销工具栈:选对组合,提升广告转化率
  • 网络安全学习130天
  • 树莓派5到手第一步:保姆级Ubuntu 24.04 Server无头安装与SSH配置(含阿里云镜像加速)
  • Steam Deck模拟器终极指南:如何用EmuDeck一键搭建30+游戏平台
  • 模块化脑机接口系统设计与工程实践
  • 量子误差缓解技术:从噪声建模到PEC实现
  • 自动化诊断平台架构与MTTR优化实践
  • 量子计算在热化学中的应用与W4-11数据集分析
  • 量子计算在化学模拟中的革命性应用与挑战
  • 边缘AI计算新突破:超维计算芯片解析与应用
  • FPGA加速稀疏卷积:原理、实现与性能优化
  • MySQL数据分析入门:从零搭建环境到电商实战案例
  • DAY3 编码器接口
  • Yahoo Finance API:构建企业级金融数据解决方案的.NET实践指南
  • 4步让老旧Mac焕发新生:OpenCore Legacy Patcher终极指南
  • 前后端分离公益服务平台系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程
  • Appium自动化测试实战:从环境搭建到考研帮APP登录与滑动操作
  • Postman接口自动化测试实战:从零构建电影收藏小程序后端测试体系