大模型小白入门指南:收藏这份核心关键词解读,轻松掌握AI新趋势!
本文用最简短的方式梳理了大模型中的常见关键词,包括Token、参数、预训练、微调、Embedding、Prompt、RAG、Agent等。解释了大模型如何通过海量数据和算力学习语言、知识等规律,并详细阐述了模型处理信息的基本单位Token及其相关概念,如Tokenizer、词表、Token ID等。此外,还介绍了模型参数、预训练、自监督学习、微调、指令微调、对齐、RLHF等概念,以及Embedding、向量数据库、语义检索、Prompt等关键技术。最后,总结了大模型的核心工作原理和应用前景,鼓励读者深入学习大模型相关知识。
现在聊人工智能,经常会听到一堆词:Token、参数、预训练、微调、Embedding、Prompt、RAG、Agent、幻觉、多模态、上下文窗口、推理、量化、蒸馏……
这些词看起来很技术,其实并不难理解。这篇文章就用最简短的方式,把大模型里常见关键词梳理一遍。
- 大模型
大模型指模型参数规模大、训练数据多、计算量大。它通过海量数据训练,学习语言、知识、代码、图像、分子、蛋白质等数据中的规律。简单说,大模型就是一个用海量数据和算力训练出来的通用智能模型。
- Token
Token 是模型处理信息的基本单位。模型并不是直接按“字”或“词”理解文本,而是先把文本切成一个个Token。一个Token可能是一个字、一个词、一个词的一部分,也可能是一个符号。
- Tokenizer
Tokenizer是分词器。它负责把输入文本切成Token,再把Token转换成模型能识别的编号。不同模型使用的tokenizer不同,所以同一句话在不同模型里,Token数可能不一样。
- 词表
词表就是模型认识的Token清单。每个Token都有一个对应的编号,也就是Token ID。模型不能直接处理文字,它真正处理的是这些Token ID。
- Token ID
Token ID是每个Token在词表中的索引编号。比如某个Token对应编号 1234,模型看到的其实不是文字本身,而是这个编号。
Token ID是文本进入模型前的重要中间形式。
- 参数
参数是模型内部可以学习和调整的数学权重。
我们常说的7B、13B、70B,指的就是参数量。7B大约是70 亿参数,70B 大约是700亿参数。参数不是知识卡片,而是模型用来存储规律的一组数字。
- 7B、13B、70B
这里的B是billion,表示十亿。7B就是70亿参数,13B就是130亿参数,70B就是700亿参数。参数越多,模型表达能力通常越强,但训练和部署成本也越高。
- 预训练
预训练是大模型打地基的过程。
模型先在海量数据上训练,通过不断预测、犯错、纠正,学习数据背后的规律。预训练后的模型具备通用基础能力,但还不一定适合具体任务。
- 自监督学习
自监督学习是不依赖人工标注的一种训练方式。比如让模型根据前文预测下一个Token,或者遮住一部分内容让模型补回来。数据本身就能提供训练信号,这也是大模型能利用海量文本训练的重要原因。
- 预测下一个Token
这是GPT类生成式大模型最常见的预训练任务。给定前面的内容,模型预测下一个最可能出现的Token。看起来像文字接龙,但要预测准确,模型必须学习语言结构、知识关系和上下文逻辑。
- Mask语言模型
Mask语言模型常见于BERT类模型。它会随机遮住句子中的一部分Token,让模型根据上下文把它补回来。这种方式更像“完形填空”,适合理解类任务。
- 微调
微调是在预训练模型基础上,针对具体任务继续训练。
比如把通用模型微调成医学问答模型、法律助手模型、代码模型、分子性质预测模型。预训练解决有没有基础能力,微调解决能不能干好具体任务。
- 指令微调
指令微调是让模型学会听懂人类指令。
比如“总结这篇文章”、“改写这段话”、“写一段代码”。经过指令微调后,模型会更像一个能按照要求完成任务的助手。
- 对齐
对齐是让模型的输出更符合人类偏好和安全要求。模型不仅要会回答,还要回答得有用、可靠、礼貌、安全。对齐的目标是让模型更适合真实使用场景。
- RLHF
RLHF是Reinforcement Learning from Human Feedback,意思是基于人类反馈的强化学习。简单理解,就是让人类评价模型回答的好坏,再用这些反馈继续优化模型。
它常用于提升模型的可用性和对话体验。
- SFT
SFT是Supervised Fine-Tuning,也就是监督微调。它通常使用人工整理好的“问题—答案”数据训练模型。SFT的作用是让模型学会按照人类期望的格式和风格回答问题。
- Embedding
Embedding是向量表示。它把文本、图片、分子、蛋白质等对象转成一串数字。有了向量,模型就可以计算相似度、做检索、分类、聚类和预测。
- 向量数据库
向量数据库专门用来存储和检索Embedding向量。它可以快速找到和当前问题最相似的文本、图片或分子。RAG、知识库问答、语义搜索里经常会用到向量数据库。
- 语义检索
语义检索不是简单查关键词,而是根据意思查找相关内容。比如你搜“模型为什么会胡说”,系统可能找到“幻觉”相关内容。它依赖Embedding,把语义相近的内容放得更近。
- Prompt
Prompt就是提示词,也就是你给模型的任务说明。比如“帮我总结这篇论文”、“用公众号风格改写”、“写一个 Python 脚本”。Prompt写得越清楚,模型越容易输出你想要的结果。
- Prompt Engineering
Prompt Engineering是提示词工程。它研究如何设计更有效的输入,让模型输出更稳定、更准确、更符合要求。不过,提示词再好,也不能突破模型本身的能力边界。
- System Prompt
System Prompt是系统级提示词。它通常用来规定模型的角色、行为边界、回答风格和安全规则。相比普通用户输入,它对模型行为有更高优先级。
- 上下文窗口
上下文窗口指模型一次能处理的最大Token数。比如32K上下文,表示模型最多能同时处理约3.2万个Token。上下文越长,模型能看的内容越多,但不代表一定理解得更好。
- 长上下文
长上下文指模型能处理很长的文本、代码、论文或对话历史。它对长文档总结、代码仓库分析、论文阅读很有用。但上下文太长时,模型也可能遗漏关键信息。
- 推理
推理有两个含义。一个是逻辑推理能力,比如分析、判断、计算。另一个是模型部署中的inference,指模型训练好之后,用它生成结果的过程。平时说推理速度,通常指第二种。
- 训练
训练是让模型学习参数的过程。模型通过大量数据不断预测、计算误差、更新参数。训练通常非常消耗GPU、时间和数据。
- 推理成本
推理成本指使用模型生成答案时消耗的资源。它和模型大小、上下文长度、输出Token数、硬件性能有关。模型越大、输入越长、输出越多,推理成本通常越高。
- Batch Size
Batch Size是一次送入模型训练的数据量。Batch Size太小,训练不稳定;太大,又可能占用过多显存。它是训练大模型时非常重要的超参数。
- 学习率
学习率决定模型每次更新参数时“步子迈多大”。学习率太大,模型可能训练不稳定;学习率太小,训练速度会很慢。它直接影响模型最终效果。
- Loss
Loss是损失值,用来衡量模型预测和真实答案之间的差距。Loss越低,说明模型在训练数据上的预测越接近真实结果。训练过程本质上就是不断降低Loss。
- Transformer
Transformer 是当前大模型最核心的基础架构之一。它最重要的机制是注意力机制,可以让模型捕捉不同Token之间的关系。GPT、BERT、LLaMA、Qwen等模型都和Transformer架构密切相关。32. Attention
Attention是注意力机制。它让模型在处理一个Token时,可以关注输入中其他相关Token。简单说,就是让模型知道“当前内容应该重点看哪里”。
- Self-Attention
Self-Attention是自注意力机制。它让一句话内部的每个Token彼此建立联系。比如理解“它”指代谁,就需要Self-Attention帮助模型关联上下文。
- Multi-Head Attention
Multi-Head Attention是多头注意力。可以理解为模型从多个角度同时观察一句话。有的头关注语法关系,有的头关注语义关系,有的头关注长距离依赖。
- 位置编码
Transformer本身不天然知道Token的顺序。位置编码就是给每个Token加上位置信息。否则模型只知道有哪些Token,却不知道它们的先后顺序。
- Encoder
Encoder是编码器。它更适合理解输入内容,把文本、分子或序列转成高质量表示。BERT类模型、很多分子表征模型常用Encoder架构。
- Decoder
Decoder是解码器。它更适合生成内容,一个Token接一个Token往后输出。GPT类模型主要使用Decoder-only架构。
- Encoder-Decoder
Encoder-Decoder是编码器—解码器结构。Encoder负责理解输入,Decoder负责生成输出。翻译、摘要、文本到文本任务中经常使用这种结构。
- MoE
MoE是Mixture of Experts,混合专家模型。它由多个“专家网络”组成,每次只激活其中一部分专家。这样可以在扩大模型能力的同时,控制每次推理的计算量。
- RAG
RAG是检索增强生成。简单说,就是让模型先从知识库中查资料,再基于资料回答。它可以减少幻觉,也能让模型使用外部知识和私有文档。
- Agent
Agent通常叫智能体。它不只是回答问题,还能规划任务、调用工具、执行步骤。比如查资料、写代码、生成报告、调用数据库,都可以放进 Agent 流程。
- Tool Use
Tool Use是工具调用。大模型可以调用搜索引擎、代码解释器、数据库、计算器、文件系统等工具。这让模型从“会说”进一步走向“会做”。
- Function Calling
Function Calling是函数调用。模型根据用户需求,自动选择合适函数,并生成结构化参数。它常用于连接外部API、业务系统和自动化流程。
- 幻觉
幻觉是指模型一本正经地生成错误内容。比如编造论文、编造数据、编造事实。它产生的原因是模型本质上在生成最可能的文本,而不是天然具备事实核查能力。
- 多模态
多模态指模型能处理多种类型的数据。除了文字,还可以包括图片、音频、视频、表格、分子结构、蛋白质序列等。多模态让模型更接近真实世界中的复杂信息处理。
- 视觉语言模型
视觉语言模型可以同时理解图像和文本。比如看图回答问题、描述图片内容、分析图表、理解截图。它是多模态大模型的重要方向之一。
- 量化
量化是用更低精度的数字存储和计算模型参数。比如从FP16变成INT8或 INT4。它可以降低显存占用、提升推理速度,但可能带来少量精度损失。
- 蒸馏
蒸馏是用大模型教小模型。大模型作为“老师”,生成训练信号,小模型作为“学生”学习它的能力。这样可以让小模型在较低成本下获得不错表现。
- 剪枝
剪枝是删除模型中不太重要的连接、参数或模块。目标是让模型更小、更快、更省资源。但剪枝过度可能会影响模型效果。
- LoRA
LoRA是一种高效微调方法。它不直接大规模修改原模型参数,而是在模型中加入少量可训练参数。这样可以大幅降低微调所需显存和计算成本。
- QLoRA
QLoRA是量化版本的LoRA。它先把模型量化,再进行低成本微调。适合在有限显存条件下微调较大的模型。
- PEFT
PEFT是参数高效微调。它的目标是只训练少量参数,就让模型适应新任务。LoRA、Adapter、Prompt Tuning都属于PEFT思路。
- Adapter
Adapter是插入模型中的小型可训练模块。微调时主要训练Adapter,而不是更新整个大模型。它可以降低微调成本,也方便多个任务之间切换。
- Benchmark
Benchmark是评测基准。它用一组标准任务或数据集来比较不同模型的能力。比如语言理解、数学推理、代码生成、知识问答等。
- Leaderboard
Leaderboard是排行榜。它根据Benchmark结果对模型进行排序。排行榜有参考价值,但不能完全代表模型在真实任务中的表现。
- 开源模型
开源模型通常会公开模型权重,用户可以下载、部署和微调。它适合科研、私有化部署和深度定制。常见开源模型包括LLaMA系、Qwen系、DeepSeek系等。
- 闭源模型
闭源模型通常不公开权重,只通过API或产品提供服务。它的优势是使用方便、综合能力强、维护成本低。但用户对模型内部和部署环境的控制较少。
- API
API是模型服务的调用接口。用户可以通过代码把输入发送给模型,再接收模型输出。很多企业应用不是直接部署模型,而是通过API调用模型能力。
- 本地部署
本地部署是把模型部署在自己的服务器或电脑上。它的优势是数据更可控,适合对隐私、安全和定制化要求高的场景。但本地部署需要显卡、运维和工程能力。
- 私有化部署
私有化部署通常指在企业或机构内部环境中部署模型。它可以保护内部数据不出域。金融、医疗、政务、科研机构常常更重视私有化部署。
- 知识库
知识库是外部资料集合。它可以包括企业文档、论文、制度文件、产品手册、数据库内容等。结合RAG后,大模型可以基于知识库回答问题。
- Fine-tuning Dataset
Fine-tuning Dataset是微调数据集。它决定模型在某个具体任务上能学到什么。数据质量通常比数据数量更重要。
- 训练语料
训练语料是预训练或微调时使用的数据。可以是网页、书籍、论文、代码、问答、分子 SMILES、蛋白质序列等。语料质量会直接影响模型能力。
- 数据清洗
数据清洗是去除低质量、重复、错误、有害或无效数据的过程。大模型不是数据越多越好,而是要有足够高质量的数据。高质量数据是模型效果的基础。
- 数据去重
数据去重是删除重复或高度相似的数据。如果训练语料大量重复,模型可能记忆重复内容,降低泛化能力。去重是大模型数据处理中非常重要的一步。
- 数据增强
数据增强是通过合理变换扩充训练数据。在文本中可以改写表达方式;在分子中可以使用randomized SMILES;在图像中可以旋转、裁剪、加噪声。它的目的是提升模型鲁棒性。
- 泛化能力
泛化能力指模型在没见过的新数据上表现好的能力。训练集表现好不代表模型真的好。真正重要的是模型能否迁移到新任务、新样本和新场景。
- 过拟合
过拟合是模型把训练数据记得太死,导致新数据表现变差。表现为训练集效果很好,测试集效果不好。过拟合说明模型没有真正学到可泛化规律。
- 对比学习
对比学习是让模型学会区分“相似”和“不相似”。相似样本在向量空间中更近,不相似样本更远。它常用于图文对齐、语义表示、分子表征等任务。
- 基座模型
基座模型是经过大规模预训练后,具备通用能力的模型。它不是为单一任务训练的,而是可以迁移到很多下游任务中。大语言模型、分子基座模型、蛋白质基座模型都属于这个思路。
- 下游任务
下游任务是基座模型训练完成后要解决的具体问题。比如文本分类、问答、翻译、代码生成、分子性质预测、蛋白功能预测等。预训练模型的价值最终要通过下游任务体现。
- Zero-shot
Zero-shot指模型没有看过某个任务的示例,也能直接完成任务。比如你直接让模型翻译、总结或分类,它能根据已有能力完成。这体现了大模型的泛化能力。
- Few-shot
Few-shot指给模型少量示例后再让它完成任务。比如给2到5个例子,模型就能模仿格式继续输出。Few-shot 能显著提升模型对任务格式的理解。
- Chain of Thought
Chain of Thought通常叫思维链。它让模型在回答复杂问题时,先进行中间推理,再给出结论。不过在真实应用中,不一定需要展示完整推理过程,关键是提升答案可靠性。
- Scaling Law
Scaling Law是规模定律。它描述模型性能和参数量、数据量、计算量之间的关系。简单说,在一定范围内,模型越大、数据越多、算力越强,效果通常越好。
大模型关键词很多,但可以按照一条主线理解:
- 数据进入模型前,会先被tokenizer切成Token;
- Token变成Token ID后进入模型;
- 模型通过预训练学习通用规律;
- 通过微调适配具体任务;
- 通过Prompt接收人类指令;
- 通过RAG调用外部知识;
- 通过Agent和工具调用完成更复杂任务;
- 通过量化、蒸馏、LoRA等方法降低部署和微调成本。
大模型并不是一个单纯的聊天工具。它更像是一个以数据为基础、以模型为核心、以工具和应用为延伸的智能系统。
未来无论是科研、教育、医疗、工程,还是分子设计、蛋白质分析、环境风险预测,大模型都会越来越多地成为基础工具。理解这些关键词,就是理解大模型世界的第一步。
当然,大模型领域的关键词远不止这些。除了Token、Prompt、RAG、Agent、Embedding、微调这些常见概念,还有很多更偏工程和训练层面的词,比如DeepSpeed、FlashAttention、KV擦车、推理加速、分布式训练等。
最后
2026年技术圈的分化愈发明显:降薪裁员潮持续蔓延,传统开发、测试等岗位大批缩水,不少从业者陷入职业焦虑;与之形成鲜明对比的是,AI大模型相关岗位迎来疯狂扩招,薪资逆势飙升150%,大厂更是直接开出70-100W年薪,疯抢具备实战能力的大模型人才,甚至放宽年龄限制,只求能快速落地技术、创造价值!
很多程序员、职场新人纷纷入局大模型领域,绝非盲目跟风,而是实实在在看到了不可替代的价值优势,这也是2026年最值得抓住的职业风口:
1、窗口期红利,入门门槛友好:不同于成熟赛道的“内卷式招聘”,2026年大模型人才缺口巨大,简历只要达标(掌握基础AI应用+具备简单项目经验),年龄、学历均非硬性要求,小白可快速入门,转行程序员也能无缝衔接;
2、技术可复用,上手速度翻倍:如果你有前后端开发、测试、数据分析等基础,在大模型落地、系统部署、Prompt工程等环节会更具优势,无需从零开始,复用原有技术能力就能快速进阶;
3、懂业务更吃香,竞争力翻倍:单纯懂技术已不够,2026年大厂更看重“技术+业务”的复合型人才,有垂直领域(金融、医疗、工业等)经验者,能精准定位模型落地痛点,薪资比纯技术岗高出30%以上;
更重要的是,即便没有转型需求,用AI大模型工具为工作赋能、提升效率,也已经成为80%企业的硬性要求——不会用大模型提效,未来很可能被行业淘汰!
那么2026年,小白/程序员该如何高效学习大模型?
很多人想入门大模型,却陷入两大困境:要么到处搜集零散资料,不成体系,越学越懵;要么被收费高昂的课程割韭菜,花了钱却学不到实战技能,白白浪费时间走弯路。
今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包,覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程,所有资料均已整理归档,无需拼凑,直接领取就能上手学习,小白可照做,程序员可进阶!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
这份学习路线结合2026年行业趋势和新手学习规律,由行业专家精心设计,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶,避免踩坑。
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、大模型学习书籍&电子文档
涵盖2026年最新技术要点,包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容
4、AI大模型最新行业报告
报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容,还有2026年中文大模型基准测评报告、AI Agent行业研究报告等,帮你站在行业前沿,把握技术风口。
5、大模型项目实战&配套源码
项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向,还有视频配套代码,手把手教你从0到1完成项目开发,既能练手提升技术,又能丰富简历,为求职和职业发展加分。
6、2026大模型大厂面试真题
2026年大模型面试已全面升级,不再单纯考察基础原理,而是转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
7、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
