当前位置: 首页 > news >正文

【大模型】happy-llm笔记

happy-llm是datawhale发布的一套关于llm的教程,链接在此,今天看了这套课程的第二章到第四章的内容,对自己一直以来好奇的一些llm相关的问题有了解答。
将我遇到的问题整理到下面,部分可能没有回答,感兴趣的同学可以去原课程查找。

  1. 为什么注意力机制里有一个softmax,能否用其他函数代替?
    因为注意力想表征的是某个token(Q)对每个token的相关性,也即应该用一个概率分布或加权求和来表示,因此使用类似于x i ∑ i x i \frac{x_i}{\sum_i x_i}ixixi的形式表示,至于用softmax,是因为其在概率分布的基础上用自然指数来凸显强相关。
  2. 什么是自注意力?如何理解“自”
  3. 什么是多头注意力,为什么向量内积的拼接和向量拼接的内积效果相同?
  4. 为什么mask是一个矩阵,attention相对于RNN提升并行性的措施有哪些?
    RNN的线性性体现在不知道未来的信息,而这可以通过一个mask得到解决
  5. 为什么GPT和LLM使用的很多都是Decoder-only结构,这有什么原因?
  6. LLAMA是什么,和GPT有什么区别?
http://www.cnnetsun.cn/news/89735.html

相关文章:

  • 13.长视频和短视频的目标追踪(yolo_insightface模型)
  • 前端开发必备:JavaScript 核心事件详解与实战
  • 为什么你的服务总崩溃?:Docker MCP 网关负载均衡未正确配置的3大隐患
  • 专利检索漏查1个参数,千万研发卡壳量产线
  • 自动化测试团队效率提升指南
  • LobeChat能否通过等保测评?国内合规性达标
  • paperzz 降重 / 降 AIGC:从重复率超标到学术合规,高校生论文 “隐形风险” 的解决逻辑
  • paperzz AI 期刊论文功能实测:从 “标题输入” 到 “期刊适配提纲”,学术写作如何少走格式与逻辑的弯路?
  • Linux系统安装nginx
  • Dify Docker部署与模型集成指南
  • @所有科技企业:点击链接直达CES Asia2026奖项申报页,错过免费期成本增加3倍
  • Agent概况
  • 13. 搜索引擎-ES-自动补全
  • 36、基础Web服务器与邮件服务配置指南
  • 永磁同步电机三闭环控制Simulink仿真 电流内环 转速 位置外环 参数已经调好 原理与双闭...
  • ISIS路由的基本配置
  • Unloop:为ADHD与神经多样性人群打造的可视化模式映射工具 | ProductHunt 今日热榜 - 12月16日
  • LED显示屏视频会议价格
  • Kamailio 怎样使用 STIR/SHAKEN
  • COMSOL光学仿真:光镊与光力模型专题解析(三个模型详解、近似算法与张量算法探讨)
  • 北斗导航系统在实际应用中总会遇到各种干扰,尤其是脉冲干扰和窄带干扰特别烦人。今天咱们用Matlab仿真几种典型抗干扰方法,顺便看看代码咋写
  • Qwen3-8B大模型快速部署与实战体验
  • AI 时代,数据湖的“拐点”与展望
  • 使用 TensorRT-LLM 高性能部署大语言模型
  • A/B测试在功能验证中的应用:从理论到实践
  • 创建一个rust写的python库[signatures和错误处理]
  • 震撼!这家全景效果企业如何颠覆传统,让客户体验飙升!
  • JVM性能分析
  • 商家福音!用PHP对接快递鸟接口,一键搞定单号所属快递识别
  • YT29B凿岩机吕梁精准检测稳定性能解析