当前位置：首页 > news >正文

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

news 2026/7/2 19:14:43

从词向量到关系运算：用NumPy拆解Transformer的QKV核心机制

当你第一次听说"自注意力机制"时，是否也被那些神秘的Q、K、V字母搞得一头雾水？作为Transformer架构的核心，QKV计算远不止是几个矩阵乘法那么简单。让我们暂时抛开那些抽象的理论推导，直接动手用NumPy从零构建整个过程——你会惊讶地发现，原来那些看似复杂的向量运算，本质上是在进行一场精妙的"词向量搬家"游戏。

1. 准备词向量：语言的空间化表达

想象一下，如果每个词都能在三维空间中找到自己的位置，"中国"可能位于(3,6,10)，而"熊猫"在(2,5,9)附近。这就是词向量的魔力——将离散的符号转化为连续的数学对象。在实际应用中，维度通常高达512或768，但为了演示，我们先用3维空间：

import numpy as np # 定义句子："中国的熊猫很可爱" vocab = { "中国": np.array([3, 6, 10]), "的": np.array([1, 1, 1]), "熊猫": np.array([2, 5, 9]), "很": np.array([1, 2, 1]), "可爱": np.array([0, 8, 3]) } sentence = ["中国", "的", "熊猫", "很", "可爱"] X = np.stack([vocab[word] for word in sentence]) # 形状(5,3)

词向量的关键特性：

语义相近的词距离更近（如"中国"与"熊猫"）
向量方向蕴含语法关系（如"中国"→"熊猫"可能代表"拥有"关系）
位置编码会保留单词顺序信息（此处简化为静态向量）

提示：真实场景中词向量通过Embedding层学习得到，这里我们手动定义是为了更直观地观察变化

2. QKV变换：为词向量赋予多重身份

每个词向量现在要扮演三个不同角色：查询者(Query)、被查询者(Key)和值载体(Value)。这通过三个独立的线性变换实现：

np.random.seed(42) d_model = 3 # 原始词向量维度 d_k = 2 # QK空间维度（通常小于d_model） # 初始化变换矩阵 WQ = np.random.randn(d_model, d_k) * 0.1 WK = np.random.randn(d_model, d_k) * 0.1 WV = np.random.randn(d_model, d_model) * 0.1 # 计算Q,K,V Q = X @ WQ # 查询矩阵 (5,2) K = X @ WK # 键矩阵 (5,2) V = X @ WV # 值矩阵 (5,3)

为什么需要三个矩阵？

Q：代表当前词的"提问"（如"中国"想知道："谁与我相关？"）
K：代表其他词的"应答"（如"熊猫"回答："我与你相关度是0.8"）
V：携带实际要传递的信息（如"熊猫"携带的语义内容）

3. 注意力分数：词与词的"社交网络"

计算注意力分数本质上是建立词与词之间的关联图谱。点积运算衡量Q与K的匹配程度：

attn_scores = Q @ K.T / np.sqrt(d_k) # 形状(5,5) print("原始注意力分数：\n", attn_scores.round(2)) # 应用Softmax归一化 def softmax(x): exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True)) return exp_x / np.sum(exp_x, axis=-1, keepdims=True) attn_weights = softmax(attn_scores) print("\n注意力权重：\n", attn_weights.round(2))

示例输出可能显示：

注意力权重： [[0.45 0.12 0.3 0.08 0.05] [0.2 0.2 0.2 0.2 0.2 ] [0.25 0.1 0.4 0.15 0.1 ] [0.1 0.1 0.1 0.5 0.2 ] [0.15 0.05 0.1 0.3 0.4 ]]

解读注意力模式：

"中国"最关注"熊猫"（权重0.3）
"可爱"主要关注自身和"很"（自我强化）
停用词"的"呈现均匀分布（符合预期）

4. 加权合成：关系向量的动态组合

现在，我们将注意力权重作用于V矩阵，完成信息的动态重组：

Z = attn_weights @ V # 形状(5,3) print("\n注意力输出：\n", Z.round(2)) # 残差连接（原始信息保留） Z += X

V矩阵的本质：

不是简单的词向量拷贝，而是学习到的"关系传递器"
每个V向量像是一个"语义插件"，可以增强或修正原始词向量
残差连接确保不会丢失原始信息（梯度流动更顺畅）

5. 可视化解析：追踪向量空间的变化

让我们用Matplotlib观察"中国"一词的演变过程：

import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(15,5)) # 原始词向量 ax1 = fig.add_subplot(131, projection='3d') for i, word in enumerate(sentence): ax1.scatter(*X[i], color='r') ax1.text(*X[i], word) ax1.set_title('初始词向量') # 注意力权重 ax2 = fig.add_subplot(132) im = ax2.imshow(attn_weights, cmap='Reds') ax2.set_xticks(range(len(sentence))) ax2.set_xticklabels(sentence) ax2.set_yticks(range(len(sentence))) ax2.set_yticklabels(sentence) ax2.set_title('注意力热力图') # 输出向量 ax3 = fig.add_subplot(133, projection='3d') for i, word in enumerate(sentence): ax3.scatter(*Z[i], color='g') ax3.text(*Z[i], word) # 绘制从X到Z的箭头 ax3.quiver(*X[i], *(Z[i]-X[i]), color='b', arrow_length_ratio=0.1) ax3.set_title('输出向量（蓝色箭头表示变化）') plt.tight_layout() plt.show()

关键观察点：

"中国"向量向"熊猫"方向移动（语义关联）
"可爱"向量长度增加（情感强度强化）
"的"几乎保持不变（功能词无需调整）

6. 扩展实践：多头注意力与层叠

真实的Transformer会使用多头注意力机制，让我们实现一个简化版：

n_heads = 2 head_dim = d_model // n_heads # 分割到多个头 def split_heads(x): return x.reshape(x.shape[0], n_heads, head_dim) Q_heads = split_heads(Q @ WQ_multi) # WQ_multi形状为(d_model, d_model) K_heads = split_heads(K @ WK_multi) V_heads = split_heads(V @ WV_multi) # 每个头独立计算注意力 attn_outputs = [] for h in range(n_heads): attn_h = softmax(Q_heads[:,h] @ K_heads[:,h].T / np.sqrt(head_dim)) attn_outputs.append(attn_h @ V_heads[:,h]) # 合并多头输出 Z_multi = np.concatenate(attn_outputs, axis=-1) # 形状(5,3)

多头机制的优势：

不同头可以捕捉不同类型的关系（如语法vs语义）
扩展了模型的表示能力
并行计算效率高

7. 工程实践中的关键细节

在实际项目中，有几个容易忽视但至关重要的实现细节：

缩放点积的数学原理：

# 错误的缩放方式（会导致梯度消失） attn_scores = Q @ K.T / d_k # 正确的缩放（保持方差稳定） attn_scores = Q @ K.T / np.sqrt(d_k)

注意力掩码的实现：

# 解码器的自回归掩码 mask = np.triu(np.ones((len(sentence), len(sentence))), k=1) attn_scores = attn_scores - 1e9 * mask

数值稳定的Softmax：

def safe_softmax(x): x = x - np.max(x, axis=-1, keepdims=True) exp_x = np.exp(x) return exp_x / np.sum(exp_x, axis=-1, keepdims=True)

在BERT等模型中，QKV计算通常占整体计算量的40%以上。通过分析中间变量的内存占用，我们发现：

张量名称	形状	内存占比
Q/K矩阵	(seq_len, d_k)	25%
注意力权重	(seq_len, seq_len)	45%
V矩阵	(seq_len, d_model)	30%

这解释了为什么许多优化工作聚焦于稀疏注意力或低秩近似——当序列长度达到1024时，注意力权重的(1024,1024)矩阵会成为显存瓶颈。

查看全文

http://www.cnnetsun.cn/news/2174012.html

如何将B站缓存视频永久保存？3分钟掌握m4s转MP4终极免费方案

遥感小白必看：用QGIS内置浏览器三步搞定Landsat 8/9数据下载与预览

Windows激活终极方案：KMS_VL_ALL_AIO智能脚本完整指南

Xournal++：5个关键功能让你告别纸质笔记，开启高效数字书写新时代

为什么开发者都在研究 OpenClaw？

ICode竞赛Python二级通关秘籍：手把手拆解基础训练3的18个代码片段

终极机械键盘连击修复指南：Keyboard Chatter Blocker完整使用教程

从Arduino到FPGA：SPI Flash存储方案怎么选？W25Q64JV硬件设计与驱动移植全指南

3分钟拯救你的B站缓存视频：免费m4s转MP4工具完整指南

放弃专用芯片！用Xilinx 7系列FPGA的OSERDES2/ISERDES2原语实现CameraLink收发，到底能省多少成本和PCB面积？

车企Embedded DevOps团队紧急通知：Docker 27.1已强制要求启用cgroupv2+Rust运行时，否则无法通过UN R155认证

从贝尔电话到VoLTE：一文看懂PSTN与VoIP百年演进史（附FreeSWITCH学习路线）

终极多屏革命：VirtualMonitor如何用虚拟显示器彻底改变你的工作效率

如何快速搭建个人游戏串流服务器：Sunshine完整实战指南

3分钟零基础搭建微信智能助手：WechatBot终极免费方案

放假，排号6000多等DeepSeek V4 Pro

【flutter for open harmony】第三方库Flutter 鸿蒙版文字计数器实战指南（适配 1.0.0）✨

零基础搭建 OpenClaw 2.6.6 Win11 本地化运行环境

SAP PI/PO调用HTTPS接口踩坑记：手把手教你导入SSL证书解决iaik.security.ssl.SSLCertificateException

别再傻傻分不清了！一张图帮你理清YOLO各版本（v1-v13）的‘血缘关系’与核心团队

AI编程助手新范式：GPT与YOLO融合的视觉代码生成实践

ComfyUI-Impact-Pack V8终极配置指南：解锁专业级图像增强的完整解决方案

如何3步轻松下载B站大会员4K视频：你的个人高清资源库搭建指南

Adobe-GenP终极指南：5分钟掌握Adobe软件批量激活技术

2026年AI风口爆发！揭秘高薪AI产品经理的入门与进阶之路（内含独家资料包）

基于WebGPU与Gemma 4的本地AI浏览器助手：架构、部署与应用实战

WindowResizer：3分钟掌握Windows窗口尺寸强制调整的终极指南

OpenCore Legacy Patcher深度解析：让旧款Mac焕发新生的架构设计与实战指南

别再死记硬背了！用STM32 CubeMX+FreeRTOS搞懂任务通信，从停车场到厕所的实战比喻

语言模型架构演进：GLA与GDN的性能对比与应用