当前位置: 首页 > news >正文

Deepseek MLA CP通信AlltoAll

长文本CP 切分,共2次All2All

第一次AlltoAll,输入按Seq维度汇总,按Head维度切。(切输入,非TP维度的切参数)

[s/c, b, n/t, h] -AlltoAll-> [s, b, n/(t*c), h]

第二次AlltoAll,恢复按Seq维度切,按Head维度汇总。

[s, b, n/(t*c), h] -AlltoAll-> [s/c, b, n/t, h]

其中t 为TP, c 为CP, n = nHead数

举例: CP = 2, TP =4 , H = 8192, nHead = 16

阶段形状说明
输入[s/2, b, 8192]CP 切分后,每 rank 持有半个序列
MLA 解压后 Q/K/V[s/2, b, 16, 192]16 heads/rank(64 heads ÷ TP=4),经过了TP的降维
A2A 后(scatter head,gather seq)[s, b, 8, 192]全序列,head 减半
Flash Attention 输出[s, b, 8, 128]全序列本地计算
A2A 后(scatter seq,gather head)[s/2, b, 16, 128]还原序列分片
o_proj 后[s/2, b, 8192]还原 hidden_states, 经过TP升维
compressed_kv [s, b, 576] ← kv_a_proj 压缩后的 latent,是 _preprocess 的输入 │ ├── split → ct_kv [s, b, 512] ← kv_lora_rank 部分 │ k_pe [s, b, 64] ← rope 部分 │ ├── kv_a_layernorm(ct_kv) │ └── kv_b_proj (Up-projection, 解压) [s, b, 512] → [s, b, 16heads, 128+128] k_nope [s, b, 16, 128] v [s, b, 16, 128] q_b_input (经过 q_b_proj 解压) q_nope [s, b, 16, 128] q_pe [s, b, 16, 64] 最终拼接: query_states [s, b, 16, 192] = q_nope + q_pe key_states [s, b, 16, 192] = k_nope + k_pe value_states [s, b, 16, 128]

MLA attention:

DeepseekV2Attention └── self.core_attention_flash = FlashAttention(...) # 基础 flash attn ↓ (当 CP + alltoall 时自动包装) └── self.core_attention_flash = DistributedAttention(FlashAttention, cp_group)
http://www.cnnetsun.cn/news/2572006.html

相关文章:

  • 应用层协议http
  • 番茄小说下载器终极指南:轻松获取EPUB、TXT和有声小说
  • 统信UOS也能本地跑AI语音合成!MOSS-TTS-Nano部署实测全流程
  • Jmeter性能测试进阶:巧用多线程组设计,解决‘集合点’搞不定的定时与隔离难题
  • GRaD-Nav++:基于视觉语言模型的无人机自主导航系统
  • 实验报告(一)
  • ARM PMU与LFB缓存性能监控实战指南
  • 技术生态构建指南:从识别机遇到参与策略
  • 低查重AI教材生成,利用AI工具开启高效教材编写新征程!
  • 手机号码定位:3分钟快速查询电话号码归属地位置
  • WebSocket 一上万人就崩?问题可能根本不在代码
  • AI辅助模式下定制化软件项目质量保证
  • 终极免费AMD Ryzen调试工具:SMUDebugTool完整使用教程
  • 量子计算调试新方法:Bloch向量断言技术解析
  • 规范驱动开发实践:从OpenAPI契约到高效团队协作
  • 5步解锁网易云音乐隐藏功能:BetterNCM-Installer全攻略
  • CentOS文件系统创建
  • iOS越狱技术深度解析:从内核漏洞到系统级控制的技术实现
  • 全球微压氧舱市场深度分析报告
  • LLM流式传输断点续传:Resume Token与Last-Event ID实现原理与成本分析
  • 30秒学会!免费浏览器视频下载神器,告别网页资源无法保存的烦恼
  • 如何用3步永久保存微信聊天记录?开源神器完整指南
  • 人机耦合动力学建模融合的康复助行机器人控制方法【附模型】
  • 告别Launcher版!用UE5源码从零搭建LiveLink数据提供程序(Windows环境保姆级流程)
  • CefFlashBrowser:让经典Flash内容重获新生的专业解决方案
  • 光线追踪(Ray Tracing):揭秘那个让数字世界“真实如镜“的光学魔法
  • WarcraftHelper:5个核心功能让魔兽争霸3在现代系统上重获新生
  • Blender 3MF插件:在3D打印工作流中实现CAD与CAM的无缝衔接
  • Godot PCK解包实战:从热更新卡顿到资源审计的完整指南
  • GPT-6统一智能体架构解析:双层级推理与200万上下文如何重塑AI应用开发