当前位置：首页 > news >正文

后量子密码FrodoKEM硬件加速架构设计与优化

news 2026/7/4 10:52:10

1. 后量子密码硬件加速的挑战与机遇

在量子计算快速发展的今天，传统公钥密码体系正面临前所未有的安全威胁。基于格的密码学作为后量子密码学(PQC)中最有前景的方向之一，其安全性建立在格问题的计算复杂度之上。FrodoKEM作为ISO标准化的基于LWE(Learning With Errors)问题的密钥封装机制，因其保守的安全假设和完整的数学证明，被德国联邦信息安全办公室(BSI)和法国国家信息系统安全局(ANSSI)等机构推荐用于后量子密码迁移。

然而，FrodoKEM的硬件实现面临三大核心挑战：

计算密集型矩阵运算：FrodoKEM的核心操作是大型稠密矩阵乘法，维度高达1344×1344，计算复杂度为O(n²)。以FrodoKEM-1344为例，单次密钥生成需要进行超过1.44亿次模乘累加操作。
内存访问瓶颈：公共矩阵A需要数MB存储空间，远超FPGA片上存储容量。现有方案要么采用分块计算导致高延迟，要么需要大量BRAM资源。
多模式计算需求：不同安全级别(640/976/1344)和协议阶段(KeyGen/Encaps/Decaps)需要灵活支持多种计算模式，包括MAC(乘累加)和MA(乘加)等。

2. 整体架构设计思路

2.1 处理器架构概览

我们设计的密码处理器采用模块化架构，如图1所示，包含七大核心组件：

指令分发单元：支持双指令缓冲和冲突检测，实现多指令并行执行
中央控制器：协调内存访问和计算资源分配
哈希单元：基于Keccak的SHAKE128/256实现，用于矩阵生成和随机采样
采样器模块：4路并行CDF采样器，抗时序侧信道攻击
可重构乘法器阵列：32个乘法器+8个加法树，支持MAC/MA双模式
编解码单元(EDU)：实现Encode/Decode功能，带72位移位寄存器
内存系统：双Bank设计，采用紧凑调度策略

关键设计决策：选择纯硬件方案而非SW/HW协同设计，虽然牺牲了部分灵活性，但可获得更高的性能和更低的功耗。实测表明，纯硬件方案在ATP(面积时间积)指标上比协同设计优1.8倍以上。

2.2 创新性技术方案

本设计的三大核心技术突破点：

多指令重叠执行：通过分析协议阶段的指令依赖关系，设计静态调度方案，使哈希计算、矩阵生成和乘法运算可并行执行。实测显示，这种方案可获得1.65倍的加速比。
可重构乘法器阵列：采用符号分离技术，将16×5有符号乘法分解为16×4无符号乘法和符号处理，无需DSP单元。相比传统设计，节省了78%的乘法器面积。
紧凑内存调度：通过生命周期分析和存储复用，将中间矩阵的存活时间缩短60%，BRAM使用量从20块降至14块，降幅达30%。

3. 关键模块实现细节

3.1 哈希与采样器协同设计

哈希单元采用两级流水线结构：

吸收阶段：1600位状态寄存器+Keccak置换核心(24轮)
挤压阶段：1344位I/O缓冲区，64位内存接口

创新性的缓冲管理策略实现了计算与I/O的重叠：

// 伪代码示例：哈希计算与数据预取的并行处理 always @(posedge clk) begin if (absorb_valid) begin buffer <= next_data; // 预取下一数据块 keccak <= permute(keccak ^ buffer); // 当前块处理 end end

采样器模块与哈希单元保持4:1的吞吐匹配，每个周期处理4个16位随机数，通过比较器阵列和加法树实现常数时间的离散高斯采样。

3.2 可重构乘法器阵列

32个乘法器的创新实现方式：

将16×5有符号乘法分解为：
- 绝对值相乘：16×4无符号乘法(3个加法器实现)
- 符号处理：复用加法器的进位链实现补码转换
模约简：直接截断低D位(利用q=2^D特性)

两种工作模式的时序对比：

模式	预加载内容	流式输入	适用场景
MAC	E矩阵块	A和S矩阵	B、C计算
MA	S矩阵块	A和E矩阵	B'计算

3.3 内存调度优化技术

3.3.1 存储复用策略

通过生命周期分析发现：

矩阵E和B不会同时活跃 → 共享存储空间
S和S'分属不同协议阶段 → 共享存储空间
A矩阵采用动态生成+4分区缓冲

3.3.2 交错访问机制

如图2所示，将矩阵元素交错存储在多个BRAM中：

每个BRAM存储相邻矩阵行的交错元素
访问128位宽数据时自动重组完整矩阵块
支持同时读写不同分区的乒乓操作

3.3.3 哈希验证优化

传统方案需要存储(B′∥C)和(B′′∥C′)进行比对，我们改为比较它们的哈希值：

# 优化后的验证流程 ss0 = SHAKE(B′||C||salt||k′) ss2 = SHAKE(B′′||C′||salt||k′) if ss0 == ss2: ss = ss0 else: ss = SHAKE(B′||C||salt||s)

这种方法节省了2个BRAM块，同时保持相同的安全性。

4. 实现结果与性能分析

4.1 资源利用率

在Artix-7 XC7A100T FPGA上的实现结果：

资源类型	使用量	占比
LUT	13,467	25%
FF	6,042	11%
BRAM	14	13%
DSP	0	0%

相比文献[19]的设计，BRAM使用减少30%，且无需任何DSP资源。

4.2 性能指标

各安全级别的执行时间(时钟周期数)：

操作	FrodoKEM-640	FrodoKEM-976	FrodoKEM-1344
KeyGen	1.2M	2.8M	5.3M
Encaps	1.5M	3.6M	6.9M
Decaps	1.7M	4.1M	7.8M

在100MHz时钟下，FrodoKEM-1344的封装操作仅需6.9ms，比最快的现有实现快16%。

4.3 综合对比

与同类设计的ATP(面积时间积)对比：

设计方案	ATP(相对值)	支持的安全级别
本设计	1.0	全部(3级)
[19] Duzyol等	1.75	仅640
[16] RISC-V协同	2.00	全部
[15] Sapphire	3.12	全部

我们的设计在ATP指标上领先1.75-2倍，同时支持所有安全级别和协议阶段。

5. 实际应用中的经验总结

5.1 关键调试技巧

时序收敛：乘法器阵列采用三级流水(预加载-计算-写回)，将关键路径从8.2ns降至5.1ns。建议在RTL设计阶段就规划好流水线结构。
内存冲突检测：使用格雷码编码内存地址，可以简化地址越界检查逻辑，节省15%的LUT资源。
功耗优化：通过门控时钟关闭空闲的计算单元，实测动态功耗降低23%。

5.2 常见问题排查

采样偏差问题：
- 现象：解密失败率高于理论值
- 检查：验证CDF表的ROM初始化是否正确
- 解决：采用对称的采样区间划分，确保概率分布精确
哈希输出异常：
- 现象：矩阵A元素分布不均匀
- 检查：确认SHAKE的padding和域分隔符正确添加
- 解决：在absorb阶段额外插入1bit标志位
乘法器溢出：
- 现象：大矩阵计算结果错误
- 检查：验证符号扩展和模约简逻辑
- 解决：在累加路径插入饱和加法器