C++ STL 之随机数生成详解
C++ STL 之随机数生成详解
为什么 C 的rand()不该用
C 标准库的rand()有三个硬伤:
- 周期极短:绝大多数实现周期仅 231− 1(约 21 亿),在大量采样时必然重复。
- 低位不随机:
rand() % n依赖低 12 位,实现多为 LCG(线性同余),低位周期比高位短得多。例如RAND_MAX为 32767 时,rand() % 2始终输出 0、1、0、1…… - 无分布抽象:
rand() % n会产生偏差(除非 n 整除 RAND_MAX),更不存在正态、伯努利等分布。
C++11 的<random>用**引擎(Engine)+ 分布(Distribution)**双层架构彻底解决了这些问题。
双层架构
引擎负责产生原始随机比特流,分布将比特流映射为特定分布的数值。上层只关心分布,下层只关心随机性——职责分离。
引擎选型
std::mt19937——梅森旋转算法
最常用、最推荐。周期 219937− 1(约 106000),状态大小 2.5 KB。通过了绝大多数统计随机性测试(Diehard、BigCrush)。
#include<random>#include<iostream>intmain(){std::mt19937eng(42);// 固定种子,可复现std::cout<<eng()<<"\n";// 直接取原始 uint32_treturn0;}mt19937_64是 64 位版本,周期相同,输出uint64_t。
std::ranlux48——RANLUX 算法
源自物理学家 Lüscher 的提议,通过丢弃部分输出改善相关性。周期约 2576,状态小(约 300 字节),适合对统计质量要求极高、对速度不敏感的场合。
std::ranlux48eng(42);std::knuth_b——Knuth 洗牌表
基于 Knuth《The Art of Computer Programming》中的算法。包含一个 256 个元素的洗牌表,周期约 231。适合玩具场景,生产代码不建议使用。
引擎适配器
discard_block_engine:丢弃部分输出提升质量(ranlux 基于此)independent_bits_engine:改变输出位宽shuffle_order_engine:用洗牌表缓存输出(knuth_b 基于此)
分布详解
uniform_int_distribution——均匀分布整数
rand() % n的正确替代方案。零偏差,闭区间 [a, b]。
std::mt19937eng(std::random_device{}());std::uniform_int_distribution<int>dist(1,6);// 骰子for(inti=0;i<10;++i)std::cout<<dist(eng)<<" ";// 1~6 均匀分布normal_distribution——正态分布(Box-Muller 变换)
底层使用 Box-Muller 变换:将两个独立的 [0,1) 均匀分布映射为两个独立的标准正态分布。
z0 = sqrt(-2 * ln u1) * cos(2π * u2) z1 = sqrt(-2 * ln u1) * sin(2π * u2)std::mt19937eng(std::random_device{}());std::normal_distribution<double>dist(170.0,5.0);// 均值 170,标准差 5for(inti=0;i<5;++i)std::cout<<dist(eng)<<"\n";// 模拟身高,大部分在 160~180C++11 起标准要求此实现,但具体算法由库决定。VS 和 libstdc++ 均采用 Box-Muller。
bernoulli_distribution——伯努利分布
以概率 p 返回true,以概率 1−p 返回false。适合抽奖、A/B 测试等二值随机实验。
std::mt19937eng(std::random_device{}());std::bernoulli_distributiondist(0.7);// 70% trueintcount=0;for(inti=0;i<10000;++i)if(dist(eng))++count;std::cout<<"true 比例: "<<count/10000.0<<"\n";// 接近 0.7std::seed_seq——真种子初始化
引擎默认种子或固定种子会导致同一进程内两次运行结果相同。用std::random_device(真随机数生成器,通常基于硬件熵源)初始化种子序列:
#include<random>intmain(){std::random_device rd;std::seed_seq seed{rd(),rd(),rd(),rd(),rd(),rd(),rd(),rd()};std::mt19937eng(seed);// 用 8 个真随机数扩展填充 2.5 KB 状态std::uniform_int_distribution<int>dist(0,100);for(inti=0;i<5;++i)std::cout<<dist(eng)<<"\n";return0;}seed_seq内部按梅森旋转算法的参数做了混洗(shuffle),保证即使种子之间有简单模式,状态初始化也是高质量的。注意std::random_device在 MinGW 下可能退化为伪随机,此时可考虑用std::chrono::system_clock::now().time_since_epoch().count()参与种子。
面试题集
Q1:rand() % n为什么不均匀?
A:当n不能整除RAND_MAX + 1时,剩余部分(RAND_MAX + 1) % n个数映射到前几个桶,导致低值偏大。正确做法为标准库的uniform_int_distribution内部做拒绝采样。
Q2:mt19937 的名字含义是什么?
A:Mersenne Twister(梅森旋转),19937来自其周期 219937− 1,这是一个梅森素数。
Q3:引擎和分布为什么要分离?
A:单一职责。引擎只负责产生高质量随机比特流;分布只负责将比特流映射到目标数学分布。两者可自由组合:同一种分布可用不同引擎,同一个引擎可喂给不同分布。
Q4:std::random_device是否一定返回真随机数?
A:不一定。实现依赖于平台熵源。Windows 上用RtlGenRandom,Linux 上读/dev/urandom,均是真随机。但 MinGW 或某些嵌入式环境可能退化为伪随机生成器。
Q5:discard_block_engine是怎么工作的?
A:引擎每生成 P 个随机数,只保留其中的 R 个,丢弃剩下的 P − R 个。通过丢弃输出打破 LCG 或 Mersenne Twister 的短周期结构相关性。ranlux48就是 P = 389、R = 192 的特化。
Q6:Box-Muller 变换为什么一次生成两个正态随机数?
A:因 Box-Muller 的数学构造(基于两个独立均匀分布做极坐标映射)天然产生两个独立的标准正态样本。实际实现通常缓存第二个,下次调用时直接返回。
Q7:线程安全吗?
A:引擎和分布对象都不是线程安全的。多线程场景下每个线程应有独立引擎副本,或加互斥锁。C++11 未提供线程安全的随机设施。
Q8:如何生成 [0, 1) 之间的浮点数?
std::mt19937eng(std::random_device{}());std::uniform_real_distribution<double>dist(0.0,1.0);doublex=dist(eng);// [0, 1)注意是半开区间[0, 1)。
总结
| 维度 | rand() | <random> |
|---|---|---|
| 周期 | 231 | 219937 |
| 分布 | 无,需手搓 | uniform / normal / bernoulli 等 |
| 偏差 | % n产生 | 拒绝采样保证无偏 |
| 扩展性 | 不可扩展 | 引擎 + 分布自由组合 |
| 线程安全 | 全局状态 | 对象级,线程各自持有 |
接手新项目先删rand(),换<random>——不是你一个人在受益,是每个 downstream 调用者都被保护了。
