⚡C++ STL 与迭代器

`unordered_map` 与哈希冲突

面试回答

常见问法

unordered_map 的底层实现是什么？
为什么它平均是 O(1)，最坏却可能退化到 O(n)？
哈希冲突怎么解决？
rehash 和 reserve 有什么区别？
unordered_map 一定比 map 快吗？

回答

unordered_map 是无序关联容器，标准层面要求它基于哈希思想组织数据：先通过哈希函数把 key 映射到某个桶（bucket），再在桶内定位元素。

大多数实现会采用桶数组 + 拉链法（链地址法）或等价的节点结构。因此它的查找、插入、删除在平均情况下接近 O(1)，前提是：

哈希函数分布足够均匀
装载因子（load_factor = 元素数 / 桶数）不要太高
冲突不要过于集中

但它的最坏复杂度可能退化到 O(n)。原因是如果大量 key 被映射到同一个桶，那么桶内查找就会从常数级退化成线性遍历。极端情况下，所有元素都落到同一桶，哈希表几乎退化成链表。

所以面试里最好不要只说“unordered_map 是 O(1)”——更准确的说法是：

unordered_map 的查找、插入、删除是平均 O(1)、最坏 O(n)；性能高度依赖哈希函数质量、键分布、装载因子，以及是否发生大量冲突。

如果数据量已知，工程上通常会提前 reserve()，减少 rehash 次数，避免性能抖动。

#include <iostream>
#include <string>
#include <unordered_map>

int main() {
    std::unordered_map<std::string, int> cnt;
    cnt.reserve(1000);  // 预留空间，减少rehash

    cnt["hello"]++;
    cnt["world"]++;
    cnt["hello"]++;

    std::cout << cnt["hello"] << "\n"; // 2
}

追问

哈希冲突有哪些典型解决方案？各自优缺点是什么？
什么情况下会触发 rehash？它的代价是什么？
reserve() 和 rehash() 的区别是什么？
自定义哈希函数时要注意什么？
unordered_map 和 map 应该怎么选？
unordered_map 的迭代器、引用在 rehash 后会不会失效？
为什么在安全场景下要关注“恶意构造冲突”？

原理展开

1. `unordered_map` 到底是什么

unordered_map 是按 key 访问 value 的哈希容器。它的核心不是“排序”，而是“把 key 快速映射到存储位置”。

和 map 不同，unordered_map：

不保证元素有序
不支持基于顺序的操作，比如区间遍历、上界下界查找
更适合“只关心是否存在、直接按 key 查值”的场景

典型场景：

词频统计
缓存索引
ID 到对象的快速映射
去重 / 计数 / 高频查找

2. 为什么平均 `O(1)`，最坏 `O(n)`

哈希表的理想状态是：元素被均匀分散到多个桶里，每个桶只挂少量元素。这样查找一个 key 时：

先算哈希值
定位桶
在桶内做少量比较

所以平均复杂度接近 O(1)。

但如果冲突严重，很多元素集中到少数桶里，桶内查找成本会迅速上升。最坏情况下所有 key 都落到同一个桶：

查找：O(n)
插入：O(n)
删除：O(n)

这也是为什么面试里不能把 unordered_map 简化成“恒定时间复杂度”。

3. 什么是哈希冲突

哈希冲突指的是：不同 key 经过哈希后落到了同一个桶。

注意区分两个概念：

哈希值相同：两个 key 算出的 hash 值一样
桶冲突：即使 hash 值不同，只要映射到同一个桶，也会冲突

因为桶数通常远小于可能的 key 空间，所以冲突是必然存在的，重点不是“消灭冲突”，而是“把冲突控制在低水平”。

4. 常见冲突解决方法

标准不强制 unordered_map 必须使用哪种具体结构，但面试里可以回答常见两类方案：

4.1 链地址法（拉链法）

每个桶维护一个链表、链表节点或等价节点结构；冲突元素挂在同一个桶下。

优点：

实现直观
删除方便
对装载因子容忍度相对更高

缺点：

节点分散，缓存局部性较差
额外指针/节点内存开销较大

4.2 开放寻址法

冲突后不挂链，而是在表中继续探测下一个空位，如线性探测、二次探测、双重哈希。

优点：

连续内存，缓存友好
额外节点开销更小

缺点：

删除复杂
装载因子高时性能下降明显
需要更仔细设计探测策略

补一句很加分：

C++ 标准库接口暴露了 bucket 概念，但不强制底层必须是某一种具体冲突解决实现；主流实现通常接近“桶 + 节点链”模型。

5. 装载因子与 `rehash`

装载因子：

load_factor = size / bucket_count

装载因子越高，说明每个桶平均元素越多，冲突概率通常越高。

unordered_map 维护一个最大装载因子 max_load_factor()。当元素增长到一定程度，容器可能触发 rehash：

重新分配更多桶
重新计算元素落桶位置
降低平均冲突程度

这能改善后续查找效率，但 rehash 本身代价不低，因为需要把现有元素重新组织。

#include <iostream>
#include <unordered_map>

int main() {
    std::unordered_map<int, int> mp;
    std::cout << "bucket_count = " << mp.bucket_count() << "\n";
    std::cout << "load_factor = " << mp.load_factor() << "\n";
    std::cout << "max_load_factor = " << mp.max_load_factor() << "\n";

    mp.rehash(100); // 至少准备100个桶
    std::cout << "bucket_count after rehash = " << mp.bucket_count() << "\n";
}

`reserve()` 和 `rehash()` 的区别

这是高频追问：

reserve(n)：按“未来要放 n 个元素”去准备桶数，更偏业务语义
rehash(n)：直接要求桶数至少为 n，更偏底层控制

面试回答建议说：

如果我已知大概元素个数，优先用 reserve()，因为它更符合“我要插入多少元素”的思路；rehash() 更像直接操作桶数。

6. 自定义哈希函数要注意什么

自定义哈希不是“能跑就行”，要满足两个关键点：

6.1 一致性要求

如果两个 key 被判定为相等（key_equal(a, b) == true），那么它们的哈希值必须相等。否则容器行为会出问题。

也就是说：

相等的 key 必须得到相同 hash；不相等的 key 可以 hash 相同。

6.2 分布性要尽量均匀

好的哈希函数应尽量做到：

分布均匀
冲突率低
计算成本不要太高

6.3 自定义相等判定时要和哈希配套

如果你改了“相等”的定义，就必须保证哈希逻辑和它一致。

#include <iostream>
#include <string>
#include <unordered_map>

struct MyHash {
    size_t operator()(const std::string& s) const {
        size_t h = 0;
        for (char c : s) {
            h = h * 131 + static_cast<unsigned char>(c);
        }
        return h;
    }
};

int main() {
    std::unordered_map<std::string, int, MyHash> mp;
    mp["apple"] = 3;
    mp["banana"] = 5;

    std::cout << mp["apple"] << "\n";
}

7. 为什么 `unordered_map` 不一定比 `map` 更好

这是面试里很容易答浅的地方。不是看复杂度公式，而是看场景。

什么时候更适合 `unordered_map`

高频单点查找
不关心顺序
更关注平均性能
可以接受更多内存开销
业务 key 分布合理，哈希质量可控

什么时候更适合 `map`

需要按 key 有序遍历
需要范围查询，如 lower_bound / upper_bound
需要更稳定的最坏复杂度
希望迭代顺序可预测
数据量不大但更强调稳定性和可维护性

工程里常见判断原则：

只做精确查找、插入、删除，且不关心顺序，优先考虑 unordered_map。一旦涉及排序、范围查询、顺序稳定、最坏复杂度保证，优先考虑 map。

8. 迭代器失效与工程风险

这部分很容易成为追问点。

8.1 `rehash` 的影响

rehash 后：

迭代器会失效
元素的桶位置会变化
遍历顺序可能变化

面试中可以这样答：

unordered_map 在 rehash 后通常会导致迭代器失效，所以边遍历边插入时要特别小心；如果插入可能触发扩容，原有迭代器不能继续安全使用。

8.2 顺序不稳定

unordered_map 的遍历顺序：

不保证有序
不保证跨平台一致
甚至同一程序在不同阶段 rehash 后顺序也可能变化

所以：

不能依赖它输出固定顺序
做日志、序列化、对拍时要格外注意

9. 一个容易被忽略的点：安全性与恶意冲突

在面试中，如果你能补一句“恶意构造输入可能导致哈希退化”，会比较加分。

因为如果攻击者能构造大量 key，使它们集中冲突，那么哈希表性能会明显下降，形成类似 DoS 的风险。因此在高安全或对外暴露接口的场景下，会更关注：

哈希函数抗冲突能力
输入是否可控
是否需要更稳妥的数据结构

这说明你不只是记复杂度，而是理解了哈希表的工程边界。

对比总结

对比项	`unordered_map`	`map`
底层思想	哈希表	红黑树（平衡二叉搜索树）
元素顺序	无序，不保证遍历顺序	按 key 有序
查找 / 插入 / 删除	平均 `O(1)`，最坏 `O(n)`	稳定 `O(log n)`
是否支持范围查询	不适合	适合，支持 `lower_bound` / `upper_bound`
性能特点	平均更快，但依赖哈希质量和负载情况	理论上稍慢，但更稳定
内存开销	通常更高，涉及桶和节点管理	通常也不低，但结构更偏树节点
迭代顺序稳定性	不稳定，`rehash` 后可能变化	稳定有序
适用场景	高频精确查找、计数、缓存、去重	有序遍历、范围查询、最坏复杂度可控场景
选型建议	不关心顺序时优先考虑	关心顺序和稳定性时优先考虑

易错点

把 unordered_map 直接说成“查找一定是 O(1)”
只会背“底层是哈希表”，但说不清为什么会退化
认为哈希冲突是异常情况，实际上冲突是常态，只是程度不同
认为 unordered_map 一定比 map 快
不清楚 reserve() 和 rehash() 的区别
忽略 rehash 带来的性能抖动和迭代器失效
依赖 unordered_map 的遍历顺序
自定义哈希函数时只写 hash，不考虑与相等判定的一致性
用 operator[] 做查找却没意识到：key 不存在时会插入默认值
在遍历过程中不断插入元素，没考虑可能触发 rehash

记忆技巧

一句话主线： 哈希函数决定落桶，装载因子影响冲突，冲突严重就会退化。
三连记忆：
1. Hash：把 key 映射到桶
2. Bucket：桶里可能有多个元素
3. Rehash：桶不够用了就重分配并重组织
复杂度口诀： 平均常数，最坏线性；快在分散，慢在冲突。
选型口诀： 只查不排用 unordered_map，要序要范围用 map。

面试速答版

unordered_map 本质上是基于哈希表的无序关联容器。它先通过哈希函数把 key 映射到桶，再在桶内查找元素，所以平均查找、插入、删除接近 O(1)。但如果哈希冲突严重，很多元素落到同一个桶里，桶内查找就会退化成线性扫描，最坏复杂度是 O(n)。实际性能取决于哈希函数是否均匀、装载因子是否过高，以及是否频繁 rehash。工程上如果已知数据规模，通常会先 reserve()，减少扩容和性能抖动。它适合高频查找且不关心顺序的场景；如果需要有序遍历或范围查询，通常选 map。

面试加分版

unordered_map 是哈希思想的典型应用。核心流程是：先对 key 做 hash，映射到某个 bucket，再在桶内定位元素。大多数实现会采用桶数组配合链式节点或等价结构，所以它的查找、插入、删除在平均情况下接近 O(1)。

但这个复杂度不是绝对的，它依赖三个前提：第一，哈希函数分布要足够均匀；第二，装载因子不能太高；第三，冲突不能集中。如果很多 key 落到同一个桶，桶内操作就会退化，最坏能到 O(n)。所以面试里我一般会强调：unordered_map 是平均 O(1)、最坏 O(n)，而不是简单说成常数时间。

冲突本身是不可避免的，关键在于怎么控制。常见思路有链地址法和开放寻址法。标准库不强制具体实现，但主流实现通常接近“桶 + 节点”的模型。随着元素增多，如果装载因子超过阈值，容器会触发 rehash，重新分配更多桶并重组元素，这能降低后续冲突，但 rehash 本身有成本，也会导致迭代器失效。工程上如果预估到元素规模，我会优先 reserve()，尽量减少运行时扩容。

选型上，unordered_map 适合缓存、计数、ID 映射这类只关心快速精确查找、不关心顺序的场景；如果要有序遍历、做范围查询，或者更看重最坏复杂度稳定性，我会选 map。另外自定义哈希时要注意一个关键约束：如果两个 key 按相等判定被认为相等，那它们的 hash 必须相同，否则容器行为就不正确。