概述

“性能优化”的四个问题

价值判断是否性能问题
定位问题层级出在哪个量级
选择合适的策略去解决这个量级的瓶颈
在这个策略下，代码/编译/微架构层面还能再提升多少

绝大多数失败的优化努力，其实死在第 1 和第 2 步，而不是第 4 步。

二、四个典型量级 + 对应的宏观打法

量级	典型表现	优化幅度潜力	主要解决思路（优先级顺序）	常见负责角色	投入产出比排序
O(量级) 差距	10–1000× 慢	10–1000×	换算法 / 换数据结构 / 换存储方式 / 换并发模型	架构 / 核心开发	★★★★★
内存访问主导	cache miss、TLB miss、false sharing	2–30×	改数据布局（AoS→SoA）、主动预取、内存池、减少随机访问、NUMA 感知	性能 / 引擎 / 内核	★★★★☆
分支 / 流水线	高 misprediction rate、长依赖链	1.3–5×	减少分支 / 热路径直线化 / 去虚 / 降低依赖 / 向量化前提准备	性能 / 热点模块	★★★★☆
指令级并行度	端口竞争、低 IPC、寄存器压力大	1.1–3×	指令调度、寄存器着色、向量化实现、减少 div/复杂指令、微调内联	极致性能 / 量化 / HPC	★★☆☆☆
后编译优化	已经 -O3 但还有明显提升空间	1.05–1.4×	ThinLTO + PGO/CSS PGO + BOLT/Propeller	几乎所有性能团队	★★★☆☆

一句话口诀： 先解决量级问题，再解决内存问题，再解决分支问题，最后才碰指令级和编译器细节。

三、宏观决策流程

价值
- 这个 20% 慢真的值不值得花 2 周去优化
- 优化后对关键指标（QPS、P99、功耗、帧率、资金效率等）提升有多大
- 有没有更简单粗暴的方案（加机器、降精度、分区、业务降级）
先用最高层工具定位（而不是先猜热点）
- perf + flamegraph（最常用）
- VTune / Tracy / Nsight / Perfetto
- perf c2c / likwid / uica / llvm-mca（二级定位）
用“瓶颈分类表”快速定策略

你看到的现象	最可能的真正瓶颈层级	优先尝试的宏观策略
火焰图里全是同一个函数，但占比不高	算法 / 数据结构	换结构 / 降复杂度 / batching
L3 miss rate 高、DRAM 访问占比大	内存访问	AoS→SoA、预取、内存池、减少 indirection
branch miss rate >10–15%	分支预测	热路径前置、[[likely]]、去虚、减少间接分支
IPC 很低（<1.0～1.5），端口占用不均	执行资源竞争 / 依赖链	向量化、减少 div、拆依赖、寄存器优化
热点函数已经很“干净”，但仍有差距	编译器没看到全局信息	ThinLTO + PGO + BOLT

分阶段投入原则

第一阶段：定位 + 改布局 + batching + 去虚第二阶段：向量化 + 分支重排 + PGO 第三阶段（2 周+）：BOLT / Propeller / 手写 SIMD / 汇编

四、趋势方向

数据布局仍然是王道 AoS → SoA / AoSoA / hybrid layout 仍然是最高杠杆的改动之一。
向量化比很多人想的更重要 AVX-512、SVE、ARM SVE2 普及度在上升，auto-vectorization 成功率也在提高，但前提是数据布局和内存访问模式友好。
PGO + ThinLTO + BOLT/Propeller 组合已成为“基本盘” 越来越多的项目把这三者作为默认构建选项，而不是“极致优化才开”。
内存带宽和功耗成为新瓶颈 尤其在服务器、移动、AI 推理场景，优化目标从“快”变成“快且省电/省带宽”。
工具驱动优化越来越强 靠感觉写内联、靠手改向量化正在变成低效行为，更多团队依赖 llvm-mca、uiCA、Propeller 等工具给出建议。

五、宏观框架

优化分成三个层次去看：

第一层：业务/算法层面，我们把 XXX 从 O(n²) 降到 O(n log n)，收益 ≈ 40×
第二层：内存访问层面，我们把数据从 AoS 改成 SoA + 主动预取，L3 miss 下降 65%，整体加速 2.4×
第三层：微架构 + 编译器层面，通过 PGO + ThinLTO + 分支重排，额外拿到 1.35×

NUMA

NUMA（Non-Uniform Memory Access，非均匀内存访问） 是现代多路（multi-socket）服务器中最核心的内存架构特征，几乎所有还在服役的主流服务器 CPU（Intel Xeon Scalable、AMD EPYC、部分 ARM 服务器芯片）都深度依赖 NUMA 来实现高核心数 + 高内存容量的可扩展性。

简单一句话概括： NUMA 就是“同一个系统里，不同 CPU 核心访问同一块内存的延迟和带宽是不一样的”，离得近的内存快，离得远的内存明显慢。

1. 历史

早期多核系统用 UMA（Uniform Memory Access）：所有核心通过一个共享的总线 / 内存控制器访问同一块内存。但当核心数超过几十、上百时：

共享总线 / 控制器成为瓶颈
信号传播距离变长 → 延迟爆炸
电容、功耗、布线难度指数级上升

于是硬件厂商改用 分布式内存 + 点对点互联 的方式：

每个 CPU socket（或每个芯片组）带自己的本地内存控制器 + 本地 DIMM 槽
socket 之间用高速互联（Intel 用 UPI / QPI，AMD 用 Infinity Fabric，部分 ARM 用 CMN / CM3）互相连起来
本地内存访问最快，跨 socket 访问要走互联 → 延迟增加 1.8~3 倍，带宽下降明显

这就是 NUMA 的物理根源。

2. 典型 NUMA 拓扑举例

CPU 系列	单 socket 常见 NUMA 节点数	每节点大致包含	典型延迟差距（本地 vs 远程）	备注
AMD EPYC 9004/9005 (Genoa/Turin)	NPS=1 / 2 / 4（BIOS 可选）	NPS=4 时每节点 ≈16 核 + 内存通道	本地 ~80-100ns，远程 +20~50ns	最常见 NPS=2 或 NPS=4
Intel Xeon 6 (Granite Rapids)	通常 1~4（SNC 模式可分）	每 compute die ≈1 个子 NUMA	本地 ~90-110ns，远程可达 180+ns	chiplet 设计，跨 die 更明显
双路服务器（2 socket）	2~8 个节点	每个 socket 自己的节点	跨 socket 通常 1.8~2.5× 延迟	最常见的生产环境
四路及以上（很少见）	4~16+ 个节点	—	延迟差距可达 3~4 倍	HPC、金融极端低延迟场景

关键点：现在的 NUMA 不只跨 socket 了，单 socket 内部也可能有子 NUMA（AMD NPS、Intel SNC / sub-NUMA clustering）。

3. NUMA 对性能的真实影响

访问类型	典型延迟 (ns)	相对本地延迟倍数	带宽相对损失	常见影响场景
本地内存	80–110	1×	—	最佳情况
同 socket 内子 NUMA	100–140	1.2–1.6×	轻微	AMD NPS=4、Intel SNC
跨 socket（1 hop）	140–220	1.8–2.5×	30–60%	最常见跨 NUMA 惩罚
跨多 hop（4路+）	250–400+	3×+	严重	极少见，但灾难性

实测数据：

Redis/Memcached：跨 NUMA 命中率下降 → QPS 掉 20–50%
数据库（PG/MySQL/ClickHouse）：Join、聚合跨节点 → 延迟抖动增大 2–4 倍
AI 推理/训练（大模型 loading）：内存带宽瓶颈时跨 NUMA 损失 30–60%
低延迟交易：跨 NUMA 一次访问就能多 80–120ns → 致命

4. Linux 下怎么感知和控制 NUMA

查看当前机器 NUMA 拓扑

# 节点数、CPU 分布、内存大小
numactl --hardware

# 更详细拓扑（推荐）
lscpu -e

# 树状图可视化（最直观）
lstopo   # 需要安装 hwloc 包

# 每个进程当前在哪些节点分配了内存
numastat -c  # 看进程名或 pid

# 节点间距离矩阵（latency 相对值）
numactl --hardware | grep distances

常用控制手段

工具/方式	作用	典型命令示例	推荐场景
numactl –membind	强制内存只从指定节点分配	numactl –membind=0 ./redis-server	数据库、KV 存储
numactl –cpunodebind	线程/进程只调度在指定节点 CPU 上	numactl –cpunodebind=0 –membind=0 ./myapp	最常用组合
numactl –localalloc	尽量用本地内存（默认策略）	—	默认较好
numactl –interleave	内存轮询分配到多个节点	numactl –interleave=0,1 ./bandwidth_test	带宽敏感但不 latency 敏感
taskset + numactl	先绑核再绑内存	taskset -c 0-15 numactl –membind=0 ./app	精细控制
/sys 手动设置	进程运行时动态改	echo 0x3 > /proc/1234/numa_maps (位掩码)	已有进程调整
systemd 服务文件	开机自启动服务绑 NUMA	CPUAffinity=0-31 MemoryPolicy=bind=0	生产服务推荐

自动优化工具

numad（NUMA 自动守护进程）：动态迁移页面和进程，适合负载变化大的环境
numactl –hardware-aware 或容器 orchestrator（如 K8s CPU Manager static policy）

5. 生产中最常见的 NUMA 优化策略

延迟敏感型（交易、游戏服、实时推理）：尽量 membind + cpubind 到同一个 NUMA 节点，避开跨节点访问。
吞吐量型（Nginx、日志分析）：可以用 interleave 或者不绑，让内存均匀分布，避免单节点带宽打满。
内存大户（ClickHouse、分析型数据库）：优先绑内存 + 绑核，结合 hugepage + mlockall。
虚拟化 / 云原生（KVM、容器）：用 vNUMA（暴露真实拓扑给 guest），K8s 用 static CPU policy + topologyKeys。

性能优化建议

最常见、最具代表性的优化手段的实际收益排序（从高到低

排序主要针对浮点/整数稠密计算热点（最常见的“高性能C++”场景），其他场景（如分支密集、稀疏、分配爆炸）会明显移位。

排名	优化手段	典型单项收益（相对于未优化的朴素代码）	累积后常见总收益	是否最常成为“瓶颈解决王”	适用前提 / 挑剔程度	现代C++实现关键词	备注 / 为什么排这个位置
1	内存访问优化（缓存局部性 + 避免伪共享）	3–30×（最常见5–15×）	基础	★★★★★（出现频率最高）	非常宽，几乎必做	SoA / AoSoA, alignas(64), std::hardware_destructive_interference_size, prefetch	内存墙越来越严重，主宰一切后续优化。没有好缓存，SIMD/并行都白搭
2	向量化（SIMD）	4–32×（auto 2–8×，手动8–32×）	非常高	★★★★☆（稠密循环时王者）	中等偏窄	auto-vectorization, intrinsics, std::simd (C++26实验), FMA	单项天花板最高，但必须先有第1名
3	数据布局重构（AoS → SoA / AoSoA / flat）	2–15×（配合SIMD可到20–50×）	高	★★★★☆	中等	Structure of Arrays, ECS风格	本质上是第1名的进阶形式，很多项目把这一步和缓存优化合并算
4	多线程并行（合理粒度 + 低争用）	1–核心数×（8核≈5–12×，64核≈20–50×+）	极高（核心多时）	★★★★☆（吞吐量场景）	宽（但有并行度限制）	std::execution::par_unseq, jthread, tasking, coroutines/senders	容易受Amdahl定律限制 + 引入伪共享后反而掉速
5	分配优化（内存池、pmr、单次大分配）	3–100×（小对象高频new/delete时）	中～高	★★★☆☆（特定场景爆炸）	窄	std::pmr, monotonic_buffer_resource, arena allocator	只在分配占比很高时才排这么前
6	编译期计算 + constexpr/consteval	运行时部分→0×（可移除几万行计算）	中	★★★☆☆	中等	constexpr, consteval, if consteval	收益稳定但上限不高
7	PGO + LTO + ThinLTO + -O3/-Ofast	1.1–2.0×（平均1.25–1.5×）	稳定小提升	★★☆☆☆	极宽	-fprofile-generate/use, -flto	每个人最终都会做，但不是“哇”级提升
8	分支预测 + 减少分支 / 排序 / 去虚拟	1.2–4×（极端10×+）	中	★★☆☆☆	中等	[[likely]]/[[unlikely]], devirtualization	现代CPU分支预测很强，收益在下降
9	循环展开 + restrict / #pragma unroll	1.1–2.5×	小～中	★☆☆☆☆	窄（热点循环）	__restrict, #pragma unroll(N)	编译器现在很聪明，手动收益变小

排序

“先吃内存，再吃向量，然后并行分核，最后填坑”

内存（Cache + 布局） → 不做好后面全废
向量（SIMD） → 天花板最高的那一刀
并行（多线程/任务） → 乘以核心数，但别破坏前两步
分配/热点微调 → 哪个爆了修哪个

不同场景的微调排序

游戏物理/粒子/渲染批处理：1（SoA+缓存） > 2（SIMD） > 3（并行） > 5（分配）
ML推理内核 / 图像/音视频滤波：2（SIMD） ≈ 1（缓存） > 4（并行） > 7（PGO）
服务器 / 高吞吐后台计算：4（并行） > 1（缓存+伪共享） > 5（分配） > 2（SIMD较少用）
HFT / 超低延迟：5（分配） > 1（缓存） > 8（分支） > 4（通常单线程）
科学计算 / 大矩阵：2（SIMD） > 1（缓存 blocking） > 4（并行） > 7（PGO）

中断

中断（Interrupt） 是操作系统和 CPU 必须处理的最重要机制之一，它让 CPU 能够及时响应外部事件或内部异常，而不是一直轮询检查。

中断的分类方式有很多种，不同教材/内核/架构的叫法略有差异。下面按最常见、最实用的分类方式来讲解（以现代 x86-64 Linux 视角为主），并标注发生时机。

1. 按来源 / 产生者分类

分类	子类型	是否同步	是否可屏蔽	典型发生时机（什么时候触发）	典型例子	Linux 中常见处理方式
硬件中断 (Hardware Interrupt)	外部中断 / 异步中断	异步	大多可屏蔽	外部设备随时产生（与 CPU 时钟无关）	网卡收到包、键盘按下、硬盘 I/O 完成、定时器到期	IRQ → 中断控制器 → do_IRQ / __do_irq
	— 非屏蔽中断 (NMI)	异步	不可屏蔽	严重硬件故障、看门狗超时、机器检查异常等紧急情况	内存 ECC 错误、总线错误、NMI 按钮	nmi_handler / die() 等
	— 可屏蔽中断 (Maskable)	异步	可屏蔽	外设正常操作或状态变化	键盘、鼠标、网卡、USB、定时器 tick	request_irq / irq_desc
软件中断 / 异常 (Software-generated / Exception)	同步异常	同步	不可屏蔽	CPU 执行当前指令时检测到问题（与指令严格同步）	— 缺页 (Page Fault) — 除 0 (Divide Error) — 无效指令	do_page_fault / do_trap 等
	— 故障 (Fault)	同步	—	可恢复的错误，保存现场后可重试当前指令	缺页、段错误（部分）	可重试当前指令
	— 陷阱 (Trap)	同步	—	故意产生的，用于系统调用或调试	系统调用 (syscall/int 0x80)、断点 (int 3)	返回下一条指令
	— 中止 (Abort)	同步	—	严重不可恢复错误，通常导致进程/系统崩溃	双重故障、机器检查异常	通常 kill 进程或 panic
软中断 (SoftIRQ)	—	异步（延迟）	—	硬中断上半部标记后，在特定安全点执行（中断返回、ksoftirqd）	网络收发 (NET_RX/TX_SOFTIRQ)、块设备、调度 (SCHED_SOFTIRQ)	raise_softirq → run on softirq vec

2. 按是否与 CPU 时钟同步分类

同步中断（Synchronous） 只在当前指令执行结束或指令边界产生，与 CPU 时钟严格同步。 → 异常（Exception）基本都属于这一类。发生时机：执行到出错指令、系统调用指令、调试指令时。
异步中断（Asynchronous） 可在任意指令之间发生，与 CPU 执行流无关。 → 硬件中断（包括 NMI 和普通 IRQ）都属于异步。发生时机：外部硬件信号随时到达。

3. 按可屏蔽性分类（影响优先级和紧急度）

可屏蔽中断（Maskable Interrupt） CPU 可通过设置中断掩码寄存器（或 cli/sti 指令）暂时忽略。大部分外设中断都可屏蔽。
不可屏蔽中断（Non-Maskable Interrupt, NMI） 无论 cli 还是屏蔽位都无法忽略，用于最高紧急事件。发生时机：硬件严重故障、系统挂起检测等。

4. Linux 内核实际最常用的“两阶段”视角（上半部 vs 下半部）

阶段	对应类型	执行上下文	允许被打断吗？	发生/执行时机	目的
上半部	硬中断	中断上下文（不可睡眠）	只能被 NMI 打断	硬件中断立即触发 → IRQ handler	快速处理时间敏感/硬件相关部分
下半部	软中断/Tasklet/BH/Workqueue	进程上下文或 softirq 上下文	可被普通硬中断打断	上半部标记后，在中断返回、ksoftirqd、系统调用返回等时机执行	延迟执行耗时、非紧急的工作

总结：中断发生时机的“一句话规律”

硬件中断：随时（异步），由外设电信号触发。
异常（同步中断）：当前指令执行中或结束时，CPU 自己检测到问题。
软中断：硬中断上半部标记后，在中断退出路径、ksoftirqd 内核线程、系统调用返回等“安全点”被执行。
系统调用（特殊软中断/陷阱）：用户程序主动执行 syscall 指令时。

分类组合：

硬件中断 vs 异常（异步 vs 同步）
可屏蔽 vs 不可屏蔽
上半部（硬中断） vs 下半部（软中断/Tasklet）

上下文切换

含义

上下文切换（Context Switch） 是操作系统中非常核心且代价很高的一个操作。

简单一句话定义：

上下文切换 = 操作系统暂停当前正在运行的进程/线程，把CPU让给另一个进程/线程，并让新进程/线程开始执行的过程。

在这个过程中，操作系统必须“保存好旧任务的现场” + “恢复新任务的现场”，这会带来明显的性能开销。

上下文切换到底在保存和恢复什么？

保存/恢复的内容	大致字节数（64位系统）	说明
通用寄存器（rax, rbx, rcx…）	~120–200 字节	几乎所有通用寄存器
程序计数器（RIP）	8 字节	下一条要执行的指令地址
栈指针（RSP）	8 字节	当前栈顶位置
标志寄存器（RFLAGS）	8 字节	条件标志位、方向标志等
段寄存器（CS, SS, DS…）	~几十字节	现代平坦内存模型下基本不变，但仍需保存
浮点/SSE/AVX 寄存器	512–4096 字节（视启用情况）	如果用了 AVX-512，可能要保存 2KB+ 的向量寄存器
线程私有数据（TLS）	几十到几百字节	pthread_self 等
内核态栈指针、cr3（页表基址）	8 + 8 字节	进程切换时必须换页表（用户态地址空间不同）
总计（典型情况）	几百 ~ 几 KB	轻量级线程切换几百字节，重度浮点任务可能上千字节

上下文切换的典型开销

场景	大致时间（纳秒）	CPU 周期（约 4GHz）	备注
同核同进程线程切换	200–600 ns	800–2400 周期	最轻量（用户态调度器 + futex 等）
同核不同进程切换	800–2000 ns	3200–8000 周期	要换 cr3（TLB 失效）
跨核进程切换	1500–4000+ ns	6000–16000+ 周期	还要涉及缓存一致性、NUMA 等
涉及大量浮点/AVX512 切换	可达 5–10 μs	2–4 万周期	保存/恢复大块向量寄存器
进入/退出内核（系统调用）	50–150 ns	200–600 周期	不一定是完整上下文切换

一句话总结开销：一次完整进程上下文切换通常消耗几微秒到十几微秒，相当于几千到几万条普通指令的执行时间。

上下文切换常见场景

时间片用完（最常见） → 调度器抢占（preemptive）
当前进程主动 sleep/yield/wait/block（I/O、锁、sleep、条件变量等）
高优先级任务就绪（中断、信号、定时器）
系统调用中显式调度（sched_yield）
中断处理完后返回用户态时发现需要调度

上下文切换对性能的真实杀伤力

破坏了 CPU 缓存（L1/L2/TLB） 的局部性
破坏了 分支预测器、指令预取 的历史记录
多核下还可能引发 缓存一致性协议 开销（特别是跨 NUMA）
高并发服务器里如果每秒发生几十万次上下文切换，CPU 有效利用率可能掉到 30–50%

零拷贝与上下文切换的关系

方式	上下文切换次数	为什么少/多
read + write	4 次	两次系统调用 + 两次返回用户态
mmap + write	4 次	仍然需要 write 系统调用
sendfile	2 次	一次系统调用搞定全部
io_uring（单次提交）	接近 0–1 次	可批量提交 + 异步完成通知

总结一句话：

上下文切换是操作系统把 CPU 使用权从一个执行流（进程/线程）交给另一个执行流时，必须付出的“现场保存与恢复”代价，它本身不干活，但几乎每次都会带来 缓存失效 + 几千到几万 CPU 周期的开销，是高并发系统最主要的性能敌人之一。

系统调用中的”上下文切换”

系统调用为什么会产生“上下文切换”？ 其实严格来说，大多数系统调用并不引发完整的进程/线程上下文切换（即不切换到另一个进程或线程），而是引发一种特权级/模式切换（user mode ↔ kernel mode），但这个过程在寄存器、栈、TLB等方面与上下文切换高度相似，因此很多人（包括很多性能分析工具）会把它也称为“上下文切换”或“轻量上下文切换”。

最常见的现代 x86-64 Linux 来拆解真实流程和为什么有开销。

1. 系统调用典型流程

以 read() 系统调用为例（syscall 指令路径，Linux 5.x+）：

步骤	位置	发生了什么	是否完整进程上下文切换？	大致开销贡献
1	用户态	用户程序执行 syscall 指令（或老的 int 0x80 / sysenter）	—	—
2	CPU 硬件	CPU 检测到 syscall → 自动保存部分用户态寄存器（RIP, RSP, RFLAGS 等）到特定位置	否	几十～百周期
3	CPU 硬件	CPU 切换到 Ring 0（内核态），加载内核代码段、栈指针	模式切换	核心开销
4	内核入口	执行 entry_SYSCALL_64（汇编） • 保存剩余用户寄存器到 pt_regs（内核栈） • 可能切换到 per-cpu 内核栈（如果之前用的是用户栈）	部分寄存器保存	主要开销之一
5	内核 C 代码	进入 do_syscall_64 → 根据 syscall number 分发到具体实现（如 sys_read）	—	视调用而定
6	系统调用执行中	可能发生： • 阻塞型调用（如 read 磁盘未命中）→ 调用 schedule() → 完整进程上下文切换 • 非阻塞快速返回（如 getpid）→ 不切换进程	只有阻塞才完整切换	0 或几μs
7	返回路径	从内核返回前： • 检查是否需要调度（TIF_NEED_RESCHED 标志） • 如果需要 → 调用 schedule() → 完整上下文切换 • 否则直接恢复	可能在这里发生完整切换	—
8	内核出口	恢复 pt_regs 中的用户寄存器 • 切换回用户页表（cr3，如果需要） • 执行 sysretq 或 iretq	模式切换 + 寄存器恢复	主要开销之一
9	用户态	CPU 回到 Ring 3，用户程序从 syscall 下一条指令继续执行	—	—

总结流程一句话： 用户 → syscall → 保存用户现场 → 内核态执行 → （可能调度其他进程） → 恢复用户现场 → 返回用户态

2. 系统调用和上下文切换的区别

场景	是否发生完整进程/线程上下文切换	是否发生用户↔内核模式切换	典型例子	大致开销（现代 CPU）
快速、非阻塞系统调用	否	是	getpid, gettid, clock_gettime	50–200 ns
阻塞型或时间片到期	是（可能）	是	read(慢设备), sleep, futex_wait	几百 ns ～几 μs（+切换）
系统调用中主动调用 schedule	是	是	大量 I/O、等待锁、某些内存操作	完整切换开销

所以最准确的说法是：

每一次系统调用都会发生用户态 ↔ 内核态的模式切换（privilege level switch / mode switch）
这个模式切换本身就要保存/恢复大量寄存器、切换内核栈、刷新部分预测器、可能换 cr3（地址空间） → 这和上下文切换的很多动作高度重合
但不一定会发生完整的进程/线程切换（即切换 current task_struct、换页表、换整个 CPU 上下文到另一个任务）

3. 为什么很多人直接说“系统调用会引起上下文切换”？

开销在同一个数量级（尤其是老内核或大量浮点/AVX 寄存器时）
perf、bcc、systemtap 等工具通常把 mode switch 也统计进 “context switch” 或 “kernel/user transitions”
阻塞型系统调用确实会引发真正的进程调度
早期文档和很多教程简化表述，没有严格区分 “mode switch” 和 “full context switch”

4. 快速总结对比表

项目	普通快速 syscall（如 getpid）	阻塞型 syscall（如 read 磁盘 miss）	完整进程上下文切换（如时间片到期）
模式切换（Ring3↔Ring0）	是	是	是（通常伴随）
保存/恢复 pt_regs	是	是	是
切换内核栈	通常是	是	是
切换 cr3（页表）	否（同进程）	否（除非切换进程）	是（不同进程）
调用 schedule()	否	很可能	是
切换 task_struct	否	是（如果阻塞）	是
TLB/缓存破坏程度	中等	中～高	高
典型延迟	~50–150 ns	几百 ns ～几 μs（不含实际 I/O）	1–10 μs

一句话结论：

系统调用一定会引发用户-内核模式切换（带有寄存器保存/恢复、栈切换等动作），这本身就很像“轻量上下文切换”；但只有在调用阻塞、时间片到期或显式调度时，才会发生完整的进程/线程上下文切换。

内存序

C++11 引入的 内存序（memory order） 是现代 C++ 并发编程中最核心、最难理解的概念之一。它本质上是在回答一个问题：

“当我在一个线程里对原子变量做了写操作，其他线程什么时候、按照什么顺序能看到我写的这个值，以及我之前写的非原子变量？”

下面按从最严格 → 最宽松的顺序给你讲解六种内存序，以及它们在底层大概是怎么实现的（以 x86-64 + ARM64 常见的硬件为例）。

C++11 提供的六种内存序（由强到弱）

内存序	典型使用场景	是否提供同步（synchronizes-with）	是否建立全局总序	x86-64 典型指令代价	ARM64 典型指令代价	性能排序（越靠前越贵）
memory_order_seq_cst	默认、最安全、写简单逻辑	是	是	mfence / lock cmpxchg	ldarb + stlr / dmb ish	★★★★★ 最贵
memory_order_acq_rel	读-改-写操作（如 fetch_add）	是	否	lock cmpxchg	ldaxr + stlxr	★★★★
memory_order_release	只写（store）	是（和acquire配对）	否	无额外fence	stlr	★★★
memory_order_acquire	只读（load）	是（和release配对）	否	无额外fence	ldarb	★★★
memory_order_consume	依赖传递（极少用）	是（依赖性）	否	无（依赖）	无（依赖）→实际常降级为acquire	★★（理论上）
memory_order_relaxed	只要求原子性，不要求顺序	否	否	无	无	★ 最便宜

每种内存序的核心语义与底层逻辑

memory_order_seq_cst（顺序一致性，最常用也最贵）
- 保证：所有 seq_cst 操作在所有线程看来有一个单一全局总顺序（Single Total Order）
- 这是最接近我们大脑直觉的模型
- 代价最高，几乎总是插入最强的内存屏障（x86 上 mfence，ARM 上 dmb ish 或更强）
- 几乎所有经典教材例子都默认用这个

memory_order_acquire + memory_order_release（最常用的高性能组合）

Release-Acquire 模型（简称 RA 模型）：

Release store：本线程在此之前的所有内存操作（包括非原子变量），在其他线程看到这个 release 写入之前不能被重排到这个 store 之后
Acquire load：当本线程看到这个 acquire 读到的值时，之前那个 release store 之前的所有内存操作对本线程可见
形成 Synchronizes-with 关系 → 建立 Happens-before 关系
最经典用法：生产者-消费者模式里的 flag

// 线程1（生产者）
data = 42;
ready.store(true, std::memory_order_release);   // 关键
   
// 线程2（消费者）
if (ready.load(std::memory_order_acquire)) {    // 关键
    // 此时 一定 能看到 data == 42
}

memory_order_acq_rel（读-改-写专用）
- 相当于 acquire + release 同时具备
- 用于 fetch_add、compare_exchange_strong 等 RMW 操作
- 既是 release 又是 acquire

memory_order_relaxed（最弱，只有原子性）

只保证这个操作本身是原子的
不阻止任何重排，不建立任何同步关系
计数器、统计量、唯一 id 生成器等场景常用
但极易出错，不能用来做同步

std::atomic<int> cnt{0};
cnt.fetch_add(1, std::memory_order_relaxed);  // 只保证不撕裂

memory_order_consume（目前几乎没人用）
- 理论上只保证依赖传递（dependency-ordered）
- 实际实现：GCC/Clang 几乎都把它降级成 acquire（性能损失）
- C++26 之前基本被废弃状态，不要用

快速对比表

你写的代码顺序	relaxed	acquire	release	acq_rel	seq_cst
A = 1; B = 2;	可重排	可重排	不可	不可	不可
atomic.store(…, release) 之后能看到前面的 A=1	可能看不到	可能看不到	一定看得到	一定看得到	一定看得到
看到 atomic.load(…, acquire) 后能看到之前的写	可能看不到	一定看得到	可能看不到	一定看得到	一定看得到
所有线程看到的原子操作顺序一致吗？	否	否	否	否	是

底层硬件实现差异（极简总结）

架构	relaxed	acquire	release	seq_cst
x86-64	无	无（load天然acquire）	无（store天然release）	mfence 或 lock 前缀
ARMv8	无	LDAR	STLR	LDAR + STLR + DMB
RISC-V	无	.aq	.rl	fence rw,rw
PowerPC	无	lwsync / isync	lwsync	sync

一句话总结使用建议：

写新代码、逻辑不复杂 → 直接用默认的 memory_order_seq_cst
性能极致追求、代码经过充分验证 → 用 release / acquire / acq_rel
只做计数、不依赖顺序 → relaxed
永远不要用 consume（除非你非常清楚自己在做什么且针对特定编译器）

概述