有疑说

Flame Graph 机制小结

2025-04-12T16:00:00.000Z

什么是火焰图？

2011 年，时任 Netflix 高级性能工程师的 Brendan Gregg 面临一个棘手问题：尽管 perf 能采集到海量性能数据，但使用 perf report 显示调用树摘要时，数千行堆栈信息让人如同“大海捞针”，难以发现关联路径和 CPU 热点。在 Roch Bourbonnais 的 CallStackAnalyzer 和 Jan Boerhout 的 vftrace 启发下，火焰图诞生了

火焰图（Flame Graph）是一种可视化的性能分析工具，其核心目标是将复杂的性能采样数据转化为一目了然的图形。通过横向宽度表示资源消耗（如 CPU 占用时间），纵向层级表示函数调用关系，形似跳动的火焰，让开发者能够快速锁定性能瓶颈的“火源”。

经典火焰图原理

通常意义上的 On-CPU 火焰图是指 On-CPU 火焰图用来定位代码 On-CPU 的执行热点

1. 数据采集

采样机制： 以固定频率（如每秒 99 次）中断程序，记录当前的函数调用链（Stack Trace）

2. 数据处理

聚合统计：合并相同调用链的采样点，计算每个函数在调用链中的出现频率
归一化处理：将采样次数转换为百分比，消除采样时长对宽度的影响

3. 可视化规则

方框：每个框代表函数栈中的一个函数（一个“栈帧”）。方框的宽度显示该函数 on-CPU 的总时间，或部分祖先函数 on-CPU 的总时间（基于样本计数）。带有宽方框的函数每次执行可能比带有窄方框的函数消耗更多 CPU，或者可能只是调用频率更高。
Y 轴： 表示栈深度（栈上的帧数）。顶部的方框显示当前处于 CPU 运行状态的函数。函数下方的第一个函数是其父函数，下方的所有函数均为其祖先函数
X 轴： 涵盖整体样本。从左到右按字母顺序排列，以最大化合并帧（从左到右并非显示时间的流逝）

Off-CPU 火焰图原理

经典的 CPU 火焰图虽然能精准定位代码在 CPU 上的执行热点，但现实中线程可能因 I/O 阻塞、锁竞争、内存争用等原因离开 CPU，这些等待时间占比较高但传统火焰图无法捕捉；就催生了 Off-CPU 火焰图，目标是处于阻塞状态和 Off-CPU 状态的线程，如下图中蓝色部分所示。Off-CPU 分析是对 CPU 分析的补充，因此可以了解 100% 的线程时间。

1. 数据收集： 通过内核级工具（如 offcputime from BCC）记录线程的 上下文切换（context switch） 事件

Off-CPU 开始：当线程被调度出 CPU（如调用 schedule() 函数）时，记录时间戳和调用栈
On-CPU 恢复：当线程重新被调度到 CPU 时，计算阻塞时长（恢复时间戳 - 离开时间戳）
阻塞类型： 结合阻塞事件的内核态信息（如系统调用、锁类型、I/O 类型）
调用栈： 用户态 + 内核态

2. 数据聚合： 按调用栈路径合并相同栈的阻塞时间，生成 [调用栈] -> 总耗时 的映射表

时间累加：将同一调用栈路径的所有阻塞时间累加，形成时间占比。

3. 可视化规则： 将调用栈按层级展开，生成火焰图

宽度：表示阻塞时间的占比
颜色：可区分阻塞类型（如红色为 I/O，蓝色为锁）
层级：显示从顶层函数到底层系统调用的完整路径

注意：
数据收集开销
调度程序事件可能非常频繁——在极端情况下，每秒可能会有数百万个事件——由于事件发生频率高，数据开销可能会累积起来变得非常可观，比仅在 CPU 数量上进行 CPU 采样的开销要高出几个数量级。
如果对新的调度跟踪器一无所知，可以先收集十分之一秒（0.1 秒），然后逐步增加跟踪时间，同时密切关注其对系统 CPU 利用率、应用程序请求率和应用程序延迟的影响。同时考虑上下文切换的速率（例如，通过 vmstat 中的“cs”列测量），并且在速率更高的服务器上要更加小心
阻塞唤醒
许多 Off-CPU 堆栈显示了阻塞路径，但没有显示阻塞的完整原因。该原因和代码路径位于另一个线程，即调用唤醒阻塞线程的线程
另外的工具 wakeuptime 和 offwaketime，可以测量唤醒堆栈并将它们与 off-CPU 堆栈关联起来

Broken stack

火焰图的数据采集步骤，一般会使用 perf Linux 分析器。该工具的使用工作流详见：slides、youtube，不重复。着重记录：如何处理函数栈不完整。由于省略帧指针 (Omitting frame pointer) 通常是编译器优化的默认选项，就导致 perf_events 中的函数栈不完整。有三种方法可以解决这个问题：使用 dwarf 数据展开堆栈，使用最后分支记录 (LBR，如果可用，处理器特性），或者返回帧指针。

Frame Pointers 帧指针

应用程序使用编译器优化 (-O2) 会省略了帧指针，可以使用 -fno-omit-frame-pointer 重新编译。内核堆栈跟踪不完整，需要调整内核配置选项 CONFIG_FRAME_POINTER=y。该方法不适合已经有问题的线上环境，调整选项的成本过高。

Dwarf

从 3.9 内核开始，perf_events 支持一种解决用户级堆栈中缺少帧指针的解决方法：libunwind，它使用 dwarf 函数。可以使用“–call-graph dwarf”（或“-g dwarf”）启用此功能

perf record -F 99 -p 59715 --call-graph dwarf -- sleep 120

LBR

必须拥有“最后分支记录”访问权限才能使用此功能。该权限在大多数云环境中均处于禁用状态，您会收到以下错误：

# perf record -F 99 -a --call-graph lbrError:PMU Hardware doesn't support sampling/overflow-interrupts.

另外，LBR 的堆栈深度通常有限（8、16 或 32 帧），因此不适合用于深层堆栈或火焰图生成，因为火焰图需要走到公共根节点进行合并。

容器环境

容器化部署的场景下，如果容器是 alphine，而宿主机是 ubuntu。首先在宿主机上对容器内的进程执行 perf record，然后在宿主机执行 perf script，也会因为容器与宿主机的 用户态符号环境不兼容导致函数栈异常。可以进入容器环境，然后指定宿主机的内核符号表路径 (应该有更好的处理方案？)

perf script --header -i perf.data --kallsyms /proc/kallsyms --no-inline > perf.perf

火焰图的局限

On-CPU/Off-CPU 火焰图覆盖了 100% 的线程时间，那是否把它们结合起来就能解决所有的性能问题呢? 答案是否定的。在分析 吞吐量（Throughput） 和 延迟（Latency） 时，既要关注指标的平均值，还要关注到 P99、P99.9 分位值、Max 值。 On-CPU/Off-CPU 火焰图就会失效，主要原因在于：

1. 采样机制的天然局限

基于定时采样的工具（如 perf）更易捕获高频执行的代码路径。
低频冷路径可能从未被采样命中（如采样间隔为 10ms，而冷路径 2 秒仅触发一次）。

2. 时间聚合的视角陷阱

On-CPU/Off-CPU 的宽度反映总时间，而非单次执行成本，无法区分以下两种场景：
- 高频低耗（热路径）：执行次数 × 单次时间 = 总时间
- 低频高耗（冷路径）：执行次数 × 单次时间 = 总时间
冷路径因总时间占比低，在火焰图中会被压缩成“细线”而忽视

Flamescope 使用亚秒级偏移热力图和火焰图来分析周期性活动、方差和扰动，在一定程度上解决了这些问题，但对于一些极端 Case 仍然力有未逮。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/04-13-2025/flamegraph-summary.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜Linux Page Cache mini book

2024-12-10T16:00:00.000Z

SRE 深入理解 Linux Page Cache

在本系列文章中，我将讨论 Linux Page Cache。我相信，掌握以下的理论知识和工具对于每一位 SRE 来说都是至关重要的。这种理解不仅有助于日常的 DevOps 任务，也有助于紧急调试和救火。Page Cache 经常被忽视，更好地理解它有以下好处：

更精确的容量规划和容器限制计算；
更好地调试和调查内存和磁盘密集型应用（如数据库管理系统和文件共享存储）
构建内存和/或 I/O 密集型临时任务（例如：备份和恢复脚本、 rsync 一行代码等）的安全和可预测的运行时。

我将展示在处理 Page Cache 相关任务和问题时，您应该记住的实用工具，如何正确使用它们理解实际内存使用情况，以及如何使用它们揭示问题。我将尝试为您提供一些接近实际情况的使用这些工具的示例。下面是我所讨论所涉及的一些工具：vmtouch、perf、 cgtouch、strace、sar 和 page-type。

此外，正如标题所说，“深入理解”，这些实用工具的内部结构将重点展示 Page Cache 的统计、事件、系统调用和内核接口。以下是在接下来的文章中我将涉及的一些示例：

文件：/proc/PID/smaps、/proc/pid/pagemap、 /proc/kpageflags、/proc/kpagecgroup 和 sysfs 文件： /sys/kernel/mm/page_idle ；
系统调用： mincore()、mmap()、fsync()、msync()、posix_fadvise()、madvise() 及其他；
不同 open 和 advise 标志 O_SYNC、FADV_DONTNEED、POSIX_FADV_RANDOM、MADV_DONTNEED 等等。

我将尝试使用 Python、Go 和少量 C 语言编写的简单（几乎全部）代码示例，尽可能详细地进行说明。

最后，任何有关现代 GNU/Linux 系统的对话都必须涉及 cgroup（在我们的例子中是 v2）和 systemd 主题。我将向您展示如何利用它们来充分发挥系统的潜力，构建可靠、可观察、可控的服务，并在值班时睡个好觉。

如果读者具有中等程度的 GNU/Linux 知识和基本的编程技能，那么他们应该能够轻松理解本文内容。

所有超过 5 行的代码示例都可以在 github 上找到：sre-page-cache-article。

准备实验环境

在开始之前，我希望与读者达成共识，以便能够执行、编译和检查任何示例或代码片段。因此，我们需要一个现代的 GNU/Linux 安装来处理代码和内核。

如果您使用的是 Windows 或 Mac OS，我建议使用 Virtual Box 安装 Vagrant 。对于 GNU/Linux 发行版，我倾向于使用 Arch Linux。Arch 是现代 GNU/Linux 系统的实际示例（顺便说一句，我使用 Arch Linux）。它支持最新的内核、systemd 和 cgroup v2。

如果您已经在使用 Linux，那么您知道该怎么做 😉。

我可以使用 docker 吗？
很遗憾，不行。我们需要一个系统，可以自由发挥、突破 cgroup 限制、使用底层工具调试程序并以 root 用户身份运行代码且不受任何限制。

下面我将展示您需要在 Arch 上安装的所有内容。

Arch Linux 配置

当您的 Arch 运行时，请更新系统并安装以下软件包：

$ pacman -Sy git, base-devel, go

我们需要安装 yay (https://github.com/Jguer/yay) 以便能够从社区驱动的存储库安装软件：

$ cd ~$ git clone https://aur.archlinux.org/yay.git$ cd yay$ makepkg -si

从 aur 安装 vmtouch 工具：

$ yay -Sy vmtouch

我们需要从内核仓库获取 page-type 工具，因此安装它的最简单方法是下载 Linux 内核版本并手动编译：

$ mkdir kernel$ cd kernel$ wget https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/snapshot/linux-5.14.tar.gz$ tar -xzf linux-5.14.tar.gz$ cd linux-5.14/tools/vm$ make$ sudo make install

现在我们几乎准备好了。我们需要生成一个测试数据文件，它将用于我们对 Page Cache 的实验：

$ dd if=/dev/random of=/var/tmp/file1.db count=128 bs=1M

最后一步是删除所有 Linux 缓存，使系统变得干净：

$ sync; echo 3 | sudo tee /proc/sys/vm/drop_caches

Page Cache 关键原理

首先我们先来问一些关于 Page Cache 的合理问题：

Linux Page Cache 是什么？
它解决了什么问题？
为什么我们称之为 «Page» Cache？

本质上，Page Cache 是虚拟文件系统（VFS）的一部分，其主要目的（正如您所猜测的）是改善读写操作的 IO 延迟。write-back 缓存算法是 Page Cache 的核心构建块。

注意
如果你对 write-back 算法感到好奇（您应该如此），它在维基百科上有很好的描述，我鼓励您阅读它，或者至少查看带有流程图及其主要操作的图表。

Page Cache 中的 “Page” 表示 Linux 内核使用称为页的内存单元。跟踪和管理信息的字节甚至比特会很麻烦和困难。因此，Linux 的方法（顺便说一句，不仅仅是 Linux）是在几乎所有结构和操作中使用页（**通常长度为 4K**）。因此，Page Cache 中的最小存储单位是页，无论您要读取或写入多少数据都无关紧要。所有文件 IO 请求都与一定数量的页对齐。

上述内容引出了一个重要的事实：如果您的写入小于页大小，则内核将在您的写入完成之前读取整个页。

下图展示了 Page Cache 的基本操作。我将其分为读取和写入。

可以看到，所有数据读写都经过 Page Cache。不过 Direct IO （ DIO ）有一些例外，我会在本系列的最后讨论。目前，我们先忽略它们。

注意
在接下来的章节中，我将讨论 read()、write()、mmap() 以及其他系统调用。我需要指出的是，一些编程语言（例如 Python）具有同名的 file 函数。但是，这些函数并不完全对应到相应的系统调用。此类函数通常执行缓冲 IO。请记住这一点。

读取请求

一般来说，内核按以下方式处理读取：

当用户空间应用程序想要从磁盘读取数据时，它使用特殊的系统调用（例如 read()、pread()、vread()、mmap()、sendfile() 等）向内核请求数据。
Linux 内核则会检查页是否存在于 Page Cache 中，如果存在，则立即将其返回给调用者。如您所见，在这种情况下，内核没有进行任何磁盘操作。
如果 Page Cache 中没有这些页，内核必须从磁盘加载它们。为此，它必须在 Page Cache 中为请求的页找到一个位置。如果没有可用内存（在调用者的 cgroup 或系统中），则必须执行内存回收过程。之后，内核会安排读取磁盘 IO 操作，将目标页存储在内存中，并最终将请求的数据从 Page Cache 返回给目标进程。从此刻开始，任何未来读取文件该部分数据的请求（无论来自哪个进程或 cgroup）都将由 Page Cache 处理，而无需任何磁盘 IOP，直至这些页被驱逐。

写入请求

让我们一步步地重复写入的流程：

当用户空间程序想要将一些数据写入磁盘时，它也会使用一堆系统调用，例如：write()、pwrite()、writev()、mmap() 等。与读取相比，写入通常更快，因为真正的磁盘 IO 操作不会立即执行。然而，只有在系统或 cgroup 没有内存压力问题，并且有足够的可用页时，才是正确的（我们稍后会讨论驱逐过程）。所以通常内核只更新 Page Cache 中的页。它使写入流本质上是异步的。调用者不知道何时发生实际的页刷新，但它知道后续读取将返回最新数据。Page Cache 维持所有进程和 cgroup 之间的数据一致性。包含未刷新数据的此类页有一个特殊的名称：脏页。
如果进程的数据并不重要，它可以依靠内核及其 flush 进程，最终将数据持久保存到物理磁盘。但是，如果您开发数据库管理系统（例如，用于货币交易），则需要写入保证以保护您的记录免受突然断电的影响。对于这种情况，Linux 提供了 fsync()、fdatasync() 和 msync() 系统调用，它们会阻塞，直到文件的所有脏页都提交到磁盘。还有 open() 标志：O_SYNC 和 O_DSYNC，您也可以使用它们来使所有文件写入操作默认持久。我稍后会展示此逻辑的一些示例。

Page Cache 和基本文件操作

现在是时候撸起袖子，开始实践一些实际的例子了。读完本章后，你将知道如何与 Page Cache 交互以及可以使用哪些工具。

本节所需的实用程序：

sync( man 1 sync) – 将所有脏页刷新到持久存储的工具；
/proc/sys/vm/drop_caches（ man 5 proc） – 触发 Page Cache 清除的内核 procfs 文件；
vmtouch – 一种通过文件路径获取特定文件的 Page Cache 信息的工具。

注意
当前我们先忽略 vmtouch 的工作原理。稍后我将展示如何编写一个几乎包含所有功能的替代版本。

文件读取

使用 `read()` 系统调用读取文件

我从简单的程序开始，该程序从测试文件 /var/tmp/file1.db 中读取前 2 个字节。

with open("/var/tmp/file1.db", "br") as f:    print(f.read(2))

通常，这些类型的读取请求会被转换为 read() 系统调用。让我们使用 strace( man 1 strace ) 运行脚本以确认 f.read() 使用了 read() 系统调用：

$ strace -s0 python3 ./read_2_bytes.py

输出应如下所示：

...openat(AT_FDCWD, "./file1.db", O_RDONLY|O_CLOEXEC) = 3...read(3, "%B\353\276\0053\356\346Nfy2\354[&\357\300\260%D6$b?'\31\237_fXD\234"..., 4096) = 4096...

注意
尽管脚本仅请求 2 个字节，但 read() 系统调用返回了 4096 个字节（一页）。这是 Python 优化和内部缓冲 IO 的一个例子。虽然这超出了本文的范围，但在某些情况下，记住这一点很重要。

现在让我们检查一下内核缓存了多少数据。为了获取此信息，我们使用 vmtouch：

$ vmtouch /var/tmp/file1.db

         Files: 1       LOOK HERE   Directories: 0          ⬇Resident Pages: 20/32768  80K/128M  0.061%       Elapsed: 0.001188 seconds

从输出可以看到，内核缓存的数据量不是 Python 请求的 2B，而是 80KiB 或 20 页。

根据设计，内核无法将小于 4KiB 或一页的内容加载到 Page Cache 中，但其他 19 页是怎么回事？这是内核预读逻辑和优先执行顺序 IO 操作而非随机 IO 操作的一个很好的例子。基本思想是预测后续读取并尽量减少磁盘寻道次数。系统调用可以控制此行为：posix_fadvise()（man 2 posix_fadvise）和 readahead()（man 2 readahead）。

注意
通常，在生产环境中，数据库管理系统和存储调整默认预读参数不会产生太大影响。如果 DBMS 不需要预读缓存的数据，则内核内存回收策略最终应将这些页从 Page Cache 中逐出。通常，顺序 IO 对内核和硬件来说并不昂贵。完全禁用预读甚至可能会导致性能下降，因为内核队列中的磁盘 IO 操作数量增加、上下文切换增多以及内核内存管理子系统识别工作集所需时间增加。我们将在本系列的后面讨论内存回收策略、内存压力和缓存写回。

现在让我们使用 posix_fadvise() 通知内核我们正在随机读取文件，因此我们不想有任何预读功能：

import oswith open("/var/tmp/file1.db", "br") as f:    fd = f.fileno()    os.posix_fadvise(fd, 0, os.fstat(fd).st_size, os.POSIX_FADV_RANDOM)    print(f.read(2))

在运行脚本之前，我们需要清除所有缓存：

$ echo 3 | sudo tee /proc/sys/vm/drop_caches && python3 ./read_2_random.py

现在，如果你检查 vmtouch 输出，你会看到只有一页，正如预期的那样：

$ vmtouch /var/tmp/file1.db

         Files: 1     LOOK HERE   Directories: 0        ⬇Resident Pages: 1/32768  4K/128M  0.00305%       Elapsed: 0.001034 seconds

使用 `mmap()` 系统调用读取文件

为了从文件中读取数据，我们还可以使用 mmap() 系统调用 ( man 2 mmap)。mmap() 是一种“神奇”工具，可用于处理各种任务。但对于我们的测试，我们只需要其一个特性 —— 将文件映射到进程内存中，以便将文件作为扁平的数组访问。我稍后会更详细地讨论 mmap()。但目前，如果您不熟悉它，应该可以从以下示例中理解 mmap() API ：

import mmapwith open("/var/tmp/file1.db", "r") as f:    with mmap.mmap(f.fileno(), 0, prot=mmap.PROT_READ) as mm:        print(mm[:2])

上述代码与我们刚刚使用 read() 系统调用所做的操作相同。它读取文件的前 2 个字节。

此外，出于测试目的，我们需要在执行脚本之前清除所有缓存：

$ echo 3 | sudo tee /proc/sys/vm/drop_caches && python3 ./read_2_mmap.py

检查 Page Cache 内容：

$ vmtouch /var/tmp/file1.db

         Files: 1.       LOOK HERE   Directories: 0           ⬇Resident Pages: 1024/32768  4M/128M  3.12%       Elapsed: 0.000627 seconds

正如您所见，mmap() 执行了更为激进的预读。

让我们像之前 fadvise() 所做的那样，使用 madvise() 系统调用来改变预读。

import mmapwith open("/var/tmp/file1.db", "r") as f:    with mmap.mmap(f.fileno(), 0, prot=mmap.PROT_READ) as mm:        mm.madvise(mmap.MADV_RANDOM)        print(mm[:2])

运行它：

$ echo 3 | sudo tee /proc/sys/vm/drop_caches && python3 ./read_2_mmap_random.py

Page Cache 内容：

$ vmtouch /var/tmp/file1.db

         Files: 1     LOOK HERE   Directories: 0        ⬇Resident Pages: 1/32768  4K/128M  0.00305%       Elapsed: 0.001077 seconds

从上面的输出可以看出，使用该 MADV_RANDOM 标志，我们成功地从磁盘读取了一页，并在 Page Cache 中存储了一页数据。

文件写入

现在让我们来试下写入。

使用 `write()` 系统调用写入

让我们继续使用我们的实验文件，并尝试更新前 2 个字节：

with open("/var/tmp/file1.db", "br+") as f:    print(f.write(b"ab"))

注意
小心，不要用 w 模式打开文件。它会用 2 个字节重写你的文件。我们需要 r+ 模式。

清除所有缓存，并运行上述脚本：

sync; echo 3 | sudo tee /proc/sys/vm/drop_caches && python3 ./write_2_bytes.py

现在让我们检查一下 Page Cache 的内容。

$ vmtouch /var/tmp/file1.db           Files: 1     LOOK HERE     Directories: 0        ⬇  Resident Pages: 1/32768  4K/128M  0.00305%         Elapsed: 0.000674 seconds

如您所见，我们仅写入 2B 就缓存了 1 个页。这是一个重要的观察，为了填充 Page Cache，如果您的写入大小小于页大小，则在写入之前将进行 4KiB 读取。

另外，我们可以通过读取当前 cgroup 内存统计文件来检查脏页。

获取当前终端的 cgroup：

$ cat /proc/self/cgroup0::/user.slice/user-1000.slice/session-4.scope

$ grep dirty /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope/memory.statfile_dirty 4096

如果看到 0，显然您很幸运，脏页已经写入磁盘，请再次运行该脚本。

使用 `mmap()` 系统调用写入

现在让我们使用 mmap() 重复写入：

import mmapwith open("/var/tmp/file1.db", "r+b") as f:    with mmap.mmap(f.fileno(), 0) as mm:        mm[:2] = b"ab"

您可以重复上述命令，并使用 vmtouch 和 cgroupgrep 来获取脏页，您应该会得到相同的输出。唯一的例外是预读策略。默认情况下，即使对于写入请求，mmap() 也会在 Page Cache 中加载更多数据。

脏页

正如我们之前看到的，进程通过 Page Cache 写入文件会生成脏页。

Linux 提供了几种方法获取脏页数量。最早且最古老的一种方法是读取 /proc/meminfo：

$ cat /proc/meminfo | grep DirtyDirty:                 4 kB

完整的系统信息通常很难理解和使用，因为我们无法确定哪个进程和文件包含这些脏页。

这就是为什么获取脏页信息的最佳选择是使用 cgroup：

$ cat /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope/memory.stat  | grep dirtfile_dirty 4096

如果您的程序使用 mmap() 写入文件，您还有另一个方法可以获取进程级粒度的脏页统计信息。procfs 的 /proc/PID/smaps 文件。它包含按虚拟内存区域 (VMA) 细分的进程内存计数器。通过查找以下内容，我们可以获取脏页信息：

Private_Dirty – 此进程产生的脏数据量；
Shared_Dirty – 以及其他进程写入的数量。此指标仅显示引用页的数据。这意味着进程应该访问页并将其保存在其页表中（稍后将详细介绍）。

$ cat /proc/578097/smaps | grep file1.db -A 12 | grep DirtyShared_Dirty:          0 kBPrivate_Dirty:       736 kB

但是如果我们想要获取某个文件的脏页统计信息该怎么办？为了回答这个问题，Linux 内核的 procfs 提供了 2 个文件：/proc/PID/pagemap 和 /proc/kpageflags。我将在本系列的后面部分展示如何使用它们编写我们自己的工具，但现在我们可以使用 Linux 内核仓库中的调试工具来获取每个文件的页信息：page-types。

$ sudo page-types -f /var/tmp/file1.db -b dirty

             flags      page-count       MB  symbolic-flags                     long-symbolic-flags0x0000000000000838             267        1  ___UDl_____M________________________________       uptodate,dirty,lru,mmap0x000000000000083c              20        0  __RUDl_____M________________________________       referenced,uptodate,dirty,lru,mmap             total             287        1

我根据 dirty 标志过滤出文件 /var/tmp/file1.db 的所有页。在输出中，你可以看到文件有 287 个脏页或 1 MiB 的脏数据，这些数据最终将持久化到存储中。page-type 根据标志聚合页，因此输出中有 2 组。两者都有脏标志 D，它们之间的区别在于引用标志 R（我将在后面的 Page Cache 驱逐部分简要介绍它）。

使用 `fsync()`、`fdatasync()` 和 `msync()` 同步文件更改

我们已经在每次测试之前使用 sync(man 1 sync) 将所有脏页刷新到磁盘，以获得一个没有任何干扰的干净系统。但是，如果我们想编写一个数据库管理系统，并且需要确保在断电或其他硬件错误发生之前的所有写操作都将写入到磁盘，该怎么办？对于这种情况，Linux 提供了几种方法来强制内核对 Page Cache 中的文件执行同步：

fsync() – 阻塞直至目标文件及其元数据的所有脏页都被同步为止；
fdatasync() – 与上述相同，但不包括元数据；
msync() – 与 fsync() 相同，但用于内存映射文件；
使用 O_SYNC 或 O_DSYNC 标志打开文件，使所有文件写入默认同步，并相应地作为 fsync()、fdatasync() 系统调用工作。

注意
您仍然需要关注写屏障并了解底层文件系统的工作原理，因为内核调度程序可能会重新排列写操作的顺序。通常，文件追加操作是安全的，不会破坏之前写入的数据。其他类型的变异操作可能会弄乱您的文件（例如，对于 ext4，即使使用默认日志也是如此）。这就是为什么几乎所有数据库管理系统（如 MongoDB、PostgreSQL、Etcd、Dgraph 等）都具有仅追加的预写日志 (WAL)。但也有一些例外。如果您对这个主题更感兴趣，Dgraph 的这篇博客文章是一个很好的起点。
不过也有一些例外。例如， lmdb（及其克隆，bboltdb 来自 etcd）使用了一个巧妙的想法，即保留其 B+ 树的两个根并执行写时复制。

以下是文件同步的示例：

import oswith open("/var/tmp/file1.db", "br+") as f:    fd = f.fileno()    os.fsync(fd)

使用 `mincore()` 检查 Page Cache 中的文件存在

在进一步之前，我们先弄清楚 vmtouch 如何显示目标文件 Page Cache 包含多少页。

秘密在于 mincore() 系统调用（man 2 mincore）。mincore() 代表“核心内存”。其参数是起始虚拟内存地址、地址空间长度和结果向量。 mincore() 与内存（而非文件）交互，因此可用于检查匿名内存是否已被换出。

man 2 mincore
mincore() 返回一个向量，该向量指示调用进程的虚拟内存页是否驻留在内核 (RAM) 中，因此在引用时，不会导致磁盘访问 (缺页中断)。内核返回从地址 addr，长度为 length 个字节的页驻留信息。

因此，要进行复制 vmtouch，我们需要将文件映射到进程的虚拟内存中，即使我们不进行读取或写入。我们只是希望将其放在进程内存区域中（稍后在 mmap() 部分将详细介绍这一点）。

现在，我们已经准备好编写自己的简单版本 vmtouch，以便通过文件路径显示缓存页。我在这里使用 go，因为不幸的是，Python 没有一种简单的方法来调用 mincore() 系统调用：

package mainimport ("fmt""log""os""syscall""unsafe")var (pageSize = int64(syscall.Getpagesize())mode     = os.FileMode(0600))func main() {path := "/var/tmp/file1.db"file, err := os.OpenFile(path, os.O_RDONLY|syscall.O_NOFOLLOW|syscall.O_NOATIME, mode)if err != nil {log.Fatal(err)}defer file.Close()stat, err := os.Lstat(path)if err != nil {log.Fatal(err)}size := stat.Size()pages := size / pageSizemm, err := syscall.Mmap(int(file.Fd()), 0, int(size), syscall.PROT_READ, syscall.MAP_SHARED)defer syscall.Munmap(mm)mmPtr := uintptr(unsafe.Pointer(&mm[0]))cached := make([]byte, pages)sizePtr := uintptr(size)cachedPtr := uintptr(unsafe.Pointer(&cached[0]))ret, _, err := syscall.Syscall(syscall.SYS_MINCORE, mmPtr, sizePtr, cachedPtr)if ret != 0 {log.Fatal("syscall SYS_MINCORE failed: %v", err)}n := 0for _, p := range cached {// the least significant bit of each byte will be set if the corresponding page// is currently resident in memory, and be clear otherwise.if p%2 == 1 {n++}}fmt.Printf("Resident Pages: %d/%d  %d/%d\n", n, pages, n*int(pageSize), size)}

运行它：

$ go run ./main.go

Resident Pages: 1024/32768  4194304/134217728

并将其与 vmtouch 输出进行比较：

$ vmtouch /var/tmp/file1.db           Files: 1         LOOK HERE     Directories: 0            ⬇  Resident Pages: 1024/32768  4M/128M  3.12%         Elapsed: 0.000804 seconds

Page Cache 驱逐与回收

到目前为止，我们已经讨论了通过读取和写入文件向 Page Cache 添加数据、检查缓存中文件的存在以及手动刷新缓存内容。但任何缓存系统最关键的部分是其驱逐策略，或者对于 Linux Page Cache，它也是内存页回收策略。与任何其他缓存一样，Linux Page Cache 会持续监视最后使用的页，并决定应删除哪些页以及应将哪些页保留在缓存中。

控制和调整 Page Cache 的主要方法是 cgroup 子系统。您可以将服务器的内存划分为几个较小的缓存（cgroup），从而控制和保护应用程序和服务。此外，cgroup 内存和 IO 控制器提供大量统计数据，这些数据对于调优软件和了解缓存的内部情况非常有用。

理论

Linux Page Cache 与 Linux 内存管理、cgroup 和虚拟文件系统 (VFS) 紧密相关。因此，为了理解驱逐的工作原理，我们需要从内存回收策略的一些基本内部原理开始。其核心结构是active 和 inactive 列表，每个 cgroup 一对：

第一对用于匿名内存（例如，使用 malloc() 或非文件的 mmap() 分配）；
第二对用于 Page Cache 文件内存（所有文件操作包括 read()、write、文件的 mmap() 访问等）。

前者正是我们感兴趣的，linux 用于 Page Cache 驱逐过程的就是这一对，每个链表的核心都是最近最少使用算法 LRU，反过来，这 2 个链表又组成了一个双时钟的数据结构，一般来说 linux 应该选择最近没用过（inactive）的页，因为最近没用过的页在短时间内不会被频繁使用，这就是 LRU 算法的基本思想。active 链表和 inactive 链表的条目都采用了 FIFO（先进先出）的形式，新元素被添加到链表的头部，中间的元素逐渐向尾部移动，当需要内存回收的时候，内核总是选择 inactive 链表尾部的页进行释放，下图是该思想的简化：

例如，系统启动时，列表的内容如下。用户进程刚刚从磁盘读取了一些数据。此操作触发内核将数据加载到缓存中。这是内核第一次访问该文件。因此，内核在进程 cgroup 的 inactive 列表的头部添加一个页 h ：

一段时间后，系统又加载了 2 个额外的页：i 和 j 到 inactive 列表中，并相应地需要从列表中驱逐页 a 和 b。此操作也将所有页向 inactive LRU 列表的尾部移动，包括我们的页 h ：

现在，对页 h 执行新的文件操作会将该页提升到 active LRU 列表的头部，将其置于头部。此操作还会将该页 1 移至 inactive LRU 列表的头部，并移动所有其他成员。

随着时间的推移，页 h 在 active LRU 列表中失去了其头部位置。

但一个新的文件访问到 h 在文件中的位置会将 h 移动到 active LRU 列表的头部。

上图展示了该算法的简化版本。

但值得一提的是，页提升和降级的实际过程要复杂精妙得多。

首先，如果系统有 NUMA 硬件节点 ( man 8 numastat)，那么它将拥有 2 倍数量的 LRU 列表。原因是内核尝试将内存信息存储在 NUMA 节点中，以减少锁争用。

此外，Linux Page Cache 具有特殊的影子和引用标志逻辑，用于页的提升、降级和重新提升。

影子条目有助于缓解 **内存抖动问题**。当程序的工作集大小接近或大于实际内存大小（可能是 cgroup 限制或系统 RAM 限制）时，就会发生此问题。在这种情况下，读取模式可能会在随后的第二个读取请求出现之前从 inactive 列表中逐出页。完整的想法描述于 mm/workingset.c，其中包括计算 refault distance。此距离用于判断是否立即将影子条目放入 active LRU 列表。

我做的另一个简化是关于 PG_referenced 页标志。实际上，页提升和降级使用此标志作为决策算法中的额外输入参数。页提升的更正确流程：

flowchart LR    Start["Inactive LRU,
unreferenced"]    Second["Inactive LRU,
referenced"]    Third["Active LRU,
unreferenced"]    Stop["Active LRU,
referenced"]    Start --> Second    Second --> Third    Third --> Stop

使用 `POSIX_FADV_DONTNEED` 手动驱逐页

我已经展示了如何使用 /proc/sys/vm/drop_caches 文件清除所有页缓存条目。但如果我们出于某种原因想要清除某个文件的缓存，该怎么办？

示例
在实际情况下，从缓存中清除文件有时很有用。假设我们想测试 MongoDB 在系统重启后恢复到最佳状态的速度。您可以停止一个副本，从 Page Cache 中清除其所有文件，然后重新启动它。

vmtouch 已经可以做到这一点。它的 -e 标志命令内核从 Page Cache 中逐出所请求文件的所有页：

例如：

$ vmtouch /var/tmp/file1.db -e           Files: 1     Directories: 0   Evicted Pages: 32768 (128M)         Elapsed: 0.000704 seconds

$ vmtouch /var/tmp/file1.db           Files: 1.    LOOK HERE     Directories: 0        ⬇  Resident Pages: 0/32768  0/128M  0%            Elapsed: 0.000566 seconds

让我们深入研究一下，弄清楚它是如何工作的。为了编写我们自己的工具，我们需要使用已见过的 posix_fadvise 系统调用和 POSIX_FADV_DONTNEED 选项。

代码：

import oswith open("/var/tmp/file1.db", "br") as f:    fd = f.fileno()    os.posix_fadvise(fd, 0, os.fstat(fd).st_size, os.POSIX_FADV_DONTNEED)

为了测试，我使用 dd 将整个测试文件读入 Page Cache：

$ dd if=/var/tmp/file1.db of=/dev/null  262144+0 records in  262144+0 records out  134217728 bytes (134 MB, 128 MiB) copied, 0.652248 s, 206 MB/s

$ vmtouch /var/tmp/file1.db             Files: 1         LOOK HERE     Directories: 0             ⬇  Resident Pages: 32768/32768  128M/128M  100%         Elapsed: 0.002719 seconds

现在，运行脚本后，我们应该在 Page Cache 中看到 0 个页：

$ python3 ./evict_full_file.py

$ vmtouch /var/tmp/file1.db             Files: 1     LOOK HERE     Directories: 0        ⬇  Resident Pages: 0/32768  0/128M  0%         Elapsed: 0.000818 seconds

让内存不可驱逐

但是，如果你想要强制内核将文件内存保留在 Page Cache, 中，无论如何，该怎么办呢？这称为使文件内存不可驱逐。

示例
有时，您必须强制内核 100% 保证您的文件不会被从内存中逐出。即使使用现代 Linux 内核和正确配置的 cgroup 限制，您也可能需要这样做，这应该会将工作数据集保留在 Page Cache 中。例如，由于共享磁盘和网络 IO 的系统上的其他进程出现问题。或者，例如，由于网络附加存储（NAS）的中断。

内核提供了一系列系统调用用于执行此操作： mlock() 、 mlock2() 和 mlockall() 。与 mincore() 类似，您必须首先映射文件。

mlock2() 是用于 Page Cache 操作的理想系统调用，因为它具有方便的标志 MLOCK_ONFAULT :

锁定当前驻留的页，并标记整个范围，当剩余的非驻留页因缺页错误而填充时，锁定新填充的页。

不要忘记考虑 limits ( man 5 limits.conf)。你可能需要增加它：

$ ulimit -l64

最后，要获取不可驱逐内存的数量，请检查对应 cgroup 的 cgroup 内存控制器的统计信息：

$ grep unevictable /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope/memory.statunevictable 0

Page Cache、`vm.swappiness` 和现代内核

现在我们了解了基本的回收理论，包括 4 个 LRU 列表（用于匿名和文件内存）以及可驱逐/不可驱逐类型的内存，我们可以讨论重新填充系统空闲内存的来源。内核不断维护空闲页列表，以满足自身和用户空间的需求。如果此类列表低于阈值，Linux 内核将开始扫描 LRU 列表以查找要回收的页。使得内核能够保持内存处于某种平衡状态。

Page Cache 内存通常是可驱逐内存（除了一些罕见的 mlock() 例外）。因此，Page Cache 应该是内存驱逐和回收的首选和唯一选项，这看起来可能很明显。因为磁盘已经拥有了所有数据，对吧？但幸运或不幸的是，在实际生产情况下，这并不总是最好的选择。

如果系统有内存交换（现代内核应该有），内核就多了一个选择。它可以交换出匿名（非文件的）页。这似乎违反直觉，但实际情况是，有时用户空间的守护进程可以加载大量的初始化代码，但之后永远不会使用它们。例如，某些程序（尤其是静态构建的程序）的二进制文件中可能有很多功能，仅在某些边缘情况下使用几次。在所有这些情况下，将它们保存在宝贵的内存中没有多大意义。

所以，为了控制优先使用哪个 inactive LRU 列表进行扫描，内核有一个 sysctl vm.swappiness 参数。

$ sudo sysctl -a | grep swapvm.swappiness = 60

关于这个神奇的设置有很多博客文章、故事和论坛帖子。除此之外，旧版 cgroup v1 内存子系统的每个 cgroup 有自己的 swappiness 参数。所有这些都使得当前 vm.swappiness 含义的信息难以理解和更改。但让我尝试解释一些最近的更改，并为你提供最新的链接。

首先，默认 vm.swappiness 设置为 60，最小值为 0，最大值为 200：

/* * From 0 .. 200.  Higher means more swappy. */int vm_swappiness = 60;

值 100 意味着内核在回收方面同等考虑匿名页和 Page Cache 页。

其次，cgroup v2 内存控制器根本没有 swappiness 参数：

#ifdef CONFIG_MEMCGstatic inline int mem_cgroup_swappiness(struct mem_cgroup *memcg){/* Cgroup2 doesn't have per-cgroup swappiness */if (cgroup_subsys_on_dfl(memory_cgrp_subsys))return vm_swappiness;/* root ? */if (mem_cgroup_disabled() || mem_cgroup_is_root(memcg))return vm_swappiness;return memcg->swappiness;

相反，内核开发者决定大幅改变 swappiness 逻辑。你可以通过在 mm/vmscan.c 上运行 git blame 并搜索 get_scan_count() 函数来检查它。

例如，在撰写本文时，无论 vm.swappiness 如何，只要 inactive 的 LRU Page Cache 列表中有足够的页，匿名内存都不会被触及：

/* * If there is enough inactive page cache, we do not reclaim * anything from the anonymous working right now. */if (sc->cache_trim_mode) {scan_balance = SCAN_FILE;goto out;}

在关于从哪个 LRU 回收以及回收什么的决策的完整逻辑，您可以在 mm/vmscan.c 的 get_scan_count() 函数中找到。

另外，请查看 memory.swap.high 和 memory.swap.max cgroup v2 设置。如果您想纠正 vm.swappiness 逻辑以适应您的 cgroup 和负载模式，您可以控制它们。

处理交换和 Page Cache 时，另一个值得注意的问题是换入/出过程中的 IO 负载。如果有 IO 压力，则很容易达到 IO 限制，例如，降低 Page Cache 的写回性能。

通过 `/proc/pid/pagemap` 理解内存回收过程

现在是时候探讨初级故障排查技术了。

有一个 /proc/PID/pagemap 文件，包含 PID 的页表信息。页表，从根本上讲，是内核在页框（存储在 RAM 中的实际物理内存页）和进程的虚拟页之间的内部映射。Linux 系统中的每个进程都有自己的虚拟内存地址空间，该空间完全独立于其他进程和物理内存地址。

/proc/PID/pagemap 相关的文件的完整的文档，包括数据格式和读取方式，可以在内核文档文件夹中找到。我强烈建议您在继续阅读以下部分之前先阅读它。

`page-types` 内核页工具

page-types 是每个内核内存黑客的瑞士军刀。其源代码随 Linux 内核源代码 tools/vm/page-types.c 一起提供。

如果你没有在第一章节安装它：

$ wget https://github.com/torvalds/linux/archive/refs/tags/v5.13.tar.gz$ tar -xzf ./v5.13.tar.gz$ cd v5.13/vm/tools$ make

现在让我们用它来理解，内核将我们的测试文件 /var/tmp/file1.db 的多少页放在了 Active 和 Inactive LRU 列表中：

$ sudo ./page-types --raw -Cl -f /var/tmp/file1.db

foffset cgroup  offset  len     flags/var/tmp/file1.db       Inode: 133367   Size: 134217728 (32768 pages)Modify: Mon Aug 30 13:14:19 2021 (13892 seconds ago)Access: Mon Aug 30 13:15:47 2021 (13804 seconds ago)10689   @1749   21fa    1       ___U_lA_______________________P____f_____F_1...18965   @1749   24d37   1       ___U_l________________________P____f_____F_118966   @1749   28874   1       ___U_l________________________P____f_____F_118967   @1749   10273   1       ___U_l________________________P____f_____F_118968   @1749   1f6ad   1       ___U_l________________________P____f_____F_1             flags      page-count       MB  symbolic-flags                     long-symbolic-flags0xa000010800000028             105        0  ___U_l________________________P____f_____F_1       uptodate,lru,private,softdirty,file,mmap_exclusive0xa00001080000002c              16        0  __RU_l________________________P____f_____F_1       referenced,uptodate,lru,private,softdirty,file,mmap_exclusive0xa000010800000068             820        3  ___U_lA_______________________P____f_____F_1       uptodate,lru,active,private,softdirty,file,mmap_exclusive0xa001010800000068               1        0  ___U_lA_______________________P____f_I___F_1       uptodate,lru,active,private,softdirty,readahead,file,mmap_exclusive0xa00001080000006c              16        0  __RU_lA_______________________P____f_____F_1       referenced,uptodate,lru,active,private,softdirty,file,mmap_exclusive             total             958        3

输出包含两部分：第一部分提供每页信息，第二部分汇总所有具有相同标志的页并计算摘要。为了回答 LRU 问题，我们需要从输出中获得 A 和 l 标志，正如您所猜想的那样，它们代表 “active” 和 “inactive” 列表。

如您所见，我们有：

105 + 16 = 121 pages 或者 121 * 4096 = 484 KiB 在 inactive LRU 列表中。
820 + 1 + 16 = 837 pages 或者 837 * 4096 = 3.2 MiB 在 active LRU 列表中。

编写 Page Cache LRU 监控工具

page-types 是一款非常有用的初级调试和调查工具，但其输出格式难以阅读和汇总。我之前承诺过我们会编写自己的 vmtouch，所以现在我们正在实现它。我们的替代版本将提供更多关于页的信息。它不仅会显示 Page Cache 中有多少页，还会显示其中有多少页在 active 和 inactive LRU 列表中。

为此，我们需要两个内核文件：/proc/PID/pagemap和/proc/kpageflags。

您可以在 github repo 中找到完整的代码，但在这里，我想重点介绍几个重要时刻：

    ...①  err = syscall.Madvise(mm, syscall.MADV_RANDOM)    ...②  ret, _, err := syscall.Syscall(syscall.SYS_MINCORE, mmPtr, sizePtr, cachedPtr)     for i, p := range cached {③      if p%2 == 1 { ④           _ = *(*int)(unsafe.Pointer(mmPtr + uintptr(pageSize*int64(i))))        }    }   ...        ⑤  err = syscall.Madvise(mm, syscall.MADV_SEQUENTIAL)    ...

① – 在这里，我们需要禁用目标文件的预读逻辑，以防止我们的工具将不需要的数据加载到 Page Cache 中；
② – 使用 mincore() 系统调用获取 Page Cache 中的页向量；
③ – 在这里，我们检查页是否在 Page Cache 中；
④ – 如果 Page Cache 包含一个页，我们需要通过引用该页来更新相应进程的页表条目。我们的工具必须这样做才能使用 /proc/pid/pagemap。否则 /proc/pid/pagemap 文件将不包含目标文件页及其标志。
⑤ – 在这里，我们关闭了引用位的收集。这是由于内核回收逻辑的需要。我们的工具读取内存，因此影响内核 LRU 列表。通过使用 madvise() 与 MADV_SEQUENTIAL，我们通知 Linux 内核忽略我们的操作。

让我们测试一下我们的工具。我们需要 2 个终端。在第一个终端中，使用 watch( man 1 watch) 启动我们的工具，以每 100 毫秒一次，无限循环运行我们的工具：

watch -n 0.1 'sudo go run ./lru.go'

在第二个终端中，我们使用 dd ( man 1 dd` ) 读取文件：

dd if=/var/tmp/file1.db of=/dev/null

您应该看到的演示：

使用上述方法，您现在可以执行初级 Page Cache 调查。

关于 `mmap()` 文件访问的更多信息

在开始 cgroup 章节之前，我将展示如何利用内存和 IO 限制来控制 Page Cache 驱逐并提高服务的可靠性，我想更深入地研究一下 mmap() 系统调用。我们需要了解底层发生了什么，并进一步了解 mmap() 读写过程。

`mmap()` 概述

内存映射是 Linux 系统最有趣的功能之一。其特性之一是，软件开发者可以透明地处理文件，即使文件的大小超过系统的实际物理内存。在下图中，您可以看到进程的虚拟内存是什么样子。每个进程都有自己的 mmap() 映射文件的区域。

我这里不触及的的是，在你的软件中是否使用 mmap() 或文件系统调用，例如 read() 和 write()。哪种方法更好、更快或更安全超出了本文的讨论范围。但你确实需要了解如何获取 mmap() 统计数据，因为几乎所有的 Page Cache 用户空间工具都使用它。

让我们使用 mmap() 再写一个脚本。它打印进程的 PID，映射测试文件并休眠。休眠时间应该足以用该进程试验。

import mmapimport osfrom time import sleepprint("pid:", os.getpid())with open("/var/tmp/file1.db", "rb") as f:    with mmap.mmap(f.fileno(), 0, prot=mmap.PROT_READ) as mm:f        sleep(10000)

在一个终端窗口中运行它，然后在另一个终端窗口中，使用脚本的 PID 运行 pmap -x PID。

pmap -x 369029 | less

369029 是我的 PID。

pmap 的输出展示了进程的所有连续虚拟内存区域 (VMA 或 struct vm_area_struct)。我们可以确定 mmaped 测试文件 file1.db 的虚拟地址。在我的例子中：

Address           Kbytes     RSS   Dirty Mode  Mapping...00007f705cc12000  131072       0       0 r--s- file1.db

我们可以看到，该文件有 0 个脏页（它仅显示此进程的脏页）。该 RSS 列等于 0，这告诉我们进程已引用了多少 KiB 内存。顺便说一句，这个 0 并不意味着 Page Cache 中没有该文件的页。这意味着我们的进程尚未访问任何页。

注意
pmap 可以使用 -XX 显示更详细的输出。如果没有 -XX，它使用 /proc/pid/maps，但对于扩展模式，它显示来自 /proc/pid/smaps 的统计信息。更多信息可以在 man 5 proc 和内核文档 filesystems/proc.rst 中找到。

因此，对于 SRE 而言，mmap() 最令人兴奋的部分是它如何在访问和写入时透明地加载数据。我将在后续章节中展示这一切。

什么是缺页中断？

在开始讨论文件工具之前，我们需要了解缺页中断的概念。一般来说，缺页中断是 CPU 与 Linux 内核及其内存子系统进行通信的机制。缺页中断是虚拟内存概念和请求分页的组成部分。简而言之，内核通常不会在 mmap() 或 malloc() 内存请求完成后立即分配物理内存。相反，内核会在进程的页表结构中创建一些记录，并将其用作内存承诺的存储。此外，页表还包含每个页的额外信息，例如内存权限和页标志（我们已经看到了其中一些：LRU 标志、脏标志等）。

从第 2 章中的示例可以看出，为了在任何位置读取映射的文件，与文件操作不同，代码不需要执行任何查找 ( man 2 lseek)。我们可以从映射区域的任何位置开始读取或写入。因此，当应用程序想要访问页时，如果目标页尚未加载到 Page Cache 中，或者 Page Cache 中的页与进程的页表之间没有连接，则可能会发生缺页中断。

有两种对我们有用的缺页中断类型：次要（minor） 和主要。次要缺页中断基本上意味着为了满足进程的内存访问，不会有任何磁盘访问。另一方面，主要缺页中断意味着将有磁盘 IO 操作。

例如，如果我们使用 dd 加载文件一半数据到 Page Cache 中，然后从程序中使用 mmap() 访问前半部分，就会触发次要缺页中断。内核不需要访问磁盘，因为这些页已经加载到 Page Cache 中。内核只需要使用进程的页表条目引用这些已加载的页。但是，如果进程尝试在相同的映射区域中读取文件的后半部分，内核将不得不访问磁盘以加载页，系统将生成主要缺页中断。

如果您想获得有关请求分页、Linux 内核和系统内部的更多信息，请观看嵌入式 Linux Conf 的 “Linux 内存管理简介” 视频。

我们来做一个实验，写一个对文件进行不定式随机读取的脚本：

import mmapimport osfrom random import randintfrom time import sleepwith open("/var/tmp/file1.db", "r") as f:    fd = f.fileno()    size = os.stat(fd).st_size    with mmap.mmap(fd, 0, prot=mmap.PROT_READ) as mm:        try:            while True:                pos = randint(0, size-4)                print(mm[pos:pos+4])                sleep(0.05)        except KeyboardInterrupt:            pass

现在我们需要 3 个终端窗口。第一个：

$ sar -B 1

它显示每秒的系统内存统计信息，包括缺页中断。

第二个是 perf trace：

$ sudo perf trace -F maj --no-syscalls

显示主要缺页中断及其对应的文件路径。

最后，在第 3 个终端窗口中，启动上述 python 脚本：

$ python3 ./mmap_random_read.py

输出应该接近以下内容：

$ sar -B 1

....                                  LOOK HERE                                      ⬇      ⬇05:45:55 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff  05:45:56 PM   8164.00      0.00     39.00      4.00      5.00      0.00      0.00      0.00      0.00  05:45:57 PM   2604.00      0.00     20.00      1.00      1.00      0.00      0.00      0.00      0.00  05:45:59 PM   5600.00      0.00     22.00      3.00      2.00      0.00      0.00      0.00      0.00...

查看 fault/s 和 majflt/s 字段。它们显示了我刚刚解释的内容。

通过 perf trace，我们可以获取发生主要缺页中断的文件的内部信息：

$ sudo perf trace -F maj --no-syscalls

...SCROLL ➡                                                                                     LOOK HERE                                                                                                 ⬇                                                                                       5278.737 ( 0.000 ms): python3/64915 majfault [__memmove_avx_unaligned_erms+0xab] => /var/tmp/file1.db@0x2aeffb6 (d.)  5329.946 ( 0.000 ms): python3/64915 majfault [__memmove_avx_unaligned_erms+0xab] => /var/tmp/file1.db@0x539b6d9 (d.)  5383.701 ( 0.000 ms): python3/64915 majfault [__memmove_avx_unaligned_erms+0xab] => /var/tmp/file1.db@0xb3dbc7 (d.)  5434.786 ( 0.000 ms): python3/64915 majfault [__memmove_avx_unaligned_erms+0xab] => /var/tmp/file1.db@0x18f7c4f (d.)  ...

cgroup 也有关于每个 cgroup 的缺页中断的统计信息：

$ grep fault /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope/memory.stat

...pgfault 53358pgmajfault 13...

微妙的 `MADV_DONT_NEED` `mmap()` 特性

现在我们再做一次实验。停止所有脚本并清楚所有缓存：

$ sync; echo 3 | sudo tee /proc/sys/vm/drop_caches

重启脚本，进行无限读取，并开始监控进程的每个内存区域的使用情况：

watch -n 0.1 "grep 'file1' /proc/$pid/smaps -A 24"

现在您可以看到文件的映射区域及其信息。引用字段应该在增长。

在另一个窗口中，尝试使用 vmtouch 命令驱逐页：

vmtouch -e /var/tmp/file1.db

请注意，smaps 输出中的统计数据并没有完全下降。运行 vmtouch -e 命令时，smaps 应该会显示内存使用量有所下降。问题是，发生了什么？为什么当我们通过设置 FADVISE_DONT_NEED 标志，明确要求内核驱逐文件页时，其中一些页仍然存在于 Page Cache 中？

答案有点令人困惑，但理解它非常重要。如果 Linux 内核没有内存压力问题，它为什么要从 Page Cache 中删除页？程序将来很有可能需要它们。但是，如果您作为软件开发人员确定这些页是无用的，则有 madvise() 和 MADV_DONT_NEED 标志可以使用。它通知内核可以从相应的页表中删除这些页，随后的 vmtouch -e 调用将成功地从 Page Cache 中移除文件数据。

如果出现内存压力情况，内核将开始从非活动 LRU 列表中回收内存。这意味着如果这些页适合回收，内核最终可以删除它们。

Cgroup v2 和 Page Cache

cgroup 子系统是公平分配和限制系统资源的方法。它以层次结构组织所有数据，其中叶节点依赖于其父节点并继承其设置。此外，cgroup 还提供了许多有用的资源计数器和统计数据。

控制组无处不在。即使您可能没有明确使用它们，所有现代的 GNU/Linux 发行版默认都已经启用了它们，并且已经集成到了 systemd 中。这意味着现代 Linux 系统中的每个服务都在自己的 cgroup 下运行。

概述

在本系列文章中，我们已经多次提到了 cgroup 子系统，但现在让我们更深入地了解一下整体情况。cgroup 在理解 Page Cache 使用情况方面起着至关重要的作用。它还通过提供详细的统计数据，来帮助调试问题并更好地配置软件。如前所述，LRU 列表使用 cgroup 内存限制来做出驱逐决定并确定 LRU 列表的长度。

在 cgroup v2 中，另一个重要主题是正确跟踪 Page Cache IO 写回的方式，而之前的 v1 版本无法实现这一点。v1 无法理解哪个内存 cgroup 会生成磁盘 IOPS，因此会错误地跟踪和限制磁盘操作。幸运的是，新的 v2 版本修复了这些问题。它已经提供了许多新功能来帮助 Page Cache 写回。

找出所有 cgroup 及其限制的最简单方法是访问 /sys/fs/cgroup。但您可以使用更方便的方法来获取此类信息：

systemd-cgls 和 systemd-top 以了解 cgroups systemd 包含的内容；
below，top 类似 cgroups 的工具 https://github.com/facebookincubator/below

内存 cgroup 文件

现在我们从 Page Cache 的角度来回顾一下 cgroup 内存控制器中最重要的部分。

memory.current – 显示 cgroup 及其后代当前使用的总内存量。当然，它包括 Page Cache 大小。

注意
您可能很想使用这个值来设置您的 cgroup/容器内存限制，但是请等待下一章。

memory.stat – 显示了很多内存计数器，对我们来说最重要的可以通过 file 关键字进行过滤：

$ grep file /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope/memory.statfile 19804160                  ❶               file_mapped 0                  ❷file_dirty 0                   ❸file_writeback 0               ❹inactive_file 6160384          ❺active_file 13643776           ❺workingset_refault_file 0      ❻workingset_activate_file 0     ❻workingset_restore_file 0      ❻

在此处

❶ file – Page Cache 的大小；
❷ file_mapped – 使用 mmap() 的映射文件内存大小；
❸ file_dirty – 脏页大小；
❹ file_writeback – 目前正在刷新多少数据；
❺inactive_file 和 active_file – LRU 列表的大小;
❻ workingset_refault_file、workingset_activate_file 和 workingset_restore_file – 指标，以便更好地理解内存抖动和二次缺页中断（refault）逻辑。

memory.numa_stat – 显示上述统计数据，但针对每个 NUMA 节点。
memory.min , memory.low , memory.high 和 memory.max – cgroup 限制。我不想重复 cgroup v2 文档，建议您先阅读它。但您需要记住的是，使用硬性限制 max 或 min 并不是您的应用程序和系统的最佳策略。您可以选择的更好方法是仅设置 low 和/或 high 限制，使其更接近您认为的应用程序工作集大小。我们将在下一节中讨论测量和预测。
memory.events – 显示 cgroup 触及上述限制的次数：

memory.eventslow 0high 0max 0oom 0oom_kill 0

memory.pressure – 此文件包含压力阻塞信息 (PSI，Pressure Stall Information)。它通过测量由于内存不足而损失的 CPU 时间，来显示 cgroup 内存的总体健康状况。此文件是理解 cgroup 中的回收过程以及 Page Cache 的关键。让我们更详细地讨论一下 PSI。

压力阻塞信息 (PSI)

在 PSI 出现之前，很难判断系统和/或 cgroup 是否存在资源竞争；cgroup 限制是过度承诺还是配置不足。如果 cgroup 的限制可以设置得更低，那么它的阈值在哪里？PSI 功能可以缓解这些困惑，不仅让我们能够实时获取这些信息，还让我们能够设置用户空间触发器并获取通知，以最大限度地提高硬件利用率，而不会降低服务质量和带来 OOM 风险。

PSI 适用于内存、CPU 和 IO 控制器。例如，内存的输出：

some avg10=0.00 avg60=0.00 avg300=0.00 total=0full avg10=0.00 avg60=0.00 avg300=0.00 total=0

在此处

some – 表示在 10、60 和 300 秒内，至少有一项任务在内存中阻塞了一定百分比的挂机时间。“总计”字段显示以微秒为单位的绝对值，以显示峰值；
full – 含义相同，但适用于 cgroup 中的所有任务。此指标可以很好地指示问题，通常意味着资源配置不足或软件设置错误。

示例
systemd-oom 守护进程，作为现代 GNU/Linux 系统的一部分，使用 PSI 比内核的 OOM 更主动地识别内存稀缺并找到要终止的目标。

我强烈建议阅读原始的 PSI 文档。

写回和 IO

cgroup v2 实现的最重要特性之一是可以跟踪、观察和限制每个 cgroup 的 Page Cache 异步写回。现在，内核写回过程可以识别要使用哪个 cgroup IO 限制来将脏页持久保存到磁盘。

但同样重要的是，它也能在另一个方面发挥作用。如果一个 cgroup 遇到内存压力，并试图通过刷新其脏页来回收一些页，它将使用自己的 IO 限制，不会损害其他 cgroup。因此，内存压力转化为磁盘 IO，如果有大量写入，最终转化为 cgroup 的磁盘压力。两个控制器都有 PSI 文件，应该用于主动管理和调整软件设置。

为了控制脏页刷新频率，Linux 内核有几个 sysctl 参数。如果你愿意，你可以让后台写回过程更积极或更消极：

$ sudo sysctl -a | grep dirtyvm.dirty_background_bytes = 0  vm.dirty_background_ratio = 10  vm.dirty_bytes = 0  vm.dirty_expire_centisecs = 3000  vm.dirty_ratio = 20  vm.dirty_writeback_centisecs = 500  vm.dirtytime_expire_seconds = 43200

上述某些方法也适用于 cgroup。内核选择并应用最先到达的整个系统或 cgroup 的项。

cgroup v2 还带来了新的 IO 控制器：io.cost 和 io.latency。它们提供了两种不同的方法来限制和保证磁盘操作。请阅读 cgroup v2 文档以获取更多详细信息和区别。但我想说，如果您的设置并不复杂，那么从侵入性较小的方法 io.latency 开始是有意义的。

与内存控制器一样，内核也提供了一堆文件来控制和观察 IO：

io.stat – 包含每个设备数据的统计文件；
io.latency – 延迟目标时间（单位：微秒）；
io.pressure – PSI 文件；
io.weight – 如果选择了 io.cost 的目标权重；
io.cost.qos 以及 io.cost.model – io.cost cgroup 控制器的配置文件。

内存和 IO cgroup 所有权

多个 cgroups 中的几个进程显然可以处理相同的文件。例如， cgroup1 可以打开并读取文件的前 10 KiB，稍后，另一个 cgroup2 可以向同一文件的末尾追加 2 KiB 并读取前 4 KiB。问题在于，内核将使用哪个进程的内存和 IO 限制？

内存所有权（包括 Page Cache）的逻辑是基于每个页构建的。页的所有权在首次访问（缺页中断）时确定，并且在此页被完全回收和驱逐之前，不会切换到任何其他 cgroup。所有权一词意味着这些页将用于计算 cgroup Page Cache 使用量，并将被纳入所有统计数据中。

例如，cgroup1 是前 10KiB 的所有者，而 cgroup2 – 是最后 2KiB 的所有者。无论 cgroup1 对文件做什么，甚至关闭文件，只要 cgroup2 与文件的前 4KiB 进行交互， cgroup1 就会一直保留前 4KiB（而不是全部 10KiB）的所有权。在这种情况下，内核会将页保存在 Page Cache 中，并相应地不断更新 LRU 列表。

对于 cgroup IO，所有权按 inode 计算所有权。因此，对于我们的示例，cgroup2 拥有文件的所有写回操作。在首次写回时，inode 被分配给 cgroup，但与内存所有权逻辑不同，如果内核注意到另一个 cgroup 生成的脏页更多，IO 所有权可能会迁移到另一个 cgroup。

为了排除内存所有权问题，我们应该使用一对 procfs 文件：/proc/pid/pagemap 和 /proc/kpagecgroup。page-type 工具支持显示每页 cgroup 信息，但很难将其用于文件目录并获得格式良好的输出。这就是为什么我编写了自己的 cgtouch 工具来排查 cgroup 内存所有权问题的原因。

$ sudo go run ./main.go /var/tmp/ -v

/var/tmp/file1.dbcgroup inode    percent       pages        path           -      85.9%       28161        not charged        1781      14.1%        4608        /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope--/var/tmp/ubuntu-21.04-live-server-amd64.isocgroup inode    percent       pages        pat           -       0.0%           0        not charged        2453     100.0%       38032        /sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u10.service--         Files: 2   Directories: 7Resident Pages: 42640/70801 166.6M/276.6M 60.2%cgroup inode    percent       pages        path           -      39.8%       28161        not charged        1781       6.5%        4608        /sys/fs/cgroup/user.slice/user-1000.slice/session-3.scope        2453      53.7%       38032        /sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u10.service

安全的临时任务

假设我们需要运行 wget 命令或通过调用配置管理系统（例如 saltstack）手动安装某些软件包。这两项任务的磁盘 I/O 都可能非常繁重。为了安全地运行它们并且不与任何生产负载交互，我们不应该在根 cgroup 或当前终端 cgroup 中运行它们，因为它们通常没有任何限制。所以我们需要一个具有一些限制的新 cgroup。手动为您的任务创建一个 cgroup，并手动配置每个临时任务会非常繁琐和麻烦。但幸运的是，我们不必这样做，所以所有现代 GNU/Linux 发行版都内置了 systemd，带有开箱即用的 cgroup v2。systemd-run 以及 systemd 许多其他很酷的功能使我们的生活更轻松，并节省了大量时间。

例如，wget 任务可以按以下方式运行：

systemd-run --user -P -t -G --wait -p MemoryMax=12M wget http://ubuntu.ipacct.com/releases/21.04/ubuntu-21.04-live-server-amd64.isoRunning as unit: run-u2.service                         ⬅  LOOK HEREPress ^] three times within 1s to disconnect TTY.--2021-09-11 19:53:33--  http://ubuntu.ipacct.com/releases/21.04/ubuntu-21.04-live-server-amd64.isoResolving ubuntu.ipacct.com (ubuntu.ipacct.com)... 195.85.215.252, 2a01:9e40::252Connecting to ubuntu.ipacct.com (ubuntu.ipacct.com)|195.85.215.252|:80... connected.HTTP request sent, awaiting response... 200 OKLength: 1174243328 (1.1G) [application/octet-stream]Saving to: ‘ubuntu-21.04-live-server-amd64.iso.5’...

run-u2.service 是我的全新 cgroup，具有内存限制。我可以获取其指标：

$ find /sys/fs/cgroup/ -name run-u2.service/sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u2.service

$ cat  /sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u2.service/memory.pressuresome avg10=0.00 avg60=0.00 avg300=0.00 total=70234full avg10=0.00 avg60=0.00 avg300=0.00 total=69717

$ grep file  /sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u2.service/memory.statfile 11100160file_mapped 0file_dirty 77824file_writeback 0file_thp 0inactive_file 5455872active_file 5644288workingset_refault_file 982workingset_activate_file 0workingset_restore_file 0

如您所见，我们有近 12MiB 的文件内存和一些二次缺页中断（refault）。

要了解 systemd 和 cgroup 的所有功能，请阅读其资源控制文档。

我的程序使用了多少内存或工作集大小的故事

目前，在容器、自动扩展和按需云的世界中，理解服务在正常常规情况和接近软件极限的压力下的资源需求至关重要。但每当有人谈到内存使用量时，几乎立即就不清楚要测量什么和如何测量。RAM 是一种宝贵且通常昂贵的硬件类型。在某些情况下，它的延迟甚至比磁盘延迟更重要。因此，Linux 内核会尽可能地优化内存利用率，例如通过在进程之间共享相同的页。此外，Linux 内核还具有 Page Cache，以便通过将磁盘数据的子集存储在内存中来提高存储 IO 速度。Page Cache 不仅本质上执行隐式内存共享（通常会让用户感到困惑），而且还在后台主动异步地与存储一起工作。因此，Page Cache 为内存使用量估算表带来了更多的复杂性。

在本章中，我将演示一些方法，您可以使用它们来确定内存（以及 Page Cache）限制的初始值，并从一个不错的起点开始您的旅程。

一切都关乎谁重要，或独一无二的集合大小的故事

我听到过的关于内存和 Linux 的两个最常见的问题是：

我所有的可用内存在哪里？
您/我/他们的应用程序/服务/数据库使用了多少内存？

第一个问题的答案应该对读者显而易见（悄悄说 “Page Cache”）。但第二个问题要棘手得多。通常，人们认为 top 或 ps 输出的 RSS 列是评估内存利用率的良好起点。虽然这种说法在某些情况下可能是正确的，但它通常会导致对 Page Cache 重要性，及其对服务性能和可靠性的影响的误解。

让我们以著名的 top( man 1 top)工具为例，来调查它的内存消耗。它是用 C 语言编写，只做一件事，就是在循环中打印进程的状态。top 并不大量使用磁盘，因此也不使用 Page Cache。它不涉及网络。它的唯一目的是从 procfs 中读取数据，并以友好的格式显示给用户。所以它的工作集应该很容易理解，不是吗？

让我们在新的 cgroup 中启动 top 过程：

$ systemd-run --user -P -t -G --wait top

在另一个终端，让我们开始学习。从 ps 开始：

$ ps axu | grep topUSER         PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND...vagrant   611963  0.1  0.2  10836  4132 pts/4    Ss+  11:55   0:00 /usr/bin/top...                                  ⬆                                  LOOK HERE

如上所示，根据 ps 输出， top 进程使用了大约 4MiB 的内存。

现在让我们从 procfs 及其 /proc/pid/smaps_rollup文件获取更多详细信息，基本上是 /proc/pid/smaps 中所有内存区域的总和。对于我的 PID：

$ cat /proc/628011/smaps_rollup55df25e91000-7ffdef5f7000 ---p 00000000 00:00 0                          [rollup]Rss:                3956 kB  ⓵Pss:                1180 kB  ⓶Pss_Anon:            668 kBPss_File:            512 kB Pss_Shmem:             0 kBShared_Clean:       3048 kB  ⓷Shared_Dirty:          0 kB  ⓸Private_Clean:       240 kBPrivate_Dirty:       668 kBReferenced:         3956 kB  ⓹Anonymous:           668 kB  ⓺...

我们主要关心以下几行：

⓵ RSS – 一个众所周知的指标，正如我们在 ps 输出中看到的内容。
⓶ PSS – 代表进程的比例共享内存。这是一个人工内存指标，它应该能给你一些关于内存共享的洞察：

进程的“比例集大小”( PSS) 是其在内存中的页数，其中每个页除以共享它的进程数。因此，如果一个进程有 1000 个页完全属于自己，还有 1000 个页与另一个进程共享，则其 PSS 为 1500。

⓷ Shared_Clean – 是一个有趣的指标。正如我们之前假设的，我们的进程理论上不应该使用任何 Page Cache，但事实证明它确实使用了 Page Cache。正如您所见，它是内存使用的主要部分。如果您打开每区域的文件 /proc/pid/smaps，您可以找出原因是共享库。它们都是用 mmap() 打开的，并且驻留在 Page Cache 中。
⓸ Shared_Dirty – 如果我们的进程使用 mmap() 写入文件，则此行将显示未保存的脏 Page Cache 的数量。
⓹ Referenced - 表示进程迄今为止标记为引用或访问的内存量。我们在本 mmap() 部分提到过这个指标。如果没有内存压力，它应该接近 RSS。
⓺ Anonymous – 显示不属于任何文件的内存量。

从上面我们可以看出，虽然 top 输出的 RSS 为 4MiB，但其大部分 RSS 都隐藏在 Page Cache 中。理论上，如果这些页在一段时间内处于非活动状态，内核可以将它们从内存中驱逐。

我们也来看看 cgroup 统计数据：

$ cat /proc/628011/cgroup0::/user.slice/user-1000.slice/user@1000.service/app.slice/run-u2.service

$ cat /sys/fs/cgroup/user.slice/user-1000.slice/user@1000.service/app.slice/run-u2.service/memory.statanon 770048file 0...file_mapped 0file_dirty 0file_writeback 0...inactive_anon 765952active_anon 4096inactive_file 0active_file 0...

我们在 cgroup 中看不到任何文件内存。这是 cgroup 内存记账特性的另一个很好的例子。另一个 cgroup 已经计算了这些库。

为了完成并复查，让我们使用 page-type 工具：

$ sudo ./page-types --pid 628011 --raw             flags      page-count       MB  symbolic-flags                     long-symbolic-flags0x2000010100000800               1        0  ___________M_______________r_______f_____F__       mmap,reserved,softdirty,file0xa000010800000868              39        0  ___U_lA____M__________________P____f_____F_1       uptodate,lru,active,mmap,private,softdirty,file,mmap_exclusive0xa00001080000086c              21        0  __RU_lA____M__________________P____f_____F_1       referenced,uptodate,lru,active,mmap,private,softdirty,file,mmap_exclusive0x200001080000086c             830        3  __RU_lA____M__________________P____f_____F__       referenced,uptodate,lru,active,mmap,private,softdirty,file0x8000010000005828             187        0  ___U_l_____Ma_b____________________f_______1       uptodate,lru,mmap,anonymous,swapbacked,softdirty,mmap_exclusive0x800001000000586c               1        0  __RU_lA____Ma_b____________________f_______1       referenced,uptodate,lru,active,mmap,anonymous,swapbacked,softdirty,mmap_exclusive             total            1079        4

我们可以看到，top 进程的内存包含文件 mmap() 区域，因此使用了 Page Cache。

现在让我们为我们的 top 进程获取一个唯一的内存集大小。进程的唯一内存集大小或 USS 是仅此目标进程使用的内存量。此内存可以是共享的，但如果没有其他进程使用它，它仍然归入 USS 中。

我们可以使用 page-types 的 -N 标志和一些 shell 魔法来计算进程的 USS：

$ sudo ../vm/page-types --pid 628011 --raw -M -l -N | awk '{print $2}' | grep -E '^1$' | wc -l248

上述表示该 top 进程的唯一集合大小（USS）是 248 pages 或者 992 KiB。

或者我们可以利用我们对 /proc/pid/pagemap、/proc/kpagecount 和 /proc/pid/maps 的知识，编写自己的工具来获取唯一集合大小。此类工具的完整代码可以在 github repo 中找到。

如果我们运行它，我们应该得到与 page-type 相同的输出：

$ sudo go run ./main.go 628011248

既然我们了解了估计内存使用量有多么困难，以及 Page Cache 在这种计算中的重要性，我们准备向前迈出一大步，开始考虑具有更多活跃磁盘活动的软件。

空闲页和工作集大小

读到这里读者可能会对另一个内核文件感到好奇：/sys/kernel/mm/page_idle。

您可以使用它来估计进程的工作集大小。主要思想是使用特殊空闲标志标记一些页，并在一段时间后检查有关工作数据集大小的差异假设。

您可以在 Brendan Gregg 的仓库中找到很棒的参考工具。

让我们为 top 进程运行它：

$ sudo ./wss-v1 628011 60 Watching PID 628011 page references during 60.00 seconds...Est(s)     Ref(MB) 60.117        2.00

上述意味着，在 4MiB 的 RSS 数据中，该进程在 60 秒间隔内仅使用 2MiB。

欲了解更多信息，您还可以阅读这篇 LWN 文章。

该方法的缺点如下：

对于占用大量内存的进程来说，它可能会很慢；
所有测量都在用户空间进行，因此会消耗额外的 CPU；
它完全脱离了您的进程可能产生的写回压力。

虽然这可能成为您的容器的合理起始限制，我将向您展示一种更好的方法，使用 cgroup 统计信息和压力阻塞信息 (PSI) 。

使用压力阻塞信息（PSI）计算内存限制

正如系列中所见，我强调将所有服务分别运行在自己的 cgroups 中，并且精心配置限制是非常重要的。这通常会带来更好的服务性能以及更均匀、更正确地系统资源使用。

但仍然不清楚从哪里开始。选择哪个值？使用 memory.current 值好吗？还是使用唯一集合大小？还是使用空闲页标志来估计工作集大小？虽然所有这些方法在某些情况下可能都很有用，但我建议在一般情况下使用以下的 PSI 方法。

在继续使用 PSI 之前，关于 memory.current 还有一点需要注意。如果 cgroup 没有内存限制，并且系统有大量可用内存供进程使用，则 memory.current 只会显示应用程序到目前为止使用的所有内存（包括 Page Cache）。它可能包含应用程序运行时不需要的大量垃圾。例如，日志记录、不需要的库等。使用 memory.current 值作为内存限制会浪费系统资源，并且不会对您进行容量规划有帮助。

解决这个难题的现代方法是，使用 PSI 来了解 cgroup 如何对新的内存分配和 Page Cache 驱逐的反应。senapi 是一个简单的自动脚本，用于收集和解析 PSI 信息并调整 memory.high：

让我们用我的测试 MongoDB 安装进行实验。我有 2.6GiB 的数据：

$ sudo du -hs /var/lib/mongodb/2.4G    /var/lib/mongodb/

现在我需要生成一些随机读取查询。在 mongosh 中，我可以运行一个无限循环，并每 500 毫秒读取一条随机记录：

while (true) {    printjson(db.collection.aggregate([{ $sample: { size: 1 } }]));     sleep(500); }

在第二个终端窗口中，我使用带有 mongodb 服务 cgroup 启动 senpai

sudo python senpai.py /sys/fs/cgroup/system.slice/mongodb.service2021-09-05 16:39:25 Configuration:2021-09-05 16:39:25   cgpath = /sys/fs/cgroup/system.slice/mongodb.service2021-09-05 16:39:25   min_size = 1048576002021-09-05 16:39:25   max_size = 1073741824002021-09-05 16:39:25   interval = 62021-09-05 16:39:25   pressure = 100002021-09-05 16:39:25   max_probe = 0.012021-09-05 16:39:25   max_backoff = 1.02021-09-05 16:39:25   coeff_probe = 102021-09-05 16:39:25   coeff_backoff = 202021-09-05 16:39:26 Resetting limit to memory.current....2021-09-05 16:38:15 limit=503.90M pressure=0.030000 time_to_probe= 1 total=1999415 delta=601 integral=33662021-09-05 16:38:16 limit=503.90M pressure=0.030000 time_to_probe= 0 total=1999498 delta=83 integral=34492021-09-05 16:38:16   adjust: -0.0008406468912331542021-09-05 16:38:17 limit=503.48M pressure=0.020000 time_to_probe= 5 total=2000010 delta=512 integral=5122021-09-05 16:38:18 limit=503.48M pressure=0.020000 time_to_probe= 4 total=2001688 delta=1678 integral=21902021-09-05 16:38:19 limit=503.48M pressure=0.020000 time_to_probe= 3 total=2004119 delta=2431 integral=46212021-09-05 16:38:20 limit=503.48M pressure=0.020000 time_to_probe= 2 total=2006238 delta=2119 integral=67402021-09-05 16:38:21 limit=503.48M pressure=0.010000 time_to_probe= 1 total=2006238 delta=0 integral=67402021-09-05 16:38:22 limit=503.48M pressure=0.010000 time_to_probe= 0 total=2006405 delta=167 integral=69072021-09-05 16:38:22   adjust: -0.00020961438729431614

如您所见，根据 PSI，503.48M 内存足以支持我的读取工作负载，不会出现任何问题。

这显然是 PSI 功能的预览，对于真正的生产服务，您可能也应该考虑一下 io.pressure。

… 那么写回又如何呢？

说实话，这个问题比较难回答。在我写这篇文章的时候，我还不知道有什么好的工具可以评估和预测写回和 IO 的使用情况。不过，经验法则是先从中学习 io.latency，然后在需要的时候尝试使用 io.cost。

还有一个有趣的新项目 resctl-demo，它可以帮助正确识别限制。

直接 IO (DIO)（NOT READY）

像往常一样，任何规则总有例外。Page Cache 也不例外。因此，让我们来谈谈文件读写，这些操作可以忽略 Page Cache 内容。

为什么它很好

某些应用程序需要对存储子系统进行底层访问，Linux 内核通过提供 O_DIRECT 文件打开标志提供了这样的功能。此 IO 称为直接 IO 或 DIO。使用此标志打开文件，程序完全绕过内核 Page Cache，直接与 VFS 和底层文件系统通信。

优点是：

降低 CPU 占用率，从而获得更高的吞吐量；
Linux Async IO( man 7 aio) 仅适用于 DIO( io_submit)；
零拷贝避免 Page Cache 和用户空间缓冲区之间的双缓冲；
更好地控制写回。
…

为什么它不好，需要 `io_uring` 替代方案

需要将读写与块大小对齐；
并非所有文件系统在实现 DIO 时都相同；
没有 Linux AIO 的 DIO 很慢而且根本没用；
非跨平台；
不能同时对文件进行 DIO 和缓冲 IO。
…

如果没有 AIO，DIO 通常就没有意义，但是 AIO 有很多糟糕的设计决策：

所以我认为这极其丑陋。
AIO 是一种糟糕的临时设计，其主要借口是“其他不太有天赋的人做出了这种设计，而我们为了兼容性而实现它，因为数据库人员——他们实际上很少有品味——实际上会使用它”。
但 AIO 总是非常非常丑陋。
Linus Torvalds

注意！使用 DIO 仍然需要在文件上运行 fsync() ！

让我们用 iouring-go 库编写 golang 一个例子：

TODO

高级 Page Cache 可观察性和故障排除工具

让我们介绍一些高级工具，可以用于执行底层内核跟踪和调试。

eBPF 工具

首先，我们可以使用 eBPF 工具。当你想获取一些内部内核信息时，bcc 和 bpftrace 是你的好帮手。

让我们来看看它自带的一些工具。

写回监控

$ sudo bpftrace ./writeback.btAttaching 4 probes...Tracing writeback... Hit Ctrl-C to end.TIME      DEVICE   PAGES    REASON           ms15:01:48  btrfs-1  7355     periodic         0.00315:01:49  btrfs-1  7355     periodic         0.00315:01:51  btrfs-1  7355     periodic         0.00615:01:54  btrfs-1  7355     periodic         0.00515:01:54  btrfs-1  7355     periodic         0.00415:01:56  btrfs-1  7355     periodic         0.005

Page Cache Top

19:49:52 Buffers MB: 0 / Cached MB: 610 / Sort: HITS / Order: descending  PID      UID      CMD              HITS     MISSES   DIRTIES  READ_HIT%  WRITE_HIT%     66229 vagrant  vmtouch             44745    44032        0      50.4%      49.6%     66229 vagrant  bash                  205        0        0     100.0%       0.0%     66227 root     cachetop               17        0        0     100.0%       0.0%       222 dbus     dbus-daemon            16        0        0     100.0%       0.0%       317 vagrant  tmux: server            4        0        0     100.0%       0.0%

缓存统计信息

[vagrant@archlinux tools]$ sudo ./cachestat      HITS   MISSES  DIRTIES HITRATIO   BUFFERS_MB  CACHED_MB        10        0        0  100.00%            0        610         4        0        0  100.00%            0        610         4        0        0  100.00%            0        610        21        0        0  100.00%            0        610       624        0        0  100.00%            0        438         2        0        0  100.00%            0        438         4        0        0  100.00%            0        438         0        0        0    0.00%            0        438        19        0        0  100.00%            0        438         0      428        0    0.00%            0        546     28144    16384        0   63.21%            0        610         0        0        0    0.00%            0        610         0        0        0    0.00%            0        610        17        0        0  100.00%            0        610         0        0        0    0.00%            0        610

`bpftrace` 和 `kfunc` 跟踪

除此之外，eBPF 和 bpftrace 最近又增加了一个很棒的新功能，名为 kfunc。因此，使用它，您可以在没有安装内核调试信息的情况下跟踪一些内核函数。

它仍然接近于实验性功能，但它看起来确实很有前景。

Perf 工具

但是如果你想要更深入地了解，我可以为你提供一些东西。perf 允许你几乎在任何内核函数中设置动态跟踪内核探测器。唯一的问题是需要安装内核调试信息。不幸的是，并非所有发行版都提供它，有时你可能需要添加一些额外的标志手动重新编译内核。

但是当你获得调试信息时，你可以进行非常疯狂的调查。例如，如果我们想跟踪主要缺页中断，我们可以找到负责的内核函数（https://elixir.bootlin.com/linux/latest/source 及其帮助搜索）并安装一个探针：

perf probe -f "do_read_fault vma->vm_file->f_inode->i_ino"

其中，do_read_fault 是我们的内核函数，vma->vm_file->f_inode->i_ino 是发生主要缺页中断的文件的 inode 编号。

现在您可以开始记录事件：

perf record -e probe:do_read_fault -ag -- sleep 10

perf script10 秒后，我们可以用 bash 魔法来 grep 出 inode ：

perf script | grep i_ino | cut -d ' ' -f 1,8| sed 's#i_ino=##g' | sort | uniq -c | sort -rn

原文： Linux Page Cache mini book

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/12-11-2024/linux-page-cache-minibook-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

Redis 延迟毛刺问题定位-软中断篇

2024-09-16T16:00:00.000Z

背景

该问题发生于去年的十二月份，业务发现部分线上集群再次出现延迟毛刺。只是现象与上次不同：

延迟出现的时间点不固定，逐渐发生变化
延迟较为规律的每小时出现一次
持续时间大概有差不多十分钟，不是一瞬间

问题定位

相比八月份出现类似问题的状态，整个系统的监控系统和定位能力更加完备，包含主调和被调耗时以及耗时百分位。

缩小范围

通过 Redis Proxy 主调 Redis 的监控看板，可以观察到明显的耗时毛刺。

然后，使用 ebpf 抓取 Redis 执行耗时也并未发现慢速命令，说明并非是业务使用命令导致的。

基于以上手段以及整体架构很容易将问题范围缩小到：Redis Proxy 调用 Redis 链路。

接下来，我们将注意力转向了网络层面。

调用链路分析

首先，在问题出现的时间点，使用 MTR 检查网络丢包和延迟，一切正常。

再次，检查问题集群的上层交换机，一切正常。

最后，检查某个主机的监控时，终于发现了与延迟匹配的指标。

经网络团队检查，看到机器上 rx missed_errors 比较高

$> ethtool -S eno2 |grep rx |grep errorIX_errors: 0Ix_over_errors: 0Ix_crc_errors: oIX_ frame_errors: 0IX_fifo_errors: 0rx missed_errors: 2071867IX_length_errors: 0Ix_long_length_errors: 0rx_short_length_errors: 0

找了一台机器调高 ring buffer 大小为 4096。

$> ethtool -G  rx 4096  # 增加 RX 队列的大小到 4096

$> ethtool -g eno2 # 查询网卡队列长度Ring parameters for eno2:Pre-set maximums:RX:4096RX Mini:0RX Jumbo:0TX:4096Current hardware settings:RX:4096RX Mini:0RX Jumbo:0TX:512

持续观察一天，问题不再复现。

网络团队的同事判断是业务层有周期性阻塞性的任务，导致软中断线程收包阻塞，rx drop 是因为软中断线程收包慢导致的。使用字节跳动团队的 trace-irqoff，可以观测到以下输出

$> cat /proc/trace_irqoff/trace_latencysoftirq: cpu: 2COMMAND: ethtool PID: 95974 LATENCY: 29+ms trace_irqoff_record+0x2a6/0x330 [trace_irqoff] trace_irqoff._hrtimer_handler+0xcb/0xd4 [trace_irqoff]__hrtimer_run_queues+0xca/0x1d0hrtimer_interrupt+0x109/0x230 __sysvec_apic_timer__interrupt+0x61/0xd0sysvec_apic_timer_interrupt+0x77/0x90asm_sysvec_apic_timer_interrupt+0x12/0x20ixgbe_read_reg+0x33/0xf0 [ixgbe]ixgbe_lower_i2c_clk+0x4a/0x60 [ixgbe]ixgbe_clock_in_i2c_byte+0xc0/0x120 [ixgbe]ixgbe_read_i2c_byte_generic_int+0x20f/0x270 [ixgbe]ixgbe_read_12c_byte_generic+0x1b/0x20 [ixgbelixgbe_read_i2c_eeprom_generic+0x21/0x30 [ixgbe]ixgbe_get_module_eeprom+0x6f/0x100 [ixgbe]ethtool_get_module_eeprom_call+0x5b/0x70ethtool_get_any_eeprom+0xf9/0x1b0dev_ethtool+0x1e9a/0x2980dev_ioctl+0x145/0x530sock_do_ioctl+0xa9/0x100sock_ioctl+0xef/0x310__x64_sys_ioctl+0x91/0xc0do_syscall_64+0x5c/Oxc0entry_SYSCALL_64_after_hwframe+0x44/OxaeCOMMAND: ksoftirqd/2 PID: 28 LATENCY: 227ms trace_irqoff_record+0x2a6/0x330 [trace_irqoff]trace_irqoff_timer_handler+0x48/0x80 [trace_irqoff]call_timer_fn+0x2e/0x110run_timer_softirq+0x36e/0x480__do_softirq+0xf0/0x33erun_ksoftirqd+0x2b/0x40smpboot_thread_fn+0xba/0x150kthread+0x12a/0x150ret_from_fork+0x22/0x30

看到下面的进程 ksoftirqd/2 的栈，延迟时间是 227ms。ksoftirqd 进程是 kernel 中处理 softirq 的进程。因此这段栈是没有意义的，因为元凶已经错过了。所以此时，可以借鉴上面的栈信息，看到当 softirq 被延迟 29+ms 的时候，当前 CPU 正在执行的进程是 ethtool。ethtool 的 lantency 提示信息 29+ms 是阈值信息，并非实际 latency（所以后面添加一个 ‘+’ 字符，表示 latency 大于 29ms）。实际的 latency 是 ksoftirqd/2 显示的 227ms。原来是有人用 ethtool 读 eeprom 导致网卡阻塞丢包了。

团队同事使用以下命令，扫描机器上可执行程序：

$> find /usr/bin /usr/sbin /usr/local/bin /usr/local/sbin  -type f -executable ! -path "/usr/sbin/ethtool" -print0 | xargs -0 strings -f | grep -w 'ethtool'/usr/bin/node-exporter: ethtool/usr/bin/udevadm: ../src/shared/ethtool-util.c...

因为是问题是持续定时发生的，识别过滤出两个常驻后台的可执行程序，逐一确认。

经相关同事确认，故障出现的前一两天确实灰度了光模块监控，会调用 ethtool -m 读取光模块的信息。程序灰度时间与问题出现的时间一致，程序回滚之后问题恢复。原来是程序是被逐个机器遍历的远程调用完成数据抓取，并且根据上次完成的时间偏移固定的时间来启动下次数据抓取。也就解释了为何会出现背景中描述的毛刺特征。

问题复盘

MTR 能探测主机丢包么？要回答这个问题首先要了解以下几个问题：

MTR 是怎么探测是否有丢包的？
TCP 主机上是怎么负载均衡的？
主机有哪些环节可能导致丢包？

MTR 原理

在使用 ICMP（TCP）探测时，mtr 发送 ICMP ECHO（TCP SYN）数据包到目标主机（的指定端口）。目标主机收到数据包后，会响应 ICMP ECHO REPLY（TCP SYN-ACK）数据包。mtr 记录下从发送数据包到接收到响应数据包之间的延迟，并将这些信息显示给用户。

当网络数据包到达网卡时，硬件中断会被触发，然后系统会调度 ksoftirqd 线程来处理数据包，进行协议栈的进一步处理。并在软中断上下文中完成 ICMP（TCP）协议响应（以及 TCP 的连接状态管理，如 SYN、ACK、FIN 等）。以 ICMP 为例，相关内核逻辑如下

// https://elixir.bootlin.com/linux/v4.6/source/net/ipv4/icmp.c#L893/* *Handle ICMP_ECHO ("ping") requests. * *RFC 1122: 3.2.2.6 MUST have an echo server that answers ICMP echo *  requests. *RFC 1122: 3.2.2.6 Data received in the ICMP_ECHO request MUST be *  included in the reply. *RFC 1812: 4.3.3.6 SHOULD have a config option for silently ignoring *  echo requests, MUST have default=NOT. *See also WRT handling of options once they are done and working. */static bool icmp_echo(struct sk_buff *skb){struct net *net;net = dev_net(skb_dst(skb)->dev);if (!net->ipv4.sysctl_icmp_echo_ignore_all) {struct icmp_bxm icmp_param;icmp_param.data.icmph   = *icmp_hdr(skb);icmp_param.data.icmph.type = ICMP_ECHOREPLY;icmp_param.skb   = skb;icmp_param.offset   = 0;icmp_param.data_len   = skb->len;icmp_param.head_len   = sizeof(struct icmphdr);icmp_reply(&icmp_param, skb);}/* should there be an ICMP stat for ignored echos? */return true;}

与 TCP 协议相关的定时器（例如 TCP 重传定时器），是通过 kworker 内核线程处理的。定时器触发时，内核线程会进行重传、ACK 处理等操作。

RSS 硬件多队列

多数主机网卡都支持 RSS（Receive Packet Steering）功能，网卡会有多个接受队列，旨在根据接收到的数据包计算哈希值，并将包分配到不同的接收队列，以便多个 CPU 核心并行处理数据包。查看网卡队列数量：

$ ethtool -l eno1Channel parameters for eno1:Pre-set maximums:RX:0TX:0Other:1Combined:128Current hardware settings:RX:0TX:0Other:1Combined:48    # 启用的网卡队列数

RSS 的负载均衡通常基于数据包的 五元组，包括：

源 IP 地址
目的 IP 地址
源端口（TCP/UDP）
目的端口（TCP/UDP）
协议类型（TCP/UDP/ICMP）

当使用 MTR 进行探测时，可以指定所使用的协议类型 ICMP 或 TCP。RSS 在处理 ICMP 包时，只会基于三元组：

源 IP 地址
目的 IP 地址
协议类型（ICMP）

当 RSS 处理 ICMP 包时，网卡会基于这三元组计算一个哈希值，随后将该哈希值与网卡的队列数量进行取模运算，决定数据包被分配到哪个硬件队列，所以具有相同源 IP、目的 IP 和协议的 ICMP 流量通常会被固定分配到某个特定的队列。

对比来看，TCP 协议会不断更改请求包的来源端口，进而可以覆盖所有队列。

对于低概率的丢包事件，除了考虑负载均衡，还要考虑探测的频率。 MTR 默认的发包频率是 1 秒，root 用户可以通过 -i 参数来指定 0 到 1 之间的值以提高探测频率，并且保障一定的时长来检测丢包。抑或使用 hping3 直接向终点 IP 发送数据包，而不对中间的路由跳数进行探测。

$> hping3 -S  10.129.114.203 -p 80HPING 10.129.114.203 (bond0.1000 10.129.114.203): S set, 40 headers + 0 data byteslen=46 ip=10.129.114.203 ttl=61 DF id=0 sport=80 flags=RA seq=0 win=0 rtt=3.7 mslen=46 ip=10.129.114.203 ttl=61 DF id=0 sport=80 flags=RA seq=1 win=0 rtt=3.7 mslen=46 ip=10.129.114.203 ttl=61 DF id=0 sport=80 flags=RA seq=2 win=0 rtt=7.6 ms

RPS 软件多队列

对于不支持多队列或队列数显著少于 CPU 数的主机（如：基于 82598 网络连接的 Intel 网卡仅支持 16 个队列），需要开启软件实现的多队列，即 RPS。RPS 类似的基于数据包的五元组（源 IP、目的 IP、源端口、目的端口、协议类型），将接收队列的网络数据包分发到多个 CPU 核的 backlog 队列。再由各个 CPU 上软中断线程将数据包交给 L2、L3、L4 协议解析，最终到达 socket 缓存区。如此旧避免网络处理集中在单个（部分） CPU 核上，从而造成瓶颈或资源不平衡。整体流程参考：译｜Monitoring and Tuning the Linux Networking Stack - Receiving Data

主机丢包环节

对于本次故障的场景，由于没有连接异常断开，所有长连接均处于 ESTABLISHED 状态。那么，连接建立阶段的丢包的因素就可以不用考虑。因此就可以重点考虑最关键的三个队列是否溢出：RX 队列、backlog 队列、Socket 接收缓存区。

由于 TCP 是面向连接的协议，有流控机制，当接收缓冲区满时，发送方会停止发送数据，直到缓冲区有空闲空间为止，因此 TCP 丢包的概率较小。其他两个队列的丢包情况，则可以通过 ethtool 查看，即上文提及的排查命令。

推而广之，怎么覆盖上层协议栈的丢包呢？使用 netstat -s 命令，可以查看网络协议栈各层的详细统计信息，包括 IP、TCP、UDP、ICMP。如果具体到定位丢包原因，则需要其他可观测性的工具。

考虑到数据包处理路径的复杂度，Linux 内核从 5.15 版本开始引入了 skb_drop_reason 以追溯根因。它通过为丢包原因提供一组标准化的枚举值 skb_drop_reason enum ，让开发者能够更清楚地看到丢包的具体原因，并可以通过工具在 skb:kfree_skb 跟踪点上添加探测器来监控包丢弃情况。

$> perf record -e skb:kfree_skb curl https://localhostcurl: (7) Failed to connect to localhost port 443: Connection refused[ perf record: Woken up 1 times to write data ][ perf record: Captured and wrote 0.040 MB perf.data (4 samples) ]$> perf script            curl 163406 [036] 7681948.959483: skb:kfree_skb: skbaddr=0xffff8a68e752cc00 protocol=0 location=0xffffffff8efced8e reason: NOT_SPECIFIED            curl 163406 [036] 7681948.959574: skb:kfree_skb: skbaddr=0xffff8a68ed61d2e0 protocol=34525 location=0xffffffff8f0177e9 reason: NOT_SPECIFI>            curl 163406 [036] 7681948.959728: skb:kfree_skb: skbaddr=0xffff8a68ed61d2e0 protocol=2048 location=0xffffffff8ef64c2b reason: NO_SOCKET            curl 163406 [036] 7681948.959779: skb:kfree_skb: skbaddr=0xffff8a68ed61d2e0 protocol=2048 location=0xffffffff8ef64c2b reason: NO_SOCKET

腾讯、字节等厂在此基础上进行了更加友好的封装：nettrace、netcap

总结

针对该类偶现问题，由于短期波动对整体趋势影响较小，抓取现场获取瞬时值（即时值）的难度颇高。相反，累计值能够保存历史记录，并且随着时间的推移，累计值的数据量可能变得非常大，更适合分析。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/09-17-2024/redis-latency-irqoff.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜IOCost: Block IO Control for Containers in Datacenters

2024-06-26T16:00:00.000Z

摘要

资源隔离是数据中心环境的基本需求。然而，我们在 Meta 大规模数据中心的生产实践中发现，现有的块存储 IO 控制机制在容器化环境中表现不足。IO 控制必须为容器提供按比例分配的资源，同时考虑到存储设备硬件异构性和数据中心部署工作负载的特性。现代 SSD 的速度要求 IO 控制以低开销执行。此外，IO 控制应追求工作量保持，考虑与内存管理子系统的交互，并避免优先级反转导致的隔离失败。

为应对这些挑战，本文提出 IOCost，一种专为容器化环境设计的 IO 控制方案，它为数据中心中异构存储设备和多样化的负载提供了可扩展、工作量保持和低开销的 IO 控制。IOCost 通过离线分析建立设备模型并用此模型来估计每个 IO 请求的设备占用情况。为了最小化运行时开销，IOCost 将 IO 控制分为快速的每 IO 问题路径和较慢的周期性规划路径。一个创新的工作量保持预算捐赠算法允许容器动态共享未使用的预算。 IOCost 已经在 Meta 的数据中心进行了部署，覆盖了数百万台机器，向上游的 Linux 内核贡献了 IOCost，并开源了设备分析工具。IOCost 已经在生产环境中稳定运行了两年，为 Meta 的设备群提供着 IO 控制服务。我们在此文中详细阐述了 IOCost 的设计理念，并分享了将其大规模部署所积累的经验。

译者注
工作量保持：尽量利用可用资源来执行任务，不让资源闲置

CCS 概念

软件工程 → 操作系统；输入/输出；
计算机系统组织 → 云计算。

关键词

数据中心，操作系统，I/O，容器

1. 引言

容器正在迅速成为现代数据中心中虚拟化容量的主要机制之一。它们在操作系统层面虚拟化资源，为应用程序提供轻量级、一致的运行环境，便于跨平台部署和运行。目前市场上有众多容器解决方案，包括亚马逊 AWS、谷歌 Cloud 和微软 Azure 等主要云服务商提供的产品。容器也正在接管私有数据中心，Facebook 的整个服务器群也完全基于容器运作。随着容器使应用整合程度提高，构建有效的控制和隔离机制变得尤为重要。

以往的研究关注点主要集中在计算、内存和网络资源的隔离上，并在 Linux 中有许多改进。不过，Meta 在大规模数据中心的实际运营中发现，现有针对块存储的 IO 控制机制，例如 BFQ，无法满足容器化环境下的需求。

为容器提供健壮的 IO 控制，存在以下几项挑战：首先，IO 控制需要考虑数据中心中的硬件异构性。单个数据中心中可能同时存在多代 SSD、传统的硬盘驱动器、本地/远程存储和新型存储技术。硬件异构性因它们在延迟和吞吐量方面的性能特性大不相同而进一步加剧，不仅在不同类型的设备（如 SSD 和硬盘）之间，而且在同一类型内也是如此。有效控制还需要考虑 SSD 的特殊性，这些特性可能会在短时间内过度发挥其性能，然后急剧下降，从而对堆叠环境产生不利影响。

其次，IO 控制需要适应各种应用程序的限制。例如，一些应用程序对延迟敏感，而其他应用程序主要从增加吞吐量中受益，还有一些应用程序可能执行顺序或随机访问，这些访问可能是突发的或是持续的。不幸的是，在数据中心级别，当设备异构性和应用多样性结合在一起时，找到延迟和吞吐量之间的平衡点尤其具有挑战性。

第三，IO 隔离需要提供数据中心所需的一系列属性。工作量保持是理想的，因为它能实现高利用率，避免资源闲置。此外，一些 IO 控制机制依赖于严格的优先级排序，但这在平等优先级的应用共享同一台机器时无法提供公平性。再者，应用程序开发者常常无法准确评估每个应用和设备层面上的 IO 需求，比如 IOPS 这样的指标。因此，IO 控制机制应当易于应用程序开发者理解和配置。最后，IO 隔离与诸如页面回收和交换等内存管理操作相互作用。IO 控制必须识别这些交互，以防止优先级反转和其他隔离失败的情况发生。

过去的 IO 控制研究主要集中在基于 VM 的虚拟化环境上，提出了多种旨在增强 hypervisor 功能的方案。然而，这些方法并没有充分考虑到容器环境的复杂性，例如单一共享的操作系统、IO 与内存子系统之间的交互，以及高度堆叠的部署方式。在 Linux 内核中，最先进的解决方案要么依赖于 BFQ，要么基于最大带宽使用量，通过 IOPS 或字节数来设定限制。然而，这些方法未能实现充分的工作量保持（work-conserving），缺乏与内存子系统的整合，或者对于快速存储设备增加了过多的性能开销。这意味着，传统 IO 控制机制在容器化环境下，特别是在需要高效利用资源和与内存管理协同工作的场景中，表现不佳。

在这项研究中，我们引入了 IOCost，这是一个全面的 IO 控制解决方案，它综合地解决了异构硬件设备和应用程序带来的挑战，同时满足了数据中心规模下容器对 IO 隔离的需求，同时考虑了与内存管理的交互。IOCost 背后的关键洞察是，IO 控制中的主要难点在于对设备占用情况理解不足。当我们比较现有的 IO 控制与 CPU 调度时，这一点变得明显。CPU 调度依赖于加权公平队列等技术，通过测量 CPU 时间消耗来按比例分配 CPU 占用率。相比之下，像 IOPS 或字节数这样的指标对于衡量占用率来说并不理想，尤其是考虑到块设备种类繁多。现代块设备严重依赖内部缓冲和复杂的延后操作，如垃圾收集，这给那些依赖设备时间共享或主要基于 IOPS 或字节数来确保公平性的技术带来了难题。

IOCost 通过使用特定设备的模型来估算每个 IO 请求的设备占用量工作。例如，4KB 的读取操作在高端 SSD 上的成本与在传统机械硬盘上是不同的。有了占用模型和额外的 QoS 参数——后者用于补偿建模不准确性并决定设备负载程度——IOCost 可以在各个容器之间公平地分配设备占用。系统管理员或容器管理系统沿着容器层次结构设置权重，以确保单个容器或容器组获得一定比例的 IO 服务。IOCost 进一步引入了一种新颖的工作量保持预算捐赠算法，允许容器高效地将其多余的 IO 预算转移给其他容器。

我们已经在 Meta 的整个机群中部署了 IOCost。我们的评估显示，与其它解决方案相比，IOCost 能提供比例、工作量保持且具备内存管理感知的 IO 控制，同时开销极小。具体而言，我们证明了 IOCost 在堆叠式 ZooKeeper 部署中成功隔离了 IO 操作，而先前的解决方案未能提供可行的解决办法。为了表明 IOCost 的广泛应用性，我们还在使用远程存储如 AWS Elastic Block Store 和 Google Persistent Disk 的公共云 VM 上成功验证了它的有效性。

我们已经在 Meta 的设备群中部署了 IOCost。我们的评估表明，IOCost 优于其他解决方案，提供了比例工作保持和内存管理感知的 IO 控制，且开销极小。具体来说，我们展示了 IOCost 在一个堆叠的 ZooKeeper 部署中成功地隔离了 IO 操作，而现有的解决方案则未能提供可行的解决方案。为了证明 IOCost 的广泛适用性，我们在使用远程存储（如 AWS Elastic Block Store 和 Google Cloud Persistent Disk）的公共云 VM 中成功验证了它。

本文的贡献如下：

• IOCost 提出了一种针对现代存储设备设计的容器感知、可扩展、工作量保持且低开销的 IO 控制方案。
• 我们介绍了一种建模技术，用于评估不同应用和设备上的 IO 设备占用情况。为了弥补模型不精确性带来的影响，IOCost 根据实时 cgroup 使用情况和 IO 完成延迟的统计数据，在运行时调整 IO 控制策略。
• 我们提出了一种工作保护算法，它使得容器能够将未完全使用的 IO 预算按比例捐赠给 cgroup 层级中的其他容器。
• 为了减少运行时开销，我们将 IO 控制分解为快速的每 IO 问题路径和较慢的周期性规划路径。
• 我们对 IOCost 进行了详细的评估，并展示了现有的 IO 控制机制在功能集和性能上无法与 IOCost 相匹敌。
• 我们已在 Meta 公司遍布全球的数据中心（包含数百万台机器）全面部署了 IOCost，并向上游的 Linux 内核贡献了 IOCost，同时开源了我们的设备性能分析和基准测试工具。

2. 背景

在本节中，我们首先简要介绍 cgroup，它是用来配置每个容器资源分配的关键机制。接下来，我们介绍了 Linux 块层和现有的 IO 控制解决方案。最后，我们描述了现代数据中心的背景，其中包含多种不同的块存储设备和工作负载。

2.1 使用 cgroup 进行资源控制

容器运行时依赖于控制组（cgroup）来实现资源控制和隔离。如今，cgroup 是容器组织进程并沿其层次结构以受控和可配置方式分配系统资源的主要机制。

cgroup 有两个主要的概念部分。首先，单个 cgroup 形成了一个层次结构，而进程属于一个 cgroup。一个 cgroup 可以包含大量进程或仅包含一个进程。其次，cgroup 控制器会根据配置，沿着这个树状结构分配具体的系统资源，比如 CPU、内存和 IO。

配置 cgroup 控制器的一种常见方法是使用权重（weight），即通过累加所有同级 cgroup 的权重，然后根据每个 cgroup 权重与总和的比例来分配资源。

图 1：Meta 生产环境 cgroup 层次结构

图 1 显示的是 Meta 使用的一个示例性 cgroup 层级结构。这个层级被划分为系统（system）、主机关键（host critical）和工作负载（workload）三个部分的 cgroup。System cgroup 包含了所有的辅助服务，比如 chef，服务通常执行定期操作以保持主机更新。Host Critical cgroup 则包括了维持主机运行所必需的进程，例如 sshd 和容器管理代理。Workload cgroup 则存放了所有应用程序的进程，为了适当地隔离不同的容器，它被进一步细分为子 cgroup。

2.2 块层和 IO 控制

图 2：IO 和块层

应用程序和文件系统通过块层来访问块设备。图 2 显示了 Linux 块层以及与之交互的其它组件。从顶部开始，用户空间通过系统调用与内核进行互动。对文件系统的读写操作会传递到块层，形成文件系统 IO（FS IO）。此外，用户空间还可以通过导致页错误、脏页回写或换出等内存操作间接达到块层。 cgroup 子系统负责资源核算，并基于 cgroup 层级结构，在所有相关组件间传递控制信息。

块层使用 bio 数据结构来携带信息，如请求类型（例如读或写）、大小、目标设备、设备的扇区偏移、发出请求的 cgroup 以及数据复制源或复制目的内存。在请求提交给设备驱动程序之前，块层的控制和调度逻辑可以选择限制 bio 的速度，将它与其他请求合并等。Linux 内核提供了多种不同的 IO 调度器，可以被启用。我们将那些与 cgroup 子系统集成的调度器称为“控制器”，以此区别于仅仅确保整机有良好性能的普通 IO 调度器。

表 1：Linux IO 控制机制和功能

表 1 列出了各种 Linux IO 控制机制的特点。第 4 节通过实验全面比较了这些机制。在没有 cgroup 控制的情况下，IO 调度主要有三种选择：no scheduler、mq-deadline 和 kyber。这些选项并不向容器保证 IO 资源，而是确保一些总体性能特性，例如防止异步写入影响同步读取操作。

blk-throttle 允许通过设定每秒读/写 IOPS 或字节数的形式来限定 I/O 操作。然而，这些限制并不具备工作量保持，对于数据中心内多样化的设备和应用来说，配置起来十分困难。

BFQ 提供了比例控制 I/O 的工作量保持接口，但它忽略了与内存管理的交互，这可能导致隔离失效。此外，如第 4.1 节所示，BFQ 具有较高的每次请求开销和宽泛的延迟波动。最后，BFQ 根据每个容器读/写扇区进行轮询调度，这种方法在具有复杂内部操作的现代设备上效率低下。

除了 IOCost 之外，我们还开发了 IOLatency 控制器，它可以为单独的 cgroup 设置 I/O 延迟目标。具体而言，它界定了一个 cgroup 的 I/O 操作在其它 cgroup 受到限制前所能接受的最大延迟。例如，如果另一个设置了 5 毫秒延迟目标的 cgroup 其 I/O 操作开始超过 5 毫秒，那么一个延迟目标为 10 毫秒的 cgroup 将会被限流。我们已经将 IOLatency 控制器集成到上游 Linux 内核。

在实际生产部署中，我们发现了 IOLatency 存在的一些局限性。首先，基于延迟的接口只适用于严格的优先级划分，即阻止低优先级的工作负载干扰高优先级的工作负载，但缺乏比例控制使得它不适合在同等优先级的工作负载之间确保公平性。其次，尽管从技术角度讲，IOLatency 实现了工作量保持，但在多元化的设备和工作负载中寻找既能隔离又能工作量保持的配置几乎是不可能的。

2.3 硬件和工作负载异构性

图 3：Meta 设备群的设备异质性。

硬件异质性。硬件的逐步更新和供应链的多样化，导致了数据中心内部存在多种类型的 SSD。在 Meta 的服务器群中，图 3 显示了不同 SSD 设备的性能特征。图的左侧 y 轴表示随机和顺序读写操作的 IOPS，右侧 y 轴则显示了读写操作的延迟。我们运用 fio 工具来测量每款设备所能持续达到的峰值性能。

八种类型的固态硬盘（标记为 A 至 H）展现出各自独特的性能特征。具体而言，SSD H 在低延迟条件下实现了高 IOPS，SSD G 虽然 IOPS 较低，但同样保持了相对低的延迟，而 SSD A 则以中等的 IOPS 水平配以较高的延迟。每一款设备通常占数据中心总设备数量的比重不超过 14%，除了设备 F，它的占比达到了 19%。大约 20% 的 SSD 容量分布于图中未列出的 18 种设备，但这些设备的特性已经被图中显示的设备所涵盖。

图 4：IO 工作负载异构性

工作负载异构性。Meta 的应用程序表现出其 IO 工作负载的多样性。图 4 显示了 Meta 上几个典型工作负载的 I/O 需求。通过测量一周生产数据的 P50，我们观察到每秒读、写操作与随机、顺序字节操作之间的对比。像 Web A 和 Web B 这样的工作负载最能代表 Meta 的平均状况，它们的读、写操作在随机、顺序操作上大致均衡。而 Meta 的 Serverless 工作负载则高度过载，呈现出混合的读、写比例。Cache A 和 Cache B 是内存缓存服务，它们使用高速的块设备作为内存缓存的后端存储，这两者均展现出大量的顺序 I/O。此外，Meta 的非存储服务进行的显式 I/O 操作相对较少，它们的 I/O 大多来源于页面调度和周期性的软件更新。

总而言之，有效的 I/O 控制的重大挑战在于，在不需要每工作负载配置（例如延迟、IOPS 或每秒字节数）的情况下，能够应对硬件异构和工作负载多样化的稳健性，这通常在生产环境中太脆弱且难以管理。一个理想的 I/O 控制机制应当能够满足各类工作负载的复合需求，同时避免配置的爆炸式增长。

3. IOCost 设计

IOCost 的目标是实现 IO 控制，该控制需考虑到硬件设备的异构性和工作负载需求的多样性，同时为容器间提供比例分配的资源和强大的隔离性。

3.1 概述

IOCost 显式地将设备配置与工作负载配置解耦。对于每个设备，IOCost 引入了一个成本模型及一组服务质量（QoS）参数，它们定义并规范了设备的行为。而对于工作负载，IOCost 利用 cgroup 权重进行比例配置，这意味着工作负载的配置可以独立于设备细节，这在异构环境中大大简化并增强了大规模配置的便捷性和稳健性。

IOCost 采用多核 CPU 的分层加权公平调度概念。IOCost 通过每 IO 的成本建模来估算单次 IO 操作的占用情况，然后根据为每个 cgroup 分配的权重，使用该占用估算值来做调度决策。我们的创新设计将低延迟问题路径与周期性规划路径分开，使得 IOCost 能够扩展到每秒数百万次 IOPS 的 SSD。

图 5：IOCost 架构概览，显示了左侧如何评估 bio（块 I/O 请求）的成本以作出限流决策，以及右侧的离线成本模型与逻辑生成过程。

图 5 给出了 IOCost 体系结构的概览。IOCost 在逻辑上分为 问题路径（Issue Path） 和 规划路径（Planning Path） 两部分，前者是运行在微秒时间尺度上的每 bio 操作，后者则是运行在毫秒时间尺度上的周期性操作。此外，离线工作用于推导出设备的成本模型和 QoS 参数。

让我们简短地探讨一下 bio 的生命周期及其与 IOCost 的交互过程。首先，在步骤 1 中，IOCost 接收到一个描述 IO 操作的 bio。随后的步骤中，IOCost 会计算这个 bio 的 cost，并作出相应的限流决策。

在步骤 2 里，IOCost 从 bio 中抽取特征，并利用成本模型参数计算出 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝑐𝑜𝑠𝑡。cost 是以时间单位表示的，但是一个 IO 操作的 cost 其实是一个占用率指标，而非延迟。例如，20 毫秒的代价意味着设备每秒可以处理 50 个这样的请求，但这并不说明每个操作实际耗时多久。我们将在第 3.2 节中进一步讨论特征选择和成本模型的细节。

紧接着，在步骤 3 中，绝对的 IO 成本会被除以发出请求的控制组（cgroup）的层次权重（hweight），以得出相对的 IO 成本。hweight 是通过在 cgroup 层次结构中向上递归，累计该 cgroup 相对于其同级 cgroup 所占的权重份额来计算的。hweight 代表着该 cgroup 有权获得的 IO 设备最终份额。例如，一个 hweight 为 0.2 的 cgroup 就拥有设备 20% 的份额，而一个 IO 操作的相对成本就是。

步骤 4 显示了全局虚拟时间（vtime）时钟，它以虚拟时间速率（vrate）指定的速度与实际时间同步前进。每个 cgroup 跟踪其本地 vtime，每当发生一次 IO 操作时，本地 vtime 会根据该 IO 的相对成本向前推进。接着，在步骤 5 中，基于本地 vtime 与全局 vtime 之间的差距，IOCost 做出限流决策。这个差距代表了 cgroup 当前的 IO 预算。如果预算等于或大于某个 IO 的相对成本，该 IO 立即执行。否则，IO 必须等待直到全局 vtime 推进足够远。

在规划路径中，IOCost 收集 cgroup 的使用情况和完成延迟，并定期调整 IO 控制策略。在步骤 6 中，IOCost 根据设备反馈全局调整 vrate，进而调整总的 IO 发起量。由于模型可能过高或过低估计实际设备占用，vrate 的调整确保设备的良好利用。关于 vrate 调整和 QoS 的更多讨论见第 3.3 节。接下来，在步骤 7 中，IOCost 的捐赠算法高效地将多余的预算捐赠给其他 cgroup，实现工作量保持。第 3.6 节详细介绍了该算法。

在步骤 8 中，离线状态下，IOCost 利用部署设备上的性能剖析、基准测试和训练来构建每个设备模型的成本模型和 QoS 参数，这些参数在生产部署期间会被使用。

3.1.1 问题路径

问题路径决定了 IO 的 cost、hweight、基于本地和全局 vtime 的可用预算，并作出限流决策。

bio 的绝对成本是通过将成本模型应用于 bio 的特征来计算的。每个 cgroup 也被分配了一个权重，这个权重表示了该 cgroup 在其同级 cgroup 中所占的 IO 占用比例。为了避免在热点路径上重复递归操作，权重被合并并平展为 hweight，然后被缓存起来，只有当权重发生变化时才会重新计算。

一个没有发出 IO、因而没有消耗其预算的 cgroup 会导致设备利用率低下。为了解决这个问题，IOCost 区分了活跃的 cgroup。当一个 cgroup 发出 IO 时，它就变成了活跃状态；而在一个完整的规划周期过去而没有任何 IO 的情况下，它会变成非活跃状态。在计算 hweight 时，非活跃的 cgroup 会被忽略。这个低开销机制使得设备保持较高的利用率，因为闲置的 cgroup 隐式地将其预算捐赠给了活跃的 cgroup。当一个 cgroup 变为活跃或非活跃时，它会增加一个权重树生成号，以此指示权重已被调整。随后通过问题路径执行的 cgroup 会注意到这一点，并重新计算它们的 hweight。

3.1.2 规划路径

规划路径负责全局协调，确保每个 cgroup 仅凭本地信息就能高效运行，并且能够收敛到期望的分层加权公平 IO 分配。它基于延迟目标的倍数定期运行，这样既能包含足够数量的 IO，又能允许精细的控制。

规划路径统计每个 cgroup 正在使用的 IO 量，以此确定它们可以捐赠多少权重，并相应地调整权重。通过预算捐赠，IOCost 实现了工作量保持，同时保证问题路径操作严格局限在 cgroup 本地。与捐赠相关的问题路径操作仅限于当预算紧张时减少或取消捐赠，这也是一个本地操作。

此外，规划路径还监控设备行为，并通过调整 vrate 来控制全局虚拟时间相对于实际时间的快慢，从而调节所有 cgroup 能发出的 IO 总量。例如，如果 vrate 设置为 150%，那么全局虚拟时间将以实际时间的 1.5 倍速度运行，并产生比设备成本模型指定的多 1.5 倍的 IO 预算。vrate 调整的条件和范围是由系统管理员通过 QoS 参数配置的。

3.2 设备成本建模

IOCost 将设备成本建模与运行时的 IO 控制分离。成本模型在部署前为每个设备离线生成。为了达到最大的灵活性，IOCost 允许成本模型以任意的 eBPF 程序形式表达。此外，IOCost 原生支持线性模型，其工作原理如下。IOCost 从 bio 请求中提取以下特征：1）读取或写入、2）相对于 cgroup 的上一次 IO 是随机还是顺序，3）请求的大小。IO 成本计算如下：

根据读/写和随机/顺序的组合，从四种 base cost 选择一种。根据读或写选择 size cost rate。因此，线性模型由六个参数组成：四种 base cost 和两种 size cost rate。

为了方便起见，配置以不同的格式接受这六个参数——读写每秒字节数（bps），以及读写时的每秒 4kB 顺序和随机 IO（IOPS）。这些参数在内部被转换为 base cost 和 size cost rate，转换公式如下：

$秒$

图 6：IOCost 配置示例

图 6 显示了一个示例配置。对于读取操作，转化为每字节 2.05 纳秒的 size cost rate，顺序 base cost 为 104 微秒，随机 base cost 为 109 微秒。相应地，一个 32KB 的随机读取 bio 请求的成本将是，并且设备每秒钟能够处理 2840 个这样的请求。

我们的工具使用 fio 和饱和工作负载来推断设备的线性模型参数，例如，通过尽可能多地发出 4KB 随机读取请求来确定随机读取的 base cost。即使在 Meta 数据中心中存在大约三十种不同的存储设备，以这种方式系统地对设备进行建模仍然是可行的。我们已经将我们的建模工具集成到了 Linux 内核源码树。

3.3 QoS 和动态 vrate 调整

简单的线性建模无法捕捉现代 SSD 的复杂性。这些设备有着复杂的缓存层、请求重排序、垃圾回收机制，面对不同的 I/O 混合模式时，其表现往往出乎预料。先前的研究着重强调了精确建模 SSD 行为的难度。IOCost 通过动态调整 vrate 来应对设备性能的波动。

vrate 调整基于两个信号：I/O 预算不足和设备饱和。前者表明内核本可以发出更多 I/O，但由于由 vtime 决定的全局预算限制而无法做到。后者则表明设备无法处理更多的 I/O。如果系统能够发出更多 I/O 且设备并未饱和，vrate 将向上调整。反之，若设备处于饱和状态，vrate 则向下调整。

IOCost 通过追踪请求耗尽和延迟目标超限来识别设备是否饱和。当正在进行的 I/O 请求过多，耗尽了可用的 I/O 槽位，导致设备层出现长队列时，即发生请求耗尽。延迟目标是通过 QoS 参数设定的。例如，系统管理员可以配置，如果 90 百分位的读取完成延迟超过 10 毫秒，则认为设备处于饱和状态。

通过限制向设备发出的总 I/O 量，即便是在表现出突发行为或设备模型难以完全捕捉的其他行为的设备上，IOCost 也能实现一致的延迟。IOCost 将延迟视为设备层面的属性。它使用 QoS 参数来调控设备行为，然后分配由此产生的 I/O 占用。这种分离简化了工作负载的配置，并且对于保持 QoS 目标是必要的。理论上，如果我们放宽对批处理工作负载的设备限流，可能会失去对设备的控制，在延迟敏感型工作负载激活时，无法达到 QoS 目标。

3.4 使用 ResourceControlBench 调整 QoS 参数

QoS 参数决定了设备的整体限流，这是在设备利用率与一致延迟之间的重要权衡。最终，如何做出这种权衡取决于存储的使用场景。在 Meta，主要的考量是确保在竞争情况下合理的 I/O 延迟，而原始吞吐量则作为次要考量。

为了确保设备能够得到充分的限流，我们为 Meta 机群中的每个设备开发了一套系统性的方法来确定 QoS 参数。虽然完整描述超出了本文的范畴，但我们提供了一个简化的说明。

我们开发了 ResourceControlBench，这是一个高度可配置的复合工作负载，模仿了 Meta 中延迟敏感服务的行为。我们通过观察 ResourceControlBench 在不同 vrate 范围内的行为，利用它来进行 QoS 调整。我们在两种场景下执行 ResourceControlBench。

首先，ResourceControlBench 独占机器运行，并调整其工作集大小，直到可用于分页和交换操作的吞吐量开始限制 ResourceControlBench 的性能。随着 vrate 的降低，工作集大小也会下降。其次，ResourceControlBench 与另一个容器中的内存泄露一起运行。随着 vrate 的降低，I/O 控制得到改善，直到 ResourceControlBench 的延迟得到了充分保护，免受内存泄露导致的抖动影响。

这两种场景确定了 vrate 范围的两点，低于这两点不再需要进一步的 I/O 控制改进，高于这两点吞吐量的提升对于内存超额分配并没有带来实质性的好处。我们将每个设备的 vrate 设定在这两点之间。这些 QoS 参数被部署到机群中的每个设备上，从而实现了所有应用程序的一致延迟控制，并将吞吐量损失降至最低。ResourceControlBench 和场景生成工具作为开源软件提供。

3.5 处置优先级反转

考虑两个具有相同权重的 cgroup，A 和 B，在同一台机器上运行。A 持续泄露内存。当机器内存不足时，B 尝试分配内存并进入内存回收流程，此时会识别出 A 的一部分内存用于换出。由于这部分被换出的内存属于 A，因此换出 bio 的成本只能合理地归咎于 A。如果这个成本被记在 B 上，B 将因为 A 的过度内存使用而受到惩罚，破坏了资源隔离。

为使 B 完成内存分配，这个换出操作必须同步完成。如果 A 超过了其预算，对其进行限速会导致优先级反转，即 B 再次因为 A 的内存过度使用而受罚。IOCost 解决这个问题的方法是允许 A 产生“债务”，并在不进行限速的情况下发出 I/O 操作。A 的未来 bio 将按比例进行限速，直到用未来的预算还清债务为止。

然而，如果 A 泄露内存但没有发出可以被限速的 I/O，A 将获得不公平的大量“免费”换出 I/O，并且永远无法偿还债务。为解决这个问题，IOCost 在每次返回用户空间前添加了一个检查。如果累积的债务超过了阈值，线程会在返回用户空间前短暂阻塞，以此来限制“免费”I/O 的生成。结果，生成交换的内存活动被限速，而不会造成优先级反转。同样的机制也用于共享文件系统等操作，如日志记录。

3.6 预算捐赠

单个 cgroup 并不总是会发出达到 hweight 的 I/O 请求量。为了工作量保持，IOCost 通过动态降低捐赠者 cgroup 的权重，允许其他 cgroup 利用存储设备。我们研究了多种方案，包括暂时加速 vrate，但发现只有局部调整权重的策略能够满足以下所有要求：1）I/O 问题路径保持低开销；2）发出的 I/O 总量不会超过 vrate 设定的限制；3）捐赠者可随时低成本撤销捐赠。

每个规划阶段都会识别出捐赠者，并计算出它们能捐出多少 hweight。随后，它会计算出捐赠 hweight 后已降低的权重。权重计算的过程设计得让父节点的权重调整完全由子节点的权重变化决定。

由于捐赠是通过权重调整实现的，所以 I/O 问题路径不会发生变化，也不会与设备级别的行为交互，这样就满足了前两项要求。捐赠者只需更新自己的权重，并沿问题路径向上传播更新，无需任何全局操作即可撤销捐赠，从而满足了最后的要求。这会增加权重树的代数，后续的 I/O 发出者会重新计算它们的 hweight。

图 7：规划阶段（a）、规划阶段之后（b）和问题路径期间（c）的预算捐赠示例

高层次捐赠示例。 在图 7(a) 中，容器 A 和 B 的权重分别是和。在规划阶段，发现 B 未使用其一半的预算。为了避免设备利用率低下，系统将 B 原始预算的一半转移给了 A。图 7(b) 显示了这一变动对第二周期的影响。随着 hweight 增加，A 的 I/O 相对成本降低，可以更频繁地发出，而 B 则达到其降低后的新预算上限。在周期末尾，不再需要进一步调整。图 7(c) 显示，在第三个周期中期，B 尝试发出更多 I/O，并在问题路径中撤销捐赠，无需等待下一个规划阶段。值得注意的是，容器也可以只撤销其原始捐赠的一部分。

权重树更新算法。 令表示权重，表示兄弟节点的权重总和，表示 hweight，而则代表子树中所有捐赠叶节点的 hweight 总和。下标标记父节点，而撇号（’）表示捐赠后的数值。

图 8：B 和 H 捐赠了部分预算

图 8 显示了预算捐赠过程。在这个例子中，叶节点 B 和 H 的活跃使用量总共比它们设定的 hweight 少 0.25。过剩的部分被捐赠给其他可以按照它们的层级权重比例使用更多 I/O 的 cgroup。最重要的是，只需要局部更新，因为的值仅沿着从 B 和 H 到根节点的路径递减，之后所有其它节点都可以在问题路径中懒惰地计算出它们新的 hweight。

捐赠值会沿着树向上传播，作为预算捐赠算法的输入。仅需沿着从根到捐赠子节点 B、D 和 H 的路径计算更新后的权重和层级权重。为了确保非捐赠节点不需要更新，我们维持了两个不变性质，进而推导出更新后的层级权重、兄弟节点的权重总和和更新后的权重。

第一个不变性质强制规定了父节点的非捐赠权重占比在预算捐赠后不会改变。

第二个不变性质保证了所有未捐赠的兄弟节点的汇总权重在预算捐赠后不会发生变化。

步骤

(1) 使用公式 (4) 的约束从父节点层级权重值计算新的 hweight:
(2) 基于公式 (5) 的约束计算新的兄弟节点的权重总和:
(3) 最终的权重由计算出的和得出:

在其他节点上完整展示剩余的、、值是为了完整性，但在预算捐赠的过程中，这些值并非必要。值得注意的是，对于其他节点而言，的值并不会改变。这种效率对于庞大的 cgroup 层次结构非常重要。仅需沿着从捐赠叶子节点到根节点的路径更新，所有其他节点基于这些更新的新值就会获得正确的数值。举例说明，在这个例子中，B 和 H 共释放了 0.25 的 hweight，根据 E、F 和 G 最初的 hweight 比例 0.16:0.04:0.35 分配，从而分别向 E、F 和 G 捐赠 0.07、0.02 和 0.16 的 hweight。

4. 评估

本节表明 IOCost 提供了一种低开销、工作量保持、内存管理感知并允许进行比例 cgroup 配置的 I/O 控制。我们将 IOCost 与最新的 Linux I/O 控制机制以及我们在第 2.2 节描述的先前解决方案 IOLatency 进行了比较。显示没有一种机制能够与 IOCost 拥有的特性和性能相媲美。

在所有的实验中，除非另有说明，我们使用的是单插槽、64GB 内存的服务器，配备三种不同的 SSD：1）较早一代的商用 SSD；2）较新一代的商用 SSD；3）高端企业级 SSD。我们安装了 5.6 版的 Linux 内核，该内核已经应用了来自 5.15 版本最新的 IOCost 变更。模型参数是通过使用 fio 饱和工作负载确定的，如第 3.2 节所述。QoS 参数是通过使用 ResourceControlBench 确定的，如第 3.4 节所述。

4.1 低开销

在数据中心中控制高速 SSD 的 IO 操作，需要控制器具有极小的开销。本次实验采用了一款最大读取 IOPS 为 75 万次的 SSD，我们使用 fio 工具生成尽可能多的 4KB 随机读取，以测试 IO 子系统能支持的最大数量。

图 9：IO 控制开销

图 9 测量了启用 IO 控制时，使用多种不同机制所能达到的最大 IOPS。控制器或调度程序并未设置进行实际的限速，这样我们可以测量在快速 IO 问题路径上引入的开销。我们使用企业级 SSD 进行此实验，以展示我们最快存储设备上的开销。我们禁用了所有控制器的 QoS 设置，以便单纯测量在不限制设备时，各控制器的基线开销。

none 列对应于没有运行任何软件调度器或控制器的情况，展示了该设备上块层可实现的吞吐量。mq-deadline 是 Linux 默认的调度器，具有适度的开销。kyber 的表现与没有调度器时无异。这两种 IO 调度器都不提供 cgroup 控制功能，因为它们只提供系统级的调度。bfq 则有严重的软件开销。尽管我们进行了大量调优，但始终未能找到合理性能的配置。其余的列表明，其他 IO 控制器并没有增加明显的开销。虽然 IOCost 的限速逻辑比其他控制器复杂得多，但由于其将问题拆分为快速的 IO 问题路径和较慢的规划路径，因此能够确保几乎无感的开销。

4.2 比例控制和工作量保持

工作量保持 IO 控制对于确保在某些消费者空闲时，存储设备的性能得到充分利用至关重要。如果没有工作量保持 IO 控制，我们就需要为诸如操作系统软件更新等不频繁的活动过度预置 IO 资源。

为了评估这些特性，我们进行了两个相关的实验，其中两个合成的工作负载同时运行。在第一次实验中，我们运行了两个延迟敏感型工作负载实例，在 p50 延迟低于 200 微秒的情况下，持续发出 4KB 的随机读取请求。这些工作负载模拟了在线服务，如果请求延迟过高可能会导致负载卸载。我们将高优先级工作负载的 IO 配置为低优先级工作负载的两倍。这个实验是在我们较旧一代的 SSD 上进行的，由于它的相对较低的延迟，对 IO 控制的要求更高。

图 10：比例控制。高优先级和低优先级工作负载接收的 IOPS 目标比例为 2

图 10 显示了第一次实验的结果。我们仅关注 cgroup 感知的 IO 控制机制。bfq 被配置了期望 2:1 权重比例。然而，高优先级工作负载以超过 10:1 的比例占据主导地位。这是因为低优先级工作负载受到较差的延迟影响，并持续降低其 IO 发出率以保持在 200 微秒的目标之下，这反过来又让高优先级工作负载得以占据主导并接收远超其应得份额的 IO。blk-throttle 被配置为限制每个工作负载以保持 2:1 的比例。它的表现符合预期，与 IOCost 观察到的延迟匹配。IOLatency 没有提供配置此类分布的方法。相反，我们尝试通过调整每个 cgroup 的延迟目标来实现期望的分布，但最佳配置（如图所示）仍然导致大约 10:1 的分布。最后，IOCost 如同 bfq 一样配置权重，并且能够精确匹配预期的 2:1 比例。

第二次实验保持了相同的配置，只是将高优先级工作负载替换为一个顺序执行、思考时间为 100 微秒、随机 4KB 读取操作的工作负载，即在上一次 I/O 完成后 100 微秒才发起新的 I/O。这次实验所取得的吞吐量取决于读取操作的延迟，远低于之前的实验。因此，低优先级工作负载可利用的吞吐量取决于 I/O 控制器的工作量保持特性。我们预期低优先级工作负载会耗尽剩余的可用 I/O。

图 11：工作量保持。低优先级的工作负载应该用尽所有可用容量

图 11 显示了第二次实验的结果。bfq 的工作量保持特性导致低优先级工作负载完成了大量的 I/O 操作。bfq 在这方面超越其他机制的能力，源于其较弱的延迟控制，这反而导致高优先级工作负载表现明显恶化。高优先级工作负载平均延迟为 250 微秒，标准差接近 1 毫秒，而其他所有机制都能将延迟保持在平均 200 微秒以下，标准差约为 200 微秒。这个实验也揭示了非工作量保持方法的主要缺点，例如 blk-throttle，它能很好地控制延迟，但不允许低优先级工作负载消耗比前一次实验更多的 IO。IOLatency 和 IOCost 表现相当，既能控制高优先级工作负载的延迟，又允许低优先级工作负载消耗原本可用的 I/O。这两个实验共同证明了 IOCost 独特地提供了比例和工作量保持的 I/O 控制。

4.3 机械硬盘建模

尽管 SSD 构成了 Meta 数据中心的绝大多数，IOCost 同样适用于机械硬盘。与 SSD 不同，机械硬盘具有较高的寻道延迟，这意味着随机 I/O 的吞吐量比顺序 I/O 低（或者说是更高的占用成本）。我们进行了一项实验，其中两个工作负载分别发出随机 4KB 读取或顺序 4KB 读取。其中一个工作负载（高权重）被配置为另一个工作负载（低权重）权重的两倍。我们比较了 mq-deadline，bfq 和 IOCost 在三种情况下的表现：两个工作负载都发出随机读取（rand/rand），高优先级工作负载发出随机读取而低优先级发出顺序读取（rand/seq），以及两者都发出顺序读取（seq/seq）。

图 12：机械硬盘上随机和顺序工作负载的公平性

图 12 显示了这次实验的结果。为了清晰地展示差异，我们将随机和顺序工作负载的吞吐量分别标准化为设备能够处理的每种类型工作负载的峰值吞吐量。结果显示，mq-deadline 无法在任何工作负载上以 2:1 的比例提供公平性，因为它只是一个全局调度器。BFQ 在两个工作负载都发出顺序 I/O 时表现出色，保持了预期的 2:1 比例，但在两个工作负载都发出随机 I/O 时遇到困难，尤其是在混合了顺序工作负载时，它过分分配了设备给随机读取工作负载。相比之下，IOCost 通过建模随机 I/O 与顺序 I/O 的成本差异，并确保在设备占用方面实现公平性，在所有情况下都保持了预期的 2:1 比例。这导致了适当的隔离，即无论邻居的磁盘访问模式如何，工作负载从磁盘收到的服务都是相同的。

4.4 QoS 和 Vrate 调整

正如第 3.3 节讨论的那样，现代 SSD 的复杂性使得简单的建模方法不够准确，可能会导致 IOCost 对设备的占用率估计偏低或偏高。vrate 通过动态调整整体的 I/O 发出速率来补偿这种建模的不准确性。

图 13：由于模型不准确而进行的 vrate 调整

图 13 显示了我们在新一代商用 SSD 上进行的一个实验结果，其中一项工作负载试图通过 4KB 的随机读取来饱和设备，而 QoS 设置被配置成使 IOCost 保持 90 百分位的读取延迟在 250 微秒。最初，vrate 保持在约 100 左右，这表明模型参数适合维持这样的 QoS。

在第一个指示的时间点，我们在线更新模型参数，将其值减半（实际上是在声称设备的占用量仅为之前的一半）。作为响应，读取速率下降。然而，vrate 迅速攀升至大约两倍的发送速率，同时保持着我们期望的 QoS。最后，在第二个指示的时间点，我们再次在线更新模型参数，将其设置为原来值的两倍（实际上是在声称设备的占用量是之前的两倍）。起初，发送速率过度饱和设备，导致延迟出现尖峰，但随着 vrate 降至大约初始值的一半，延迟开始稳定下来，以维持 QoS。这项实验表明，IOCost 中动态 vrate 调整功能能够处理建模不准确的问题，同时仍能保持 QoS。

4.5 内存管理感知

在数据中心中，资源过度分配是一种普遍用来提高利用率的方法。通常的做法是部署一个拥有保证资源的高优先级工作负载，并允许低优先级的工作负载尽力而为地消耗机器上的剩余资源。内存管理的集成对于确保资源得到恰当回收至关重要。

图 14：延迟敏感型工作负载与内存泄漏工作负载堆叠时的每秒请求数 (RPS)

我们展示了 Meta 生产网络服务器在老一代和新一代商用固态硬盘上的结果。我们在系统切片中启动了一个内存泄漏进程（参见图 1 以了解 cgroup 层级结构），这个进程最终会被 out-of-memory（OOM）杀手终止。图 14 显示，由于内存争抢，Web 服务器的吞吐量降低了。在理想资源控制条件下，Web 服务器应该主要保持其吞吐量。mq-deadline 隔离效果不佳，因为它缺乏 cgroup 集成，但与高端 SSD 配合时稍好，仅仅是因为高端 SSD 具有更大的带宽。尽管 BFQ 具有比例控制，但它的表现最差，导致吞吐量几乎完全丧失，这是由于缺乏延迟控制和内存管理集成。IOLatency 表现中等。最后，IOCost 超越了所有其他 I/O 控制机制，Web 服务器的吞吐量不低于正常水平的 80%。

为了评估内存管理集成的特定细节，我们设计了一个实验，其中 ResourceControlBench 与 stress 同地运行，stress 是一个复合内存消费者，它不断地访问其配置的工作集。我们配置了一个 PID 控制器，逐渐将 ResourceControlBench 的负载从其峰值计算负载的 40% 增加到 80%，同时保持 95 百分位的延迟在 75 毫秒以下。随着 ResourceControlBench 负载的增加，其内存访问频率增加，推动了对其驻留内存需求的增长。相应地，为了确保高优先级的 ResourceControlBench 有足够的内存，复合内存消费者的内存必须被换出。我们测量了 ResourceControlBench 从其峰值负载的 40% 扩展到 80% 所需的时间。

图 15：过度承诺环境中的启动时间

图 15 显示了这个实验的结果。没有 stress 的两个基准配置显示，IOCost 的加载时间大约是 BFQ 的一半。当 stress 消耗内存时，IOCost 配置能够比 BFQ 快约 5 倍地完成纵向扩展。我们还运行了 IOCost 的修改版本。在第一个配置中，所有交换出的 I/O 都被计费到根 cgroup，因此永远不会受到限制。stress 无论消耗多少交换 I/O，都能自由运行。在第二个配置中，我们根据来源的 cgroup 来限制交换 I/O，这会产生优先级反转，即在交换出 stress 的内存时，ResourceControlBench 可能受到限制。这两种配置的表现不如生产版本的 IOCost，这表明 IOCost 的债务机制（第 3.5 节）如何避免优先级反转，同时保持良好的 I/O 控制。

4.6 堆叠延迟敏感的工作负载

IOCost 在生产环境中的一个应用是确保多个容器能够获得其应有的 I/O 服务份额。在 Meta，我们运行着类似 Zookeeper 的工作负载，它提供了一个强一致性 API，用于配置、元数据和协调原语，如监视器、锁和信号量。单个操作复制到多个参与者，以提供容错能力。在 500000 次事务后，该服务会触发内存数据库的快照，即使在正常负载下，也会导致瞬时的写入峰值。生产服务对读写操作有一秒的服务等级目标（SLO）。这一 SLO 使得该服务与其他服务共存变得困难，因为集合中的一个参与者遇到的减速可能导致整个操作放慢。这项服务运行在配备了我们企业级 SSD 的机器上。

我们分析了这样一个场景下的服务行为：十二个集群 (每个集群由五个参与者组成) 分布在五台机器上。同一集群中的任意两个参与者都不会共享主机。这种配置允许多个低流量集群共享机器，实现合理的总利用率。

图 16：不同 IO 控制方法对 ZooKeeper 延迟 SLO 超限的影响

这十二个集群各自接收中等程度的流量，即每秒 3000 次读取和 100 次写入。其中十一个集群的平均有效载荷大小为 100KB，而第十二个集群作为一个“嘈杂的邻居”，其有效载荷大小为 300KB。图 16 显示了十一个表现良好的集群的 P99 延迟。SLO 超限由其频率和严重程度来表征。在六小时的实验期间，使用 blk-throttle、BFQ 和 IOLatency 时，这些集群反复超限 1 秒的 SLO。具体来说，blk-throttle 显示了 78 次超限，其中有些持续了数十秒。BFQ 显示了 13 次超限，每次持续 2-5 秒。值得注意的是，虽然图中没有显示，但由于 BFQ 限流的严重性导致系统完全无响应，我们不得不多次运行这个实验。IOLatency 无法配置为比例控制，也显示出不良行为，即 31 次超限，最长的一次持续了 7.8 秒。而使用 IOCost 时，有效地隔离了“嘈杂邻居”集群和快照的影响，仅出现了两次轻微超限，持续时间分别为 1.5 秒和 1.04 秒。

4.7 远程存储和 VM 环境

除了本地存储之外，IOCost 还适用于为远程块存储环境提供 I/O 控制，比如公共云中常见的环境。为了评估 IOCost 的广泛适用性，我们重复了图 14 中的实验，不过这一次将 Meta 的生产 Web 服务器替换为与一个在低优先级 cgroup 中运行的、高速内存泄漏程序并行运行的 ResourceControlBench。

图 17：AWS EBS 和 Google Cloud Persistent Storage 中延迟敏感型工作负载与内存泄漏工作负载叠加时的每秒请求数 (RPS)

我们在公共云的 VM 中运行这两个工作负载，虚拟机的客户操作系统配置了 IOCost。图 17 显示了四种配置的保护比率——两种 AWS Elastic Block Store (gp3-3000iops, io2-64000iops)，以及两种 Google Cloud Persistent Disk (balanced, SSD)。尽管不同延迟配置文件存在差异，实验清楚地表明，无论是在本地还是远程挂载的情况下，IOCost 都能够有效地隔离所有配置的 I/O。这个实验证明了 IOCost 在建模和 QoS 参数化方面的稳健性，可以成功应用于 Meta 之外的环境。

4.8 包获取和容器清理

IOCost 相较于 IOLatency 的一个重大特性是，其比例控制能力使我们能够确保系统服务和工作负载获得公平的 I/O 份额，而不是强制执行严格的优先级排序。此外，即便在极端情况下，当服务器资源被充分利用且竞争激烈时，IOCost 仍能成功地保护服务和工作负载。

包获取失败。 在 Meta，一个常见的操作是为容器获取包。这一过程通过一个 host critical 服务（容器代理）请求系统服务来获取包。我们经常遇到由于系统服务因 I/O 资源不足而无法响应，导致两者之间的通信失败的情况。包获取失败会导致容器更新失败，进而常常导致整台机器不得不退出生产环境。

图 18：随着区域从之前的解决方案 IOLatency 迁移到 IOCost，包获取失败率降低

图 18 显示了 IOCost 的效果，当数以十万计服务器组成的区域在两个月的时间里从 IOLatency 迁移到 IOCost。随着 IOCost 的启用，该区域内的包获取错误率显著下降，错误数量大约减少了 10 倍。

容器清理失败。 在 Meta 的数据中心，定期进行的操作之一是清理老旧容器。我们依赖 btrfs 及其写时复制语义，因此这通常是一个低成本的操作，但我们仍然会遇到一些情况，这些操作可能需要几秒钟。这种情况往往是主工作负载耗尽容器代理的 I/O 资源所造成的。清理老旧容器通常是为了确保后续容器有足够的磁盘空间，而清理失败可能导致机器在功能上变得不可用。

图 19：随着区域从之前的解决方案 IOLatency 迁移到 IOCost，容器清理失败次数减少

图 19 显示了容器清理失败率的减少，即那些耗时超过 5 秒的清理操作，在该区域迁移至 IOCost 后的变化。IOCost 的效果立竿见影。具体来说，我们看到 IOCost 实现了 3 倍的减少，极大地降低了停滞情况。这再次表明了 IOCost 对容器编排系统成功管理主机能力的影响。

5. 经验教训

Meta 拥有全球最大的 I/O 控制部署之一。最初的动机之一是解决因系统服务内存泄漏导致的隔离失效问题。单独的内存控制是不够的，因为即使设置了内存限制，仍然会导致回收过程，影响延迟敏感应用程序的 IO。只有将内存控制和 I/O 控制结合在一起，我们才能实现全面的隔离。

我们尝试了现有的 I/O 控制机制，但发现它们对 Meta 的异构设备和应用程序无效。通过 blk-throttle 为每个应用程序配置 I/O 限制效率低下，容易出错，最终难以处理。BFQ 显示了显著的开销和宽泛的延迟波动，并且在实际场景中无法实现有效的隔离。

我们首先开发了 IOLatency，它揭示了在内存管理和文件系统操作中的优先级反转导致的隔离失效问题。解决了这些优先级反转问题后，我们能够通过调整延迟目标来实现全面的隔离。然而，生产环境下的配置非常困难，因为延迟目标是异构设备属性和动态应用程序属性构成的复杂函数。针对某一场景优化的配置往往对其他场景无效。此外，它无法在具有相同优先级的多个竞争性应用程序之间进行 I/O 仲裁。

随后，我们开发了 IOCost 来解决 IOLatency 的局限性。IOCost 的配置更为简便，首先可以通过使用 fio（第 3.2 节）对设备性能进行建模，然后利用 ResourceControlBench（第 3.3 节）调整 QoS 参数，以此系统性地实现设备配置。有了每个设备的 I/O 成本模型，就可以通过简单的比例权重为各种应用程序实现有效的 I/O 控制，而无需针对每个应用程序进行离线性能剖析或配置 IOPS、字节数或延迟，这些方法通常过于脆弱和难以大规模生产使用。总体而言，IOCost 已在生产环境中稳健运行两年，有效应对了我们的设备群中异构设备和多样化的应用程序的场景。

倾向于性能一致的 SSD。 在 Meta 的数据中心，我们反复遭遇不可预测的 SSD 行为，并发现迎合特定设备的行为并不现实。随着各种应用程序在异构设备群中迁移，对我们来说，针对遇到的特定 SSD 的奇异情况来调整每个应用程序是不切实际的。我们放弃第一代解决方案 IOLatency 主要是因为它需要脆弱的逐应用程序调优。我们当前的解决方案利用 IOCost 的 QoS 特性来限制 SSD，以实现对多样化应用程序可接受的延迟和一致性。

总的来说，我们的经验表明，与那些具有短时、不可预测、高峰值性能的 SSD 相比，性能更一致的 SSD 可以在高度扩展和复杂的环境中得到更有效的利用。因此，我们建议吞吐量和延迟稳定的 SSD 更适合数据中心使用。

6. 相关工作

与我们的发现一致，The Tail at Store 对生产存储设备进行了大规模研究，发现在不同设备之间存在大量的性能差异。此外，FLIN 发现工作负载的 I/O 请求模式在并发执行的应用程序间的不公平性中扮演了重要角色。

ReFlex 采用了一种建模方法来考虑访问远程闪存设备时读写操作之间的相互影响。SSDcheck 为现代 SSD 构建了一个性能模型，以预测每个请求的延迟，并基于预期的请求延迟进行调度。类似地，SSD Performance Transparency 讨论了建模 SSD 性能的需求和挑战，并提倡对设备进行逆向工程，而非黑盒建模。

关于虚拟机监控器的文献致力于解决跨多个不同工作的 I/O 公平性问题。PARDA 和 mClock 都探讨了为访问网络存储的 VM 提供粗粒度公平性的设计。VMWare 和 NetApp 都提出了 I/O 解决方案，允许 VM 获得配置数量的 IOPS。相比之下，IOCost 应对了 I/O 子系统与内存子系统交互带来的额外挑战，并通过建模设备占用率，而非仅以 IOPS 或延迟来测量和控制，独特地实现了 I/O 公平性。我们认为，建模设备占用率可能是虚拟机监控器值得探索的一个富有成效的方法。

Cello、Argon 和 Redline 都提出了在慢速、机械硬盘时代控制 I/O 的方法，这类驱动器具有相对较低的并发性和较高的寻道延迟。最近，WDT 描述了一个基于权重配置的、cgroup 感知的 I/O 调度器，旨在针对高速 SSD，与 IOCost 不同的是，它分配的是 I/O 带宽而非占用率。FlashBlox 对 SSD 通道进行了分区，这允许硬件强制隔离，但代价是租户数量灵活性的降低。

在 Split-level I/O scheduling 中，作者指出了在调度时需要考虑 IO 栈不同层的信息。IOCost 识别了交换和日志记录的 I/O 源，并在不引起优先级反转的情况下引入了对内存管理和文件系统日志记录操作的 I/O 控制。

多篇文献 [8, 10–12,15, 24, 25, 31, 33] 聚焦于资源管理。这些解决方案旨在集中部署运行的应用程序间划分系统资源，同时不违反各自的 SLO。其他工作 [37, 38] 提出了针对容器的架构和操作系统扩展。总体而言，它们在 IOCost 之上或之下运作，并可以利用 IOCost 强大的 I/O 控制，进一步增强数据中心环境下集中部署运行的能力。

7. 结论

我们已经识别出在容器化环境中对 I/O 控制的需求。本文介绍了 IOCost，这是一种专为容器化环境设计的 I/O 控制方案，它为数据中心中异构存储设备和多样化工作负载提供了可扩展、工作量保持且低开销的 I/O 控制。我们的方法通过离线生成的设备成本模型来估算设备占用率。此外，IOCost 的设计将 I/O 控制分为轻量级的按 I/O 问题路径和周期性的 I/O 规划路径。一种创新的 cgroup 树层次权重更新算法，确保容器能够以最小的开销动态共享未使用的 I/O 预算。最后，我们分享了使用 IOCost 的经验以及潜在的未来硬件发展方向。

原文： IOCost: Block IO Control for Containers in Datacenters

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/06-27-2024/iocost-block-io-control-for-containers-in-datacenters-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜Efficient IO with io_uring

2024-05-17T16:00:00.000Z

本文旨在作为最新 Linux I/O 接口 io_uring 的入门介绍，并将其与现有技术进行比较。我们将探讨其存在的原因、内部运作机制以及用户可见的接口。文章不会深入到特定命令等细节，因为这些信息在相关的 man 手册页中已有提供。相反，我们的目标是为读者提供对 io_uring 及其工作原理的初步理解，希望能帮助读者更深入地理解这一技术的全貌。尽管如此，本文与 man 手册页之间难免会有所重叠，因为在描述 io_uring 时不可避免地要包含一些这些细节。

1.0 引言

在 Linux 系统中，实现基于文件的 I/O 有多种方式。最古老且最基本的是 read(2) 和 write(2) 系统调用。后来，为了支持指定偏移量，加入了 pread(2) 和 pwrite(2)。随后，又引入了向量版本 preadv(2) 和 pwritev(2)。即使如此，API 进一步扩展，提供了 preadv2(2) 和 pwritev2(2) 系统调用，允许使用修饰符标志。尽管以上系统调用不尽相同，但它们共有的特征是同步接口，即系统调用会在数据准备就绪（或写入完成）时返回。对于某些应用场景而言，这并非最优选择，因此需要一个异步接口。POSIX 标准提供了 aio_read(3) 和 aio_write(3) 来满足这一需求，但这些实现往往不尽如人意，性能欠佳。

Linux 本身也具备一个本地异步 I/O 接口，简称为 aio。然而，它存在多个限制：

最大的限制在于仅支持 O_DIRECT（或无缓冲）访问的异步 I/O。由于 O_DIRECT 的限制（绕过缓存和大小/对齐约束），使得原生 aio 接口对于大多数应用场景并不适用。对于常规（缓冲）I/O 操作，该接口的行为与同步方式相同。
即便满足了所有使 I/O 操作异步化的条件，仍然有可能出现 I/O 提交阻塞的情况。例如，如果执行 I/O 操作需要元数据信息，提交过程将会阻塞直至元数据就绪。对于存储设备而言，请求槽位的数量固定，一旦槽位全部被占用，新的 I/O 请求提交就需要等待空闲槽位出现。这些不确定性意味着依赖于始终异步提交的应用程序，实际上仍需设计额外逻辑来处理可能的阻塞情况，无法完全避免性能上的影响。
API 设计并不理想。每次 I/O 提交操作最终都需要复制 64 + 8 字节的数据，而每次完成事件则需要复制 32 字节。这意味着即使是号称“零拷贝”的 I/O 操作，也会产生总共 104 字节的内存复制开销。根据 I/O 大小不同，该开销可能会相当明显。公开的完成事件环形缓冲区实际上减慢了完成过程，并且对于应用程序来说很难（或者说几乎不可能？）正确使用。I/O 操作总是至少需要两个系统调用（提交和等待完成），在 Spectre/Meltdown 安全漏洞出现后的时代，无疑成为严重的性能瓶颈。

多年来，人们为解决上述第一个限制（即仅支持 O_DIRECT 访问的异步 I/O）做出了多方面的努力，我本人也在 2010 年尝试过解决这个问题，但均未取得成功。随着能提供低于 10 微秒延迟和极高 IOPS 的设备的出现，现有接口开始显现出其年代感。对于这类设备，缓慢且不确定的提交延迟是非常严重的问题，同样，单个核心所能榨取的性能也显得不足。加之上述种种限制，可以说原生 Linux aio 在实际应用中并不广泛。它已被边缘化，仅在一些特定的应用场景中使用，随之而来的是长期未发现的 bug 等问题。

此外，由于“普通”应用程序无法从 aio 中获益，表明 Linux 在提供开发者期望的功能方面仍存在缺口。没有理由让应用程序或库继续创建私有的 I/O 卸载线程池来获取合理的异步 I/O 性能，特别是在内核可以更高效地完成这项工作的前提下。

2.0 改善现状的努力

起初的尝试主要集中在改进 aio 接口上，且进展颇丰，但最终未能继续。选择这一初始方向的原因包括：

如果能够扩展和完善现有接口，相比提供一个全新的接口更为可取。新接口的采纳需要时间，而且新接口的审查和批准过程可能既漫长又艰难。
通常来说，这样做工作量要小得多。作为开发者，总是力求以最少的工作量实现最大的成果。扩展现有接口在测试基础设施方面具有许多优势。

现有的 aio 接口主要包括三个主要系统调用：用于设置 aio 上下文的 io_setup(2)、用于提交 I/O 的 io_submit(2)，以及用于获取或等待 I/O 完成的 io_getevents(2)。由于需要改变这些系统调用中的多项行为，我们必须新增系统调用来传递这些信息。这不仅导致了代码的多重入口点，还在其他地方产生了捷径。最终代码在复杂性和可维护性方面并不理想，而且只解决了前文提到的缺陷之一。更甚之，它实际上让问题变得更糟，因为现在 API 变得更加复杂，更难以理解和使用。

虽然放弃已开展的工作重新开始总是一件困难的事，但显而易见，我们需要一个全新的解决方案。这个新方案需要满足所有要求，既要性能优越且可扩展，又要易于使用，同时具备现有接口所缺乏的功能。

3.0 新接口设计目标

从头开始虽然不易，但也赋予了我们设计上的自由。大致按重要性递增的顺序，主要设计目标包括：

易于使用，难以误用。任何用户/应用程序可见的接口都应以此为目标。接口应易于理解，直观易用。
可扩展性。虽然我的背景主要与存储相关，但我希望设计的接口能够不仅仅应用于基于块的 I/O，还能适应未来可能出现的网络和非块存储接口。如果你正在创建一个全新的接口，它应当（至少尝试）在某种程度上具有面向未来的适应性。
功能丰富。Linux aio 仅服务于一部分（甚至更小的一部分）应用程序的需求。我不希望再创造另一个只能覆盖部分应用需求的接口，或者迫使应用程序反复实现相同的功能（例如 I/O 线程池）。
效率。尽管存储 I/O 很大程度上仍是基于块的，至少为 512 字节或 4KB，但对于某些应用来说，不同大小的效率仍然至关重要。此外，有些请求可能根本就不携带数据载荷。新接口在单个请求的开销上必须是高效的。
可伸缩性。虽然效率和低延迟很重要，但提供最佳的性能峰值也同样关键。特别是对于存储来说，我们已经努力构建了一个可扩展的基础架构。新的接口应该能够让我们将这种可伸缩性直接反馈给应用程序。

上述某些目标看似相互矛盾。高效且可扩展的接口往往难以使用，更重要的是，难以正确使用。同时，功能丰富与效率高也很难同时达成。然而，这些就是我们设定的目标。

4.0 引入 io_uring

尽管设计目标按照优先级进行了排序，但最初的设计焦点集中在效率上。效率不是事后可以添加的东西，而是必须从一开始就融入设计之中——一旦接口确定，就很难在之后提升效率。我明确不想在提交或完成事件中涉及任何内存复制，也不想有内存间接引用。在基于 aio 的设计末期，aio 因需要处理 I/O 的两端而进行的多次复制，显著损害了效率和可伸缩性。

鉴于复制不可取，很显然内核与应用程序需要共享定义 I/O 操作及完成事件的数据结构。如果将共享的概念推到极致，自然地，协调共享数据的机制也应该放在应用程序与内核共享的内存中。一旦接受了这一理念，就会意识到两者间的同步必须以某种方式管理。应用程序无法不通过系统调用而与内核共享锁，但系统调用无疑会降低与内核通信的效率，这与我们的效率目标背道而驰。能满足这一需求的数据结构就是单一生产者 - 单一消费者（SPSC）的环形缓冲区。通过使用共享的环形缓冲区，我们可以消除应用与内核间共享锁，转而巧妙利用内存排序和屏障来处理。

与异步接口相关的两个基本操作是：提交请求的行为和与该请求完成相关的事件。在提交 I/O 操作时，应用程序充当生产者，而内核是消费者；而在处理完成事件时，角色反转，内核变为生产者，生成完成事件，应用程序成为消费者。因此，为了建立应用程序与内核之间高效通信的渠道，需要一对环形缓冲区，这对环形缓冲区构成了 io_uring 新接口的核心。它们被恰当地命名为提交队列 (SQ) 和完成队列 (CQ)，并构成新接口的基础。

4.1 数据结构

在设计了通信基础之后，接下来是定义描述请求和完成事件的数据结构。完成事件相对直接：它需要携带操作结果相关的信息，以及将完成事件关联回原始请求的方式。在 io_uring 中，完成事件的数据结构布局如下：

struct io_uring_cqe {    __u64 user_data;  // 用户定义的数据，用于关联请求和完成事件    __s32 res;        // 操作结果    __u32 flags;      // 标志位，可能包含额外信息};

io_uring 的名字到现在应该为人所知了。后缀 _cqe 指的是 Completion Queue Event（完成队列事件），在本文剩余部分通常简称为 cqe。cqe 结构体中包含一个 user_data 字段，这个字段在请求初次提交时携带信息，并包含应用识别请求所需的任何数据。一个常见的用途是让它指向原始请求的指针。内核不会修改此字段，它会直接从提交阶段传递到完成事件阶段。res 字段保存请求的结果，可以将其视作来自类似 read(2) 或 write(2) 系统调用的返回值。对于正常的读写操作，它将包含传输的字节数。如果发生错误，它则会包含一个负的错误值，比如如果发生 I/O 错误，res 就会包含 -EIO。最后，flags 成员截止目前尚未启用，可以用来承载与操作相关的元数据。

请求类型的定义更为复杂。它不仅要描述比完成事件更多的信息，而且 io_uring 在设计时就旨在为未来的请求类型留有扩展性。我们设计的结构如下：

struct io_uring_sqe {    __u8 opcode;         // 操作码，定义特定请求的类型    __u8 flags;          // 标志位，包含适用于多种命令类型的修饰标志    __u16 ioprio;        // 请求的优先级，遵循 ioprio_set(2) 系统调用定义    __s32 fd;            // 与请求关联的文件描述符    __u64 off;           // 操作应发生的偏移量    __u64 addr;          // 操作应执行 I/O 的地址，如果操作涉及数据传输的话。对于向量读/写操作，这是一个指向 iovec 结构数组的指针    __u32 len;           // 对于非向量 I/O 传输，这是字节计数；对于向量 I/O 传输，这是由 addr 描述的向量数量    union {        __kernel_rwf_t rw_flags;  // 读写标志，针对读/写操作        __u16 fsync_flags;    // fsync操作的标志        __u16 poll_events;    // poll操作的事件标志        __u32 sync_range_flags;  // 同步范围操作的标志        __u32 msg_flags;       // 消息传递操作的标志    };    __u64 user_data;      // 用户定义的数据，用于标识请求，对应 cqe 中的 user_data    union {        __u16 buf_index;  // 缓冲区索引，具体含义取决于操作        __u64 pad[3];     // 填充字段，确保结构体对齐    };};

类似于完成事件，提交侧的结构被称为 Submission Queue Entry（提交队列条目），简称 sqe。它包含一个 opcode 字段，用于描述该请求的操作码。例如，操作码 IORING_OP_READV 是一个向量读操作。flags 字段包含适用于多种命令类型的通用修饰标志。我们将在稍后的高级使用场景部分对此进行探讨。ioprio 表示请求的优先级，对于普通的读写操作，它遵循 ioprio_set(2) 系统调用中定义的规则。fd 是与请求关联的文件描述符，off 指定了操作应执行的偏移位置。addr 字段，如果操作涉及数据传输，包含执行 I/O 操作的地址；对于向量读/写操作，将是一个指向类似用于 preadv(2) 的 iovec 结构数组的指针。len 字段，在非向量 I/O 传输中，表示字节长度；在向量 I/O 传输中，则表示 iovec 结构的数量。

接下来的部分是一个标志的联合体 (union)，它针对操作码（op-code）具有特定性。例如，对于前面提到的向量读取操作（IORING_OP_READV），这些标志遵循了 preadv2(2) 系统调用中描述的那些标志。user_data 字段是所有操作码通用的，内核不会修改这个字段。它只是简单地从提交阶段复制到完成事件（cqe）中。buf_index 字段将在高级使用场景部分进行说明。结构的末尾还有一些填充，目的是确保 sqe 在内存中以 64 字节对齐，同时也为将来可能需要更多数据来描述请求的情况预留空间。可以想象几个这样的应用场景，比如作为一个键值存储命令集，或者是端到端数据保护场景，应用程序在其中传入预先计算的数据校验和。

4.2 通信通道

在介绍了数据结构后，接下来详细说明环是如何工作的。尽管我们有一个提交侧和完成侧，显示出一定的对称性，但两者之间的索引方式是不同的。如同之前章节那样，我们先从较为简单的完成环开始讲解。

完成队列（CQ）中的完成事件（cqe）被组织成一个数组，其内存由内核和应用程序双方可见并可修改。然而，由于 cqe 是由内核产生的，实际上只有内核会修改 cqe 条目。通信是通过环形缓冲区管理的。每当内核向 CQ 环中发布一个新的事件，它就会更新相应的尾部指针。当应用程序消费一个条目时，它会更新头部指针。因此，如果尾部不同于头部，应用程序就知道它有一个或多个事件可供消费。环计数器（ring counters）本质上是无界流动的 32 位整数，当完成事件数量超出环的容量时，它会自然地循环回绕。这种方法的好处在于，可以充分利用环的全部容量，而无需额外管理一个“环已满”的标志，后者会使环的管理变得复杂。因此，环的大小必须是 2 的次幂

要定位一个事件的索引，应用程序需将当前的尾部索引与环的大小掩码进行按位与运算。典型的代码流程如下：

unsigned head;head = cqring->head;read_barrier();  if (head != cqring->tail) {    struct io_uring_cqe *cqe;    unsigned index;    index = head & cqring->mask;    cqe = &cqring->cqes[index];    /* 在此处处理已完成的 cqe */    ...    /* 已经消费此条目 */    head++;}cqring->head = head;write_barrier();

ring→cqes[] 是一个共享的 io_uring_cqe 结构数组。接下来的部分，我们将深入了解这种共享内存（以及 io_uring 实例本身）是如何设置和管理的，以及其中神秘的读屏障（read barrier）和写屏障（write barrier）调用的作用。

在提交侧，角色则颠倒过来：应用程序负责更新尾指针，而内核负责消费条目（并更新头指针）。一个重要的区别在于，尽管 CQ 环直接索引共享的 cqe 数组，但在提交侧之间却存在一个间接索引数组。因此，提交侧的环形缓冲区实际上是一个索引，指向这个间接数组，而间接数组中又包含了指向 sqe（提交队列条目）的索引。这初看可能显得有些奇怪且令人困惑，但实际上这么做是有道理的。某些应用程序可能会在其内部数据结构中嵌入请求单元，而这种设计给予了它们在保持一次性提交多个 sqe 能力的同时，还能灵活地组织这些请求的自由。这样的设计反过来又使得这些应用程序向 io_uring 接口的迁移变得更加简便。

向内核提交一个 sqe（用于内核消费）基本上是与从内核收割 cqe（完成队列事件）相反的操作。一个典型的示例大概如下所示：

struct io_uring_sqe *sqe;unsigned tail, index;tail = sqring->tail;index = tail & sqring->ring_mask;sqe = &sqring->sqes[index];/* 这里通过某个函数初始化 sqe，准备 IO 操作参数 */init_io_request(sqe);/* 将当前 sqe 的索引存入间接数组 */sqring->array[index] = index;/* 更新尾指针，表示新的 sqe 已准备好 */tail++;write_barrier(); // 确保更新对其他 CPU 可见sqring->tail = tail;write_barrier(); // 确保 tail 更新操作的顺序性

如同在处理 CQ 环时一样，我们稍后会解释读屏障（read barrier）和写屏障（write barrier）的具体作用。上面是一个简化的示例，它假设 SQ 环当前是空的，或者至少还有空间容纳一个额外的条目。

一旦 sqe（提交队列条目）被内核消费，应用程序就可以自由重用该 sqe 条目。即使内核还未完全处理完某个 sqe，情况也是如此。如果内核在条目被消费后仍需访问它，那么它在此之前已创建了该 sqe 的稳定副本。为何会发生这种情况并不一定重要，但它对应用程序有着重要影响。通常，应用程序会请求一个特定大小的环，并且可能会认为这个大小直接对应着应用程序在内核中可以挂起的请求数量。然而，由于 sqe 的有效期仅限于它被实际提交的那一刻，所以应用程序实际上有可能驱动比 SQ 环大小更多的挂起请求。应用程序必须小心，不要过度利用这一点，否则可能会导致 CQ 环溢出。默认情况下，CQ 环的大小是 SQ 环的两倍，这为应用程序在管理这一方面提供了一定的灵活性，但并未完全消除管理的必要。如果应用程序违反了这一限制，将会在 CQ 环中被记录为溢出状况，关于这部分的更多信息将在后面详细介绍。

完成事件可以以任意顺序到达，请求提交与关联的完成事件之间并没有固定的顺序关系。SQ 环和 CQ 环彼此独立运行。然而，每一个完成事件都会对应于一个特定的提交请求，即每个完成事件总是与一个具体的提交请求相关联。

5.0 io_uring 接口

与 aio 相似，io_uring 也有一系列与其操作相关的系统调用。第一个系统调用用于创建一个 io_uring 实例：

int io_uring_setup(unsigned entries, struct io_uring_params *params);

应用程序必须为此 io_uring 实例提供期望的条目数量，以及与之相关的一组参数。entries 表示将与此 io_uring 实例关联的 sqe（提交队列条目）数量，它必须是 2 的幂，在 1 到 4096（包括两端）的范围内。params 结构体由内核读取和写入，定义如下：

struct io_uring_params {    __u32 sq_entries;    // 提交队列（SQ）的条目数    __u32 cq_entries;    // 完成队列（CQ）的条目数    __u32 flags;         // 控制io_uring实例的标志    __u32 sq_thread_cpu; // 提交线程的CPU亲和力    __u32 sq_thread_idle; // 提交线程空闲超时（毫秒）    __u32 resv[5];       // 保留字段    struct io_sqring_offsets sq_off; // 提交队列的偏移量信息    struct io_cqring_offsets cq_off; // 完成队列的偏移量信息};

sq_entries 字段将由内核填写，以此通知应用程序此环能够支持多少个 sqe（提交队列条目）。同理，通过 cq_entries 成员告知应用程序完成队列（CQ）环的大小。关于此结构体其余部分的讨论将推迟到高级使用场景部分，但有两个例外：sq_off 和 cq_off 字段，因为它们对于通过 io_uring 建立基本通信机制是必要的。

当 io_uring_setup(2) 调用成功后，内核会返回一个文件描述符，该描述符用于标识 io_uring 实例。这时，sq_off 和 cq_off 结构体便发挥了作用。考虑到 sqe 和 cqe 结构体是由内核和应用程序共享的，应用程序需要一种方式来访问这块内存。这是通过使用 mmap(2) 系统调用将其映射到应用程序的内存空间中来实现的。应用程序利用 sq_off 成员来确定环中各元素的偏移量。io_sqring_offsets 结构定义如下：

struct io_sqring_offsets {    __u32 head;          // 提交队列头部的偏移量    __u32 tail;          // 提交队列尾部的偏移量    __u32 ring_mask;     // 环状缓冲区掩码，用于快速索引    __u32 ring_entries;  // 环中条目的数量    __u32 flags;         // 环的标志    __u32 dropped;       // 未提交的sqe数量    __u32 array;         // sqe索引数组的偏移量    __u32 resv1;         // 保留字段    __u64 resv2;         // 保留字段};

为了访问这块内存，应用程序必须使用 io_uring 的文件描述符以及与 SQ 环关联的内存偏移量调用 mmap(2)。io_uring API 为应用程序定义了以下 mmap 偏移量：

#define IORING_OFF_SQ_RING 0ULL#define IORING_OFF_CQ_RING 0x8000000ULL#define IORING_OFF_SQES 0x10000000ULL

其中，IORING_OFF_SQ_RING 用于将 SQ 环映射到应用程序的内存空间中，IORING_OFF_CQ_RING 用于同样地映射 CQ 环，而 IORING_OFF_SQES 则是用来映射 sqe 数组的。对于 CQ 环而言，cqes 数组本身就是 CQ 环的一部分。由于 SQ 环是对 sqe 数组中的值的索引，因此 sqe 数组必须由应用程序单独映射。

应用程序将定义一个持有这些偏移量的自定义结构体。一个示例可能如下所示：

struct app_sq_ring {   unsigned *head;   unsigned *tail;   unsigned *ring_mask;   unsigned *ring_entries;   unsigned *flags;   unsigned *dropped;   unsigned *array;};

一个典型的设置案例看起来如下：

struct app_sq_ring app_setup_sq_ring(int ring_fd, struct io_uring_params *p){   struct app_sq_ring sqring;   void *ptr;      ptr = mmap(NULL, p→sq_off.array + p→sq_entries * sizeof(__u32),               PROT_READ | PROT_WRITE, MAP_SHARED | MAP_POPULATE,               ring_fd, IORING_OFF_SQ_RING);      sring→head = ptr + p→sq_off.head;   sring→tail = ptr + p→sq_off.tail;   sring→ring_mask = ptr + p→sq_off.ring_mask;   sring→ring_entries = ptr + p→sq_off.ring_entries;   sring→flags = ptr + p→sq_off.flags;   sring→dropped = ptr + p→sq_off.dropped;   sring→array = ptr + p→sq_off.array;   return sring;}

完成队列（CQ）环的映射方式与之类似，使用 IORING_OFF_CQ_RING 偏移量以及由 io_cqring_offsets 结构体的 cq_off 成员定义的偏移量。最终，通过 IORING_OFF_SQES 偏移量映射 sqe 数组。由于这些代码在不同应用程序之间大多是可以复用的模板代码，liburing 库提供了一系列助手函数，以便以简单的方式完成设置和内存映射。详情请参阅 io_uring 库部分。完成这些步骤后，应用程序就可以通过 io_uring 实例进行通信了。

应用程序还需要一种方式告诉内核它现在已经准备好了请求供内核消费。这是通过另一个系统调用来完成的：

int io_uring_enter(unsigned int fd, unsigned int to_submit,                   unsigned int min_complete, unsigned int flags,                   sigset_t *sig);

其中，fd 指的是由 io_uring_setup(2) 返回的环文件描述符；to_submit 告诉内核最多有这么多的 sqe（提交队列条目）准备消费和提交；min_complete 请求内核等待至少完成指定数量的请求。这个单一调用同时支持提交请求和等待完成事件，意味着应用程序可以用一个系统调用同时提交请求并等待它们的完成。flags 包含修改此调用行为的标志，其中最重要的是：

#define IORING_ENTER_GETEVENTS (1U << 0)

如果在 flags 中设置了 IORING_ENTER_GETEVENTS，那么内核将主动等待至少 min_complete 个事件变为可用。敏锐的读者可能会疑惑，既然已经有了 min_complete，为什么还需要这个标志。实际上，在某些情况下，这种区分是很重要的，这部分内容将在后面讨论。目前，如果你想等待完成事件，就必须设置 IORING_ENTER_GETEVENTS。

以上基本上涵盖了 io_uring 的基本 API。io_uring_setup(2) 用于创建指定大小的 io_uring 实例。创建完毕后，应用程序可以开始填充 sqe 并使用 io_uring_enter(2) 提交它们。完成事件既可以与提交一起通过同一个调用来等待，也可以在稍后单独处理。除非应用程序想要等待完成事件到来，否则它可以简单地检查 CQ 环的尾部指针，以了解是否有任何事件待处理。内核会直接修改 CQ 环的尾部指针，因此应用程序无需设置 IORING_ENTER_GETEVENTS 标志就可以直接消费完成事件。

关于可用命令类型及其使用方法，请查阅 io_uring_enter(2) 的手册页。

5.1 SQE 顺序控制

通常情况下，sqe（提交队列条目）是独立使用的，意味着一个条目的执行不会影响环中后续 sqe 条目的执行顺序或排列。这提供了操作的完全灵活性，并使它们能够并行执行和完成，以达到最大的效率和性能。然而，在某些情况下，可能需要控制 sqe 的执行顺序，例如为了数据完整性保证的写入操作。一个典型的例子是一系列写操作之后跟着一个 fsync 或 fdatasync 调用。只要允许写操作以任意顺序完成，我们只需要确保当所有写操作都完成后才执行数据同步操作。应用程序常常将这转化为先写后等待的操作模式，当所有写入被底层存储确认后，再发出同步指令。

io_uring 支持清空提交队列，直到所有先前的完成事件都结束。这样，应用程序可以入队上述同步操作，并知道在所有先前的命令完成之前不会启动。这是通过在 sqe 的标志字段中设置 IOSQE_IO_DRAIN 来实现的。请注意，这会导致整个提交队列暂停。根据 io_uring 在特定应用程序中的使用方式，这可能会引入比预期更大的流水线延迟。如果这类阻塞操作频繁发生，应用程序使用一个独立的 io_uring 上下文用于保证数据完整性的写操作，以允许无关命令同时获得更好的并发性能。

5.2 链式 SQE

虽然 IOSQE_IO_DRAIN 提供了全管道屏障，但 io_uring 还支持对 sqe 更细粒度的序列控制。链式 sqe 提供了一种方式来描述在较大的提交队列中的 sqe 序列间的依赖关系，其中每个 sqe 的执行依赖于前一个 sqe 的成功完成。这种使用场景的例子可能包括必须按顺序执行的一系列写操作，或者像拷贝操作那样的场景，先从一个文件读取，随后将数据写入另一个文件，且这两个 sqe 共享缓冲区。为了使用这个功能，应用程序必须在 sqe 的 flag 字段中设置 IOSQE_IO_LINK。如果设置了此标志，那么在前一个 sqe 成功完成之前，下一个 sqe 不会开始执行。如果前一个 sqe 没有完全成功完成（即遇到任何错误或读/写不完全），链接链会被打破，相关的 sqe 将以 -ECANCELED 作为错误码被取消。此时，“完全完成”指的是请求完全成功完成，任何错误或潜在的读/写不足都将中断这个链，请求必须完整完成。

只要其 flag 字段中设置了 IOSQE_IO_LINK，链式 sqe 的链会持续。因此，链的定义始于首个设置了 IOSQE_IO_LINK 的 sqe，并终止于紧随其后的未设置该标志的第一个 sqe。理论上支持任意长度的链。

这些链独立于提交环中的其他 sqe 执行。链是独立的执行单元，多个链可以并行执行和完成，包括不属于任何链的 sqe。

5.3 超时命令

虽然 io_uring 支持的大多数命令都是直接或间接作用于数据（前者如读/写操作，后者如 fsync 等），但超时命令（timeout command）有所不同。IORING_OP_TIMEOUT 命令不直接操作数据，而是帮助管控完成环上的等待。该超时命令支持两种不同的触发类型，并且可以在单个命令中同时使用。一种触发类型是经典的超时，调用者传递一个（变体的）struct timespec 结构，其中包含非零的秒或纳秒值。为了保持 32 位与 64 位应用程序及内核空间之间的兼容性，使用的类型格式应如下：

struct __kernel_timespec {    int64_t tv_sec;   // 秒    long long tv_nsec;     // 纳秒};

在某些时候，用户空间应当具备一个符合上述描述的 struct timespec64 类型。在此之前，必须使用上述类型。如果希望使用计时超时，sqe 的 addr 字段必须指向一个这样的结构体。一旦指定的时间量过去，超时命令就会完成。

第二种触发类型是完成计数。如果使用此类型，应在 sqe 的 offset 字段中填入完成计数值。一旦自从超时命令排队以来，指定数量的完成事件产生，超时命令就会完成。

可以在单个超时命令中指定两个触发器事件。如果单个超时命令同时包含两个条件，则第一个触发的条件将生成超时完成事件。当发布超时完成事件时，任何等待完成事件者都将被唤醒，无论他们要求的完成量是否已满足。

6.0 内存排序

通过 io_uring 实例进行安全且高效通信的一个关键方面是正确使用内存排序原语。详细探讨各种架构的内存排序超出了本文的范围。如果你乐于使用通过 liburing 库暴露的简化版 io_uring API，那么你可以安全地忽略本节，直接跳到 liburing 库部分。但如果你有兴趣使用原始接口，理解本节内容就很重要了。

为了简化问题，我们将它归结为两个简单的内存排序操作。以下解释为了简洁而有所简化。

read_barrier()：确保在进行后续内存读取之前，之前的写操作对其他 CPU 可见。
write_barrier()：确保此写操作发生在之前的写操作之后。

根据目标架构的不同，这两个操作之一或两者都可能是空操作（no-ops）。但在使用 io_uring 时，这一点并不重要。重要的是，某些架构确实需要它们，因此应用程序开发者需要理解如何正确使用。write_barrier() 是为了确保写操作的顺序。假设一个应用程序希望填写一个 sqe 并通知内核有一个新的 sqe 可供处理，这是一个两阶段的过程——首先填写 sqe 的各个成员并将 sqe 的索引放入 SQ 环数组中，然后更新 SQ 环的尾指针以显示内核有新条目可用。如果不明确指定顺序，处理器可以任意重新排序这些写操作以达到其认为最优化的顺序。让我们看看下面的例子，每个数字代表一个内存操作：

1: sqe→opcode = IORING_OP_READV;2: sqe→fd = fd;3: sqe→off = 0;4: sqe→addr = &iovec;5: sqe→len = 1;6: sqe→user_data = some_value;7: sqring→tail = sqring→tail + 1;

无法保证操作 7（使 sqe 对内核可见的写操作）会作为序列中的最后一个写操作执行。操作 7 之前的所有写操作，在操作 7 之前对内核可见至关重要，否则内核可能会看到一个只写了一半的 sqe。从应用程序的角度来看，在通知内核有新的 sqe 之前，你需要一个写屏障来确保写操作的正确顺序。由于只要在尾部写入之前 sqe 的存储可见，它们的实际存储顺序并不重要，我们可以在操作 6 之后、操作 7 之前使用一个排序原语就能满足要求。因此，序列看起来应该是这样的：

1: sqe→opcode = IORING_OP_READV;2: sqe→fd = fd;3: sqe→off = 0;4: sqe→addr = &iovec;5: sqe→len = 1;6: sqe→user_data = some_value; write_barrier(); /* 确保之前的写入在尾部写入前可见 */7: sqring→tail = sqring→tail + 1; write_barrier(); /* 确保尾部写入对其他 CPU 可见 */

内核在读取 SQ 环的尾部之前会包含一个 read_barrier()，以确保来自应用程序的尾部写入是可见的。从 CQ 环的角度来看，因为消费者和生产者的角色是相反的，应用程序只需在读取 CQ 环的尾部之前执行一个 read_barrier()，以确保它能看到内核所做的任何写入。

虽然内存顺序类型被简化为两种特定类型，但架构的具体实现当然会根据代码运行的机器不同而不同。即使应用程序直接使用 io_uring 接口（而不是 liburing 的帮助函数），它仍然需要特定于架构的屏障类型。liburing 库提供了这些定义，并建议应用程序使用它们。

有了对内存顺序的基本解释，以及 liburing 提供的管理它们的帮助函数，现在回过头去看前面引用了 read_barrier() 和 write_barrier() 的例子。如果之前它们看起来不太明白，现在应该能理解了。

7.0 liburing 库

在了解了 io_uring 的内部细节后，你会很高兴得知有一个更简单的方法来完成上述大部分工作。liburing 库有两个主要目的：

去除 io_uring 实例设置所需的模板代码
为基本使用场景提供简化的 API

后者确保了应用程序完全不必担心内存屏障，也不必自己处理环缓冲区管理。这使得 API 变得更加简洁易懂，并且实际上不再需要深入理解其内部工作原理。如果仅关注提供基于 liburing 的示例，本文可以大大缩短，但了解一些内部工作原理对于从应用程序中榨取最佳性能通常是有益的。此外，尽管 liburing 当前专注于减少模板代码并为标准使用场景提供基础帮助函数，一些更高级的功能尚未通过 liburing 提供。不过，这并不意味着你不能混合使用两者。实际上，它们底层操作的是相同的结构。通常鼓励应用程序即使使用原始接口，也采用 liburing 的创建助手。

7.1 liburing 的 io_uring 创建

从一个例子开始。liburing 提供了以下基本助手函数，代替手动调用 io_uring_setup(2) 并随后映射三个必需的区域：

struct io_uring ring;io_uring_queue_init(ENTRIES, &ring, 0);

io_uring 结构体保存了 SQ 和 CQ 环的信息，io_uring_queue_init(3) 调用为你处理了所有创建逻辑。在这个特定示例中，我们向 flags 参数传入了 0。一旦应用程序结束 io_uring 实例的使用，只需调用：

io_uring_queue_exit(&ring);

来清理它。类似于应用程序分配的其他资源，一旦应用程序退出，内核会自动回收它们。对于应用程序可能创建的任何 io_uring 实例，也是如此。

7.2 liburing 的提交与完成

一个非常基本的使用场景是提交一个请求，稍后再等待它完成。使用 liburing 的帮助函数，操作大致如下：

struct io_uring_sqe *sqe;struct io_uring_cqe *cqe;/* 获取 sqe 并填写 READV 操作 */sqe = io_uring_get_sqe(&ring);io_uring_prep_readv(sqe, fd, &iovec, 1, offset);/* 告诉内核有一个可供消费的 sqe */io_uring_submit(&ring);/* 等待 sqe 完成 */io_uring_wait_cqe(&ring, &cqe);/* 读取并处理 cqe 事件 */app_handle_cqe(cqe);io_uring_cqe_seen(&ring, cqe);

这应该是不言自明的。对 io_uring_wait_cqe(3) 的最后一次调用将返回我们刚提交的 sqe 的完成事件，前提是您没有其他正在飞行中的 sqe。如果有，那么完成事件可能属于另一个 sqe。

如果应用程序只想查看完成状态而不是等待事件变为可用，io_uring_peek_cqe(3) 就能做到这个需求。对于这两种情况，应用程序在处理完这个完成事件后都必须调用 io_uring_cqe_seen(3)。否则，重复调用 io_uring_peek_cqe(3) 或 io_uring_wait_cqe(3) 会一直返回相同的事件。这种区分是必要的，以避免内核在应用程序处理完之前就可能覆盖现有的完成事件。io_uring_cqe_seen(3) 递增 CQ 环头，使得内核可以在同一槽位填充新的事件。

有多种辅助函数用于填充 sqe，io_uring_prep_readv(3) 只是一个例子。我鼓励应用程序尽可能利用 liburing 提供的辅助器。

liburing 库仍处于初期阶段，并在不断开发中以扩展支持的功能和可用的辅助工具。

8.0 高级使用场景与特性

上述示例和使用场景适用于各种类型的 I/O，无论是基于文件的 O_DIRECT I/O、缓冲 I/O、套接字 I/O 等。无需特别注意就能确保它们的正确操作或异步性质。然而，io_uring 确实提供了一系列特性，应用程序需要选择启用。接下来的小节将描述其中大部分内容。

8.1 固定文件和缓冲区

每次将文件描述符填入 sqe 并提交给内核时，内核都必须获取对该文件的引用。一旦 I/O 完成，该文件引用再次被释放。由于文件引用的原子性，对于高 IOPS 工作负载，这可能会成为显著的减速因素。为了解决这个问题，io_uring 提供了一种方法，可以为 io_uring 实例预先注册一个文件集。这是通过第三个系统调用来实现的：

int io_uring_register(unsigned int fd, unsigned int opcode, void *arg, unsigned int nr_args);

fd 是 io_uring 实例的环文件描述符，而 opcode 指定了正在进行的注册操作类型。如果要注册一个文件集合，必须使用 IORING_REGISTER_FILES 。此时，arg 应指向一个应用程序已经打开的文件描述符数组；同时，nr_args 必须包含该数组的大小。一旦针对文件集合的 io_uring_register(2) 调用成功完成，应用程序就可以通过在 sqe（提交队列条目）的 fd 字段赋值文件描述符数组中的索引（而不是实际的文件描述符），并设置 sqe 的 flags 字段为 IOSQE_FIXED_FILE 来标识这是一个文件集合的 fd，进而使用这些文件。即使已注册了文件集合，应用程序仍然可以自由地使用未注册的文件，只需将 sqe 的 fd 设置为未注册的文件描述符，并不在 flags 中设置 IOSQE_FIXED_FILE 即可。当 io_uring 实例被销毁时，已注册的文件集合会自动释放；或者，也可以通过在 io_uring_register(2) 的 opcode 中使用 IORING_UNREGISTER_FILES 手动进行释放。

另外，应用程序还可以注册一组固定的 I/O 缓冲区。当使用 O_DIRECT 方式进行 I/O 操作时，内核需要在执行 I/O 之前将应用程序的页面映射到内核空间，然后在 I/O 完成后再解除映射，这一过程可能比较耗时。如果应用程序重复使用 I/O 缓冲区，就可以通过一次性完成映射和解除映射来优化，而不是为每个 I/O 操作都重复进行。为了注册这样一组固定的 I/O 缓冲区，需要使用 IORING_REGISTER_BUFFERS 作为操作码调用 io_uring_register(2)，并且 args 应当指向一个 struct iovec 结构体数组，该数组中填入了各个缓冲区的地址和长度信息。nr_args 则应包含 iovec 数组的大小。一旦缓冲区注册成功，应用程序就可以使用 IORING_OP_READ_FIXED 和 IORING_OP_WRITE_FIXED 操作码来读写这些固定的缓冲区。使用这些固定操作码时，sqe 的 addr 字段必须指向这些缓冲区之一内的地址，而 len 字段则需指定请求的字节长度。应用程序可以注册大于任何单次 I/O 操作所需的缓冲区，即一个固定的读/写操作完全可以只使用单一固定缓冲区的一部分，这是完全合法的。

8.2 轮询 I/O（POLLED IO）

对于追求极低延迟的应用程序，io_uring 提供了对文件轮询 I/O 的支持。在这种情况下，轮询指的是执行 I/O 操作时不依赖硬件中断来指示完成事件。当采用轮询 I/O 时，应用程序会不断地向硬件驱动查询已提交 I/O 请求的状态。这与非轮询 I/O 不同，在非轮询模式下，应用程序通常会进入休眠状态，等待硬件中断作为唤醒源。对于极低延迟设备而言，轮询可以显著提升性能。同样，对于具有极高 IOPS（每秒输入输出操作数）的应用程序，高中断率使得非轮询方式的负载拥有更高的开销。是否采用轮询的界限，无论是从延迟还是总体 IOPS 速率来看，都依据具体的应用程序、I/O 设备及机器能力而有所不同。

为了利用 I/O 轮询，必须在调用 io_uring_setup(2) 系统调用或使用 io_uring_queue_init(3)liburing 库助手时，在传入的标志中设置 IORING_SETUP_IOPOLL。当启用轮询时，应用程序不能再检查 CQ（完成队列）环尾部来确认完成事件的可用性，因为不会有自动触发的异步硬件侧完成事件。相反，应用程序必须主动查找并收割这些事件，通过调用 io_uring_enter(2) 并设置 IORING_ENTER_GETEVENTS 以及将 min_complete 设置为期望的事件数量来实现。设置 IORING_ENTER_GETEVENTS 且将 min_complete 设为 0 也是合法的，这意味着要求内核仅在驱动端检查一次完成事件，而非持续循环检测。

只有那些适合轮询完成的操作码才可以在 IORING_SETUP_IOPOLL 注册过的 io_uring 实例上使用，包括所有读写命令：IORING_OP_READV、IORING_OP_WRITEV、IORING_OP_READ_FIXED、IORING_OP_WRITE_FIXED。在注册为轮询的 io_uring 实例上发出非轮询操作码是非法的，这样做会导致 io_uring_enter(2) 返回 -EINVAL 错误。背后的原因是内核无法判断带有 IORING_ENTER_GETEVENTS 标志的 io_uring_enter(2) 调用是否能安全地睡眠等待事件，还是应该积极地进行轮询。

8.3 内核侧轮询（KERNEL SIDE POLLING）

尽管 io_uring 通常在允许更多的请求通过更少的系统调用来完成发起和处理方面效率更高，但在某些情况下，我们仍可以通过进一步减少执行 I/O 所需的系统调用数量来提高效率。其中一个功能就是内核侧轮询。启用该功能后，应用程序不再需要调用 io_uring_enter(2) 来提交 I/O。当应用程序更新 SQ 环并填写新的 sqe（提交队列条目）时，内核侧会自动发现新条目并提交它们。这是通过一个特定于该 io_uring 的内核线程来完成的。

要使用此功能，io_uring 实例必须在 io_uring_params 的 flag 成员中使用 IORING_SETUP_SQPOLL 进行注册，或者传递给 io_uring_queue_init(3) 函数。此外，如果应用程序希望将此线程限制在特定 CPU 上，可以通过同时标记 IORING_SETUP_SQ_AFF 并将 io_uring_params 的 sq_thread_cp 设置为所需 CPU 来实现。需要注意的是，使用 IORING_SETUP_SQPOLL 设置 io_uring 实例是一个需要特权的操作。如果用户没有足够的权限，io_uring_queue_init(3) 将失败并返回 -EPERM 错误。

为了避免在 io_uring 实例空闲时浪费过多 CPU，内核侧线程将在闲置一段时间后自动进入休眠状态。当发生这种情况时，线程会在 SQ 环的标志成员中设置 IORING_SQ_NEED_WAKEUP。当此标志被设置时，应用程序不能依赖内核自动发现新条目，而必须随后调用带有 IORING_ENTER_SQ_WAKEUP 标志的 io_uring_enter(2)。应用程序侧的逻辑通常如下所示：

/* 增加新的 sqe 条目 */add_more_io();/** 如果轮询并且线程现在正在睡眠，则需要调用io_uring_enter() 以使内核注意到新的 io*/if ((*sqring→flags) & IORING_SQ_NEED_WAKEUP) io_uring_enter(ring_fd, to_submit, to_wait, IORING_ENTER_SQ_WAKEUP);

只要应用程序持续进行 I/O 操作，就不会设置 IORING_SQ_NEED_WAKEUP，我们就可以在不执行任何系统调用的情况下有效地执行 I/O。然而，重要的是要在应用程序中始终保持类似上述的逻辑，以防线程确实进入休眠。进入空闲状态前的具体宽限期可以通过设置 io_uring_params 的 sq_thread_idle 成员来配置，其值以毫秒为单位。如果不设置该成员，内核默认在使线程休眠前空闲一秒钟。

对于“常规”的 IRQ 驱动 I/O，应用程序直接查看 CQ 环即可找到完成事件。如果 io_uring 实例配置了 IORING_SETUP_IOPOLL，则内核线程也会负责收割完成事件。因此，在这两种情况下，除非应用程序希望等待 I/O 发生，否则它只需简单地查看 CQ 环以查找完成事件。

9.0 性能表现

最终，io_uring 达到了为其设定的设计目标。我们拥有一个非常高效的内核与应用程序之间的通信机制，表现为两个独立的环。虽然原始接口在应用程序中正确使用时需要一些注意事项，但主要的复杂之处实际上在于需要显式的内存排序原语。这些原语在事件的提交和处理的提交和完成两端都有特定的应用，且通常在不同应用程序中遵循相同模式。随着 liburing 接口的不断成熟，我预计大多数应用程序都会对提供的 API 感到相当满意。

虽然本文无意深入细节讨论 io_uring 实现的性能和可扩展性，但本节将简要涉及在此领域观察到的一些优势。更多详细信息，请参见 [1]。请注意，由于对块层进行了进一步改进，这些结果有些过时。例如，在我的测试环境中，通过 io_uring 实现的每核心峰值性能现在大约为 170 万次 4k IOPS，而非 162 万次。请注意，这些数值本身并没有太多绝对意义，它们主要用于衡量相对改进。现在，应用程序与内核之间的通信机制不再是瓶颈，我们将继续通过使用 io_uring 发现更低的延迟和更高的峰值性能。

9.1 原始性能表现

考察接口的原始性能有许多方法。大多数测试也将涉及内核的其他部分。一个例子是上文中的数字，我们通过随机从块设备或文件读取来衡量性能。在峰值性能下，通过轮询，io_uring 帮助我们达到了 170 万次 4k IOPS。相比之下，aio 的性能峰值远低于此，仅为 60.8 万次。这里的比较并不完全公平，因为 aio 不支持轮询 I/O。如果我们禁用轮询，io_uring 在相同的测试案例中仍能驱动约 120 万次 IOPS。此时，aio 的局限性变得非常明显，对于相同的工作负载，io_uring 能够驱动两倍的 IOPS。

io_uring 还支持无操作命令，这对于检查接口的原始吞吐量特别有用。根据所使用的系统，每秒消息数量从我笔记本电脑上的 1200 万次到用于其他引用结果的测试盒上的 2000 万次不等。实际结果根据具体的测试案例有很大差异，主要受限于必须执行的系统调用数量。原始接口在其他方面受内存限制，由于提交和完成消息在内存中既小又线性，因此实现的消息每秒速率可以非常高。

9.2 缓存异步 I/O 性能

我之前提到过，内核级别的缓冲异步 I/O 实现可能比用户空间中的实现更为高效。一个重要原因与缓存与未缓存数据有关。进行缓冲 I/O 时，应用程序通常严重依赖内核的页缓存来获得良好性能。用户空间应用程序无法得知它接下来请求的数据是否已经被缓存。它可以查询这一信息，但这需要更多的系统调用，而且答案本质上总是存在竞争条件——此刻被缓存的数据可能在几毫秒之后就不再是缓存中的了。因此，拥有 I/O 线程池的应用程序总是需要将请求发送到异步上下文中，导致至少两次上下文切换。如果请求的数据已经在页缓存中，将导致性能急剧下降。

io_uring 处理这种情况的方式与其他可能导致应用程序阻塞的资源相同。更重要的是，对于不会阻塞的操作，数据会直接在线提供。这使得 io_uring 在处理已位于页缓存中的 I/O 时，与常规同步接口一样高效。一旦 I/O 提交调用返回，应用程序就会在 CQ 环中立即有一个等待它的完成事件，数据也已被复制。

10.0 进一步阅读

鉴于这是一个全新的接口，目前还没有广泛采用。截至撰写时，包含此接口的内核正处于候选发布阶段（-rc）。即使有了相当完整的接口描述，研究使用 io_uring 的程序对于完全理解如何最好地使用它也是有益的。

一个例子是随 fio[2] 提供的 io_uring 引擎，它能够使用所有描述过的高级特性，除了注册文件集之外。

另一个例子是随 fio 一起提供的 t/io_uring.c 示例基准测试应用程序，它只是对文件或设备进行随机读取，具有可配置的设置，可以探索高级使用场景的整个特性集。

liburing 库 [3] 有一整套针对系统调用接口的手册页，值得一读。它还附带了一些测试程序，包括开发过程中发现的问题的单元测试，以及技术演示。

LWN 还撰写了一篇关于 io_uring 早期阶段的优秀文章 [4]。请注意，在这篇文章发表后，io_uring 做了一些改动，因此在两者之间存在差异的情况下，我建议参考本文。

11.0 参考文献

[1] https://lore.kernel.org/linux-block/20190116175003.17880-1-axboe@kernel.dk/
[2] git://git.kernel.dk/fio
[3] git://git.kernel.dk/liburing
[4] https://lwn.net/Articles/776703/

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/05-18-2024/efficient-io-with-io_uring.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

记一次 Redis 延时毛刺问题定位

2023-12-21T16:00:00.000Z

背景

该问题发生于八月份，业务发现部分线上集群出现 10 分钟一次的耗时毛刺。整个系统的架构很简单：

在 Redis Proxy 可以观察到明显的请求耗时毛刺，因此可以确定问题确实出现在 Redis Proxy 调用 Redis 的某个环节

然而，为了定位该问题，仍然花费了很长的时间：

该问题非必现，且不固定于某台机器
问题发现时，相同/类似毛刺现象涉及众多集群
在线的 Redis 版本缺少 P99 指标（耗时指标仅包括执行耗时，不包括包括等待耗时）耗时毛刺被平均之后无法观察到

问题定位

由于无法利用现有指标缩小问题的范围，只能按照可能性从高到底排查：业务请求 > 网络 > 系统 > 应用。

业务层面：部分集群发现少量 LUA script 相关的慢速日志
网络层面：使用 mtr 观测出现问题的时间点网络状态，并排查上层交换机之后未见异常
系统层面：根据业务反馈之前有类似故障出现，原因是 atop 采集进程 PSS 导致延迟增加。该 case 可以稳定复现，现象略有不同；抽查有异常机器检查未发现有安装 atop。
应用层：相关集群已经较长时间没有版本更新，使用 perf record 很难发现毛刺类型问题

在针对某一个集群的 master failover 到其他节点，请求延迟毛刺消失。对比前后两台机器发现 atop 进程的差异。

$> ps aux|grep atoproot       2442  0.0  0.0   2500  1628 ?        S<    2022  42:21 /usr/sbin/atopacctdroot      11530  0.0  0.0  18024  2068 pts/0    S+   22:08   0:00 grep --color=auto atoproot     182181  1.5  0.0  33784 33184 ?        S ps aux|grep atoproot     403334  0.0  0.0  16572  2016 pts/0    S+   22:09   0:00 grep --color=auto atop

停止所有 atop 之后，请求延迟消失

原来，线上部分机器部署的 atop 版本默认启用了 -R 选项。在 atop 读 /proc/${pid}/smaps 时，会遍历整个进程的页表，期间会持有内存页表的锁。如果在此期间进程发生虚拟内存地址分配，也需要获取锁，就需要等待锁释放。具体到应用层面就是请求耗时毛刺。

除了 atop，cadvisor 等应用也会读取 /proc/${pid}/smaps，虽然默认关闭。由于关闭的方式是通过 disable_metrics 来指定关闭。如果自定义参数时遗漏相关参数，还是会打开该功能触发耗时毛刺

根因分析

当读取 /proc/${pid}/smaps 获得某个进程虚拟内存区间信息时，究竟发生了什么？

seq_file

Linux 使用文件将内核里面数据结构通过文件导出到用户空间， smaps 使用到的文件类型就是 seq_file 文件。

// linux/include/linux/seq_file.hstruct seq_file {    char *buf;    // 指向包含要读取或写入的数据的缓冲区    size_t size;  // 缓冲区的大小    size_t from;  // 缓冲区中读取或写入的起始位置    size_t count; // 读取或写入的字节数    size_t pad_until;  // 将输出填充到某个位置    loff_t index; // 序列中的当前位置    loff_t read_pos;   // 当前的读取位置    u64 version;  // 文件版本    struct mutex lock; // 锁，确保对 seq_file 操作是线程安全的    const struct seq_operations *op; // 该结构定义了可以对 proc 执行的操作    int poll_event;    // 用于 poll 和 select 系统调用    const struct file *file; // 指向文件结构的指针，即 seq_file 关联的 proc    void *private; // 私有数据字段，存储特定于文件的数据};struct seq_operations {    // 开始读数据项，通常需要加锁，以防止并行访问数据void * (*start) (struct seq_file *m, loff_t *pos);// 停止读数据项，通常需要解锁void (*stop) (struct seq_file *m, void *v);        // 找到下一个要处理的数据项void * (*next) (struct seq_file *m, void *v, loff_t *pos);        // 打印数据项到临时缓冲区int (*show) (struct seq_file *m, void *v);};

seq_file 使用 file 存储需要关联的进程，seq_operations 定义读取进程数据的操作。使用全局函数 seq_open 把进程与 seq_operations 关联起来

用户态： open(“/proc/pid/smaps”) –> 内核态： proc_pid_smaps_operations.open()
用户态： read(fd) –> 内核态： proc_pid_smaps_operations.read()

smaps

具体到 smaps，也是一样的实现 file 相关的方法，在内核中是定义在 proc_pid_smaps_operations 结构：

// linux/fs/proc/base.cREG("smaps",      S_IRUGO, proc_pid_smaps_operations)// linux/fs/proc/task_mmu.c// `file_operations` 结构的一个实例，定义 `/proc/PID/smaps` 文件的操作，当操作`/proc/PID/smaps` 文件时被调用const struct file_operations proc_pid_smaps_operations = {.open= pid_smaps_open, // 打开文件的函数.read= seq_read,       // 读取文件的函数.llseek= seq_lseek,      // 定位文件的函数.release= proc_map_release, // 释放文件的函数};

其中 open() 函数最终会返回一个文件描述符 fd 供后续 read(fd) 函数使用。

// linux/fs/proc/task_mmu.c    pid_smaps_open()//     --->linux/fs/proc/task_mmu.c    do_maps_open()//         --->linux/fs/proc/task_mmu.c    proc_maps_open()// `seq_operations`结构的实例，定义了一系列的操作函数，在处理`/proc/PID/smaps`文件时被调用static const struct seq_operations proc_pid_smaps_op = {.start= m_start,  // 开始操作的函数.next= m_next,   // 下一步操作的函数.stop= m_stop,   // 停止操作的函数.show= show_smap // 显示操作的函数};static int pid_smaps_open(struct inode *inode, struct file *file){return do_maps_open(inode, file, &proc_pid_smaps_op);}static int do_maps_open(struct inode *inode, struct file *file,const struct seq_operations *ops){return proc_maps_open(inode, file, ops,sizeof(struct proc_maps_private));}static int proc_maps_open(struct inode *inode, struct file *file,const struct seq_operations *ops, int psize){    // 调用`__seq_open_private`函数来打开一个序列文件，并返回一个指向`proc_maps_private`结构的指针。该结构包含了处理`/proc/PID/maps`文件所需的私有数据struct proc_maps_private *priv = __seq_open_private(file, ops, psize);if (!priv)return -ENOMEM;        priv->inode = inode; // 将输入参数`inode`赋值给`priv->inode`// 调用`proc_mem_open`函数以读取模式打开`inode`指向的内存对象，并将返回的内存描述符赋值给`priv->mm`priv->mm = proc_mem_open(inode, PTRACE_MODE_READ);if (IS_ERR(priv->mm)) {int err = PTR_ERR(priv->mm);seq_release_private(inode, file);return err;}return 0;}// 打开序列文件并分配私有数据所需的基本操作void *__seq_open_private(struct file *f, const struct seq_operations *ops,int psize){int rc;void *private;struct seq_file *seq;private = kzalloc(psize, GFP_KERNEL);if (private == NULL)goto out;rc = seq_open(f, ops); // 调用`seq_open`函数打开一个序列文件if (rc < 0)goto out_free;、seq = f->private_data; // 获取文件的私有数据，并将其转换为`seq_file`结构的指针seq->private = private;return private;out_free:kfree(private);out:return NULL;}/** *seq_open -initialize sequential file *@file: file we initialize *@op: method table describing the sequence * *seq_open() sets @file, associating it with a sequence described *by @op.  @op->start() sets the iterator up and returns the first *element of sequence. @op->stop() shuts it down.  @op->next() *returns the next element of sequence.  @op->show() prints element *into the buffer.  In case of error ->start() and ->next() return *ERR_PTR(error).  In the end of sequence they return %NULL. ->show() *returns 0 in case of success and negative number in case of error. *Returning SEQ_SKIP means "discard this element and move on". */int seq_open(struct file *file, const struct seq_operations *op){struct seq_file *p = file->private_data;if (!p) {p = kmalloc(sizeof(*p), GFP_KERNEL);if (!p)return -ENOMEM;file->private_data = p;}memset(p, 0, sizeof(*p));mutex_init(&p->lock); // 初始化`seq_file`结构的锁p->op = op; // 将输入参数`op`赋值给`seq_file`结构的`op`成员    // ...     return 0;}struct mm_struct *proc_mem_open(struct inode *inode, unsigned int mode){// 调用`get_proc_task`函数获取`inode`对应的进程的任务结构struct task_struct *task = get_proc_task(inode);struct mm_struct *mm = ERR_PTR(-ESRCH);    // ...     return mm;}

pid_smaps_open 函数通过参数 inode 找到进程相关的结构并放到 file 的私有数据结构。

当 read 时，调用 seq_read() 函数，它是内核的一个通用架构的函数，特定的 proc 文件（如：smaps）需要提供自己特有的操作方法供通用的 seq_read() 调用。smaps 即是 pid_smaps_open() 函数的 file_operations 参数 &proc_pid_smaps_op，专门为读取进程虚拟内存区(vma)信息的方法。

/** *seq_read -->read() method for sequential files. *@file: the file to read from *@buf: the buffer to read to *@size: the maximum number of bytes to read *@ppos: the current position in the file * *Ready-made ->f_op->read() */ssize_t seq_read(struct file *file, char __user *buf, size_t size, loff_t *ppos){struct seq_file *m = file->private_data;size_t copied = 0;loff_t pos;size_t n;void *p;int err = 0;mutex_lock(&m->lock); // 锁定`seq_file`结构，以确保线程安全/* * seq_file->op->..m_start/m_stop/m_next may do special actions * or optimisations based on the file->f_version, so we want to * pass the file->f_version to those methods. * * seq_file->version is just copy of f_version, and seq_file * methods can treat it simply as file version. * It is copied in first and copied out after all operations. * It is convenient to have it as  part of structure to avoid the * need of passing another argument to all the seq_file methods. */m->version = file->f_version;/* Don't assume *ppos is where we left it */if (unlikely(*ppos != m->read_pos)) {while ((err = traverse(m, *ppos)) == -EAGAIN);if (err) {/* With prejudice... */m->read_pos = 0;m->version = 0;m->index = 0;m->count = 0;goto Done;} else {m->read_pos = *ppos;}}/* grab buffer if we didn't have one */// 如果`seq_file`结构没有缓冲区，需要分配一个if (!m->buf) {m->buf = seq_buf_alloc(m->size = PAGE_SIZE);if (!m->buf)goto Enomem;}/* if not empty - flush it first */// 如果`seq_file`结构的缓冲区不为空，需要先将其内容复制到用户空间if (m->count) {n = min(m->count, size);err = copy_to_user(buf, m->buf + m->from, n);if (err)goto Efault;m->count -= n;m->from += n;size -= n;buf += n;copied += n;if (!m->count)m->index++;if (!size)goto Done;}/* we need at least one record in buffer */pos = m->index;p = m->op->start(m, &pos);// 从序列文件中读取记录，直到出错或缓冲区满while (1) {err = PTR_ERR(p);if (!p || IS_ERR(p))break;err = m->op->show(m, p);if (err < 0)break;if (unlikely(err))m->count = 0;if (unlikely(!m->count)) {p = m->op->next(m, p, &pos);m->index = pos;continue;}if (m->count < m->size)goto Fill;m->op->stop(m, p);kvfree(m->buf);m->count = 0;m->buf = seq_buf_alloc(m->size <<= 1);if (!m->buf)goto Enomem;m->version = 0;pos = m->index;p = m->op->start(m, &pos);}m->op->stop(m, p);m->count = 0;goto Done;Fill:/* they want more? let's try to get some more */// 尝试获取更多的记录，直到出错、缓冲区溢出或缓冲区满while (m->count < size) {size_t offs = m->count;loff_t next = pos;p = m->op->next(m, p, &next);if (!p || IS_ERR(p)) {err = PTR_ERR(p);break;}err = m->op->show(m, p);if (seq_has_overflowed(m) || err) {m->count = offs;if (likely(err <= 0))break;}pos = next;}m->op->stop(m, p);n = min(m->count, size);err = copy_to_user(buf, m->buf, n);if (err)goto Efault;copied += n;m->count -= n;if (m->count)m->from = n;elsepos++;m->index = pos;Done:if (!copied)copied = err;else {*ppos += copied;m->read_pos += copied;}file->f_version = m->version;mutex_unlock(&m->lock); // 解锁`seq_file`结构return copied;Enomem:err = -ENOMEM;goto Done;Efault:err = -EFAULT;goto Done;}

seq_read() 函数的参数：文件对应的内核数据结构 file，用户态 buf 用于存放读取到的信息，size 和ppos 分别是大小和偏移。通用的 seq_read() 函数要将进程的 vma 信息读取给用户的 buf

在开始读取时，m_start 会调用 mmap_read_lock_killable 给整个 mm 结构体加锁；在读取结束时， m_stop 会调用 mmap_read_unlock 解锁。通过 m_next 和 show_smap 每次读取一个 VMA，最终完成所有所有区域的打印。

// linux/fs/proc/task_mmu.cstatic void *m_start(struct seq_file *m, loff_t *ppos){// 获取`seq_file`结构的私有数据，并将其转换为`proc_maps_private`结构的指针struct proc_maps_private *priv = m->private;unsigned long last_addr = *ppos;struct mm_struct *mm;/* See m_next(). Zero at the start or after lseek. */if (last_addr == -1UL)return NULL;// 调用`get_proc_task`函数来获取`inode`对应的进程的任务结构priv->task = get_proc_task(priv->inode);if (!priv->task)return ERR_PTR(-ESRCH);mm = priv->mm;if (!mm || !mmget_not_zero(mm)) {put_task_struct(priv->task);priv->task = NULL;return NULL;}// 尝试获取内存描述符的读锁。如果无法获取，函数释放内存描述符和任务结构并返回错误指针if (mmap_read_lock_killable(mm)) {mmput(mm);put_task_struct(priv->task);priv->task = NULL;return ERR_PTR(-EINTR);}// 初始化虚拟内存区域的迭代器vma_iter_init(&priv->iter, mm, last_addr);hold_task_mempolicy(priv); // 获取任务的内存策略if (last_addr == -2UL)return get_gate_vma(mm);// 获取虚拟内存区域return proc_get_vma(priv, ppos);}static void *m_next(struct seq_file *m, void *v, loff_t *ppos){if (*ppos == -2UL) {*ppos = -1UL;return NULL;}return proc_get_vma(m->private, ppos);}static void m_stop(struct seq_file *m, void *v){struct proc_maps_private *priv = m->private;struct mm_struct *mm = priv->mm;if (!priv->task)return;release_task_mempolicy(priv); // 释放任务的内存策略mmap_read_unlock(mm); // 解锁内存描述符的读锁mmput(mm); // 减少内存描述符的引用计数，如果引用计数为零，释放内存描述符put_task_struct(priv->task); // 减少任务结构的引用计数，如果引用计数为零，释放任务结构priv->task = NULL;}static int show_smap(struct seq_file *m, void *v){struct vm_area_struct *vma = v;struct mem_size_stats mss;memset(&mss, 0, sizeof(mss));smap_gather_stats(vma, &mss, 0);show_map_vma(m, vma);SEQ_PUT_DEC("Size:           ", vma->vm_end - vma->vm_start);SEQ_PUT_DEC(" kB\nKernelPageSize: ", vma_kernel_pagesize(vma));SEQ_PUT_DEC(" kB\nMMUPageSize:    ", vma_mmu_pagesize(vma));seq_puts(m, " kB\n");__show_smap(m, &mss, false);seq_printf(m, "THPeligible:    %8u\n",   hugepage_vma_check(vma, vma->vm_flags, true, false, true));if (arch_pkeys_enabled())seq_printf(m, "ProtectionKey:  %8u\n", vma_pkey(vma));show_smap_vma_flags(m, vma);return 0;}/* Show the contents common for smaps and smaps_rollup */static void __show_smap(struct seq_file *m, const struct mem_size_stats *mss,bool rollup_mode){SEQ_PUT_DEC("Rss:            ", mss->resident);SEQ_PUT_DEC(" kB\nPss:            ", mss->pss >> PSS_SHIFT);SEQ_PUT_DEC(" kB\nPss_Dirty:      ", mss->pss_dirty >> PSS_SHIFT);if (rollup_mode) {/* * These are meaningful only for smaps_rollup, otherwise two of * them are zero, and the other one is the same as Pss. */SEQ_PUT_DEC(" kB\nPss_Anon:       ",mss->pss_anon >> PSS_SHIFT);SEQ_PUT_DEC(" kB\nPss_File:       ",mss->pss_file >> PSS_SHIFT);SEQ_PUT_DEC(" kB\nPss_Shmem:      ",mss->pss_shmem >> PSS_SHIFT);}SEQ_PUT_DEC(" kB\nShared_Clean:   ", mss->shared_clean);SEQ_PUT_DEC(" kB\nShared_Dirty:   ", mss->shared_dirty);SEQ_PUT_DEC(" kB\nPrivate_Clean:  ", mss->private_clean);SEQ_PUT_DEC(" kB\nPrivate_Dirty:  ", mss->private_dirty);SEQ_PUT_DEC(" kB\nReferenced:     ", mss->referenced);SEQ_PUT_DEC(" kB\nAnonymous:      ", mss->anonymous);SEQ_PUT_DEC(" kB\nKSM:            ", mss->ksm);SEQ_PUT_DEC(" kB\nLazyFree:       ", mss->lazyfree);SEQ_PUT_DEC(" kB\nAnonHugePages:  ", mss->anonymous_thp);SEQ_PUT_DEC(" kB\nShmemPmdMapped: ", mss->shmem_thp);SEQ_PUT_DEC(" kB\nFilePmdMapped:  ", mss->file_thp);SEQ_PUT_DEC(" kB\nShared_Hugetlb: ", mss->shared_hugetlb);seq_put_decimal_ull_width(m, " kB\nPrivate_Hugetlb: ",  mss->private_hugetlb >> 10, 7);SEQ_PUT_DEC(" kB\nSwap:           ", mss->swap);SEQ_PUT_DEC(" kB\nSwapPss:        ",mss->swap_pss >> PSS_SHIFT);SEQ_PUT_DEC(" kB\nLocked:         ",mss->pss_locked >> PSS_SHIFT);seq_puts(m, " kB\n");}static struct vm_area_struct *proc_get_vma(struct proc_maps_private *priv,loff_t *ppos){struct vm_area_struct *vma = vma_next(&priv->iter);if (vma) {*ppos = vma->vm_start;} else {*ppos = -2UL;vma = get_gate_vma(priv->mm);}return vma;}// linux/include/linux/mmap_lock.hstatic inline int mmap_read_lock_killable(struct mm_struct *mm){int ret;__mmap_lock_trace_start_locking(mm, false);ret = down_read_killable(&mm->mmap_lock);__mmap_lock_trace_acquire_returned(mm, false, ret == 0);return ret;}static inline void mmap_read_unlock(struct mm_struct *mm){__mmap_lock_trace_released(mm, false);up_read(&mm->mmap_lock);}

smaps 读取的重点在于:

mmap_lock 锁粒度：该锁的粒度很大，当进程发生 vma 操作都需要持有该锁，如内存分配和释放。
遍历 VMA 耗时：如果进程的内存比较大，就会长时间持有该锁，影响进程的内存管理。

smaps_rollup

有时只是想获取一下进程的 PSS 占用，是不是可以省去遍历 VMA 的部分呢？ google 的优化是增加 /proc/pid/smaps_rollup，据 Patch 描述性能改善了 12 倍，节省几百毫秒。

By using smaps_rollup instead of smaps, a caller can avoid the
significant overhead of formatting, reading, and parsing each of a
large process’s potentially very numerous memory mappings. For
sampling system_server’s PSS in Android, we measured a 12x speedup,
representing a savings of several hundred milliseconds.

smaps_rollup 的具体实现如下，可以看到持锁的粒度和时长都大大降低，当有写入请求等待锁时，还会临时释放锁。

static int show_smaps_rollup(struct seq_file *m, void *v){// 获取`seq_file`结构的私有数据，并将其转换为`proc_maps_private`结构的指针struct proc_maps_private *priv = m->private;struct mem_size_stats mss = {};struct mm_struct *mm = priv->mm;struct vm_area_struct *vma;unsigned long vma_start = 0, last_vma_end = 0;int ret = 0;VMA_ITERATOR(vmi, mm, 0);// 调用`get_proc_task`函数来获取`inode`对应的进程的任务结构priv->task = get_proc_task(priv->inode);if (!priv->task)return -ESRCH;if (!mm || !mmget_not_zero(mm)) {ret = -ESRCH;goto out_put_task;}// 尝试获取内存描述符的读锁。如果无法获取，函数返回错误码ret = mmap_read_lock_killable(mm);if (ret)goto out_put_mm;hold_task_mempolicy(priv); // 获取任务的内存策略vma = vma_next(&vmi); // 获取下一个虚拟内存区域if (unlikely(!vma))goto empty_set;vma_start = vma->vm_start;// 遍历所有的虚拟内存区域，并收集统计信息do {// 调用`smap_gather_stats`函数来收集当前VMA的统计信息smap_gather_stats(vma, &mss, 0);last_vma_end = vma->vm_end;/* * Release mmap_lock temporarily if someone wants to * access it for write request. */ // 如果内存映射的锁存在争用，需要暂时释放锁以允许其他线程进行写操作if (mmap_lock_is_contended(mm)) {vma_iter_invalidate(&vmi);mmap_read_unlock(mm);ret = mmap_read_lock_killable(mm);if (ret) {release_task_mempolicy(priv);goto out_put_mm;}/* * After dropping the lock, there are four cases to * consider. See the following example for explanation. * *   +------+------+-----------+ *   | VMA1 | VMA2 | VMA3      | *   +------+------+-----------+ *   |      |      |           | *  4k     8k     16k         400k * * Suppose we drop the lock after reading VMA2 due to * contention, then we get: * *last_vma_end = 16k * * 1) VMA2 is freed, but VMA3 exists: * *    vma_next(vmi) will return VMA3. *    In this case, just continue from VMA3. * * 2) VMA2 still exists: * *    vma_next(vmi) will return VMA3. *    In this case, just continue from VMA3. * * 3) No more VMAs can be found: * *    vma_next(vmi) will return NULL. *    No more things to do, just break. * * 4) (last_vma_end - 1) is the middle of a vma (VMA'): * *    vma_next(vmi) will return VMA' whose range *    contains last_vma_end. *    Iterate VMA' from last_vma_end. */vma = vma_next(&vmi); // 获取下一个VMA/* Case 3 above */if (!vma) // 如果没有更多的VMA，跳出循环break;/* Case 1 and 2 above */if (vma->vm_start >= last_vma_end) // 如果下一个 VMA 的开始地址大于或等于上一个 VMA 的结束地址，跳过当前迭代continue;/* Case 4 above */if (vma->vm_end > last_vma_end) // 如果下一个 VMA 的结束地址大于上一个 VMA 的结束地址，从上一个 VMA 的结束地址开始收集下一个 VMA 的统计信息smap_gather_stats(vma, &mss, last_vma_end);}} for_each_vma(vmi, vma);empty_set:// 显示虚拟内存区域的头部前缀show_vma_header_prefix(m, vma_start, last_vma_end, 0, 0, 0, 0);seq_pad(m, ' ');seq_puts(m, "[rollup]\n");// 显示内存映射的统计信息__show_smap(m, &mss, true);release_task_mempolicy(priv); // 释放任务的内存策略mmap_read_unlock(mm); // 解锁内存描述符的读锁out_put_mm:// 减少内存描述符的引用计数，如果引用计数为零，释放内存描述符mmput(mm); out_put_task:// 减少任务结构的引用计数，如果引用计数为零，释放任务结构put_task_struct(priv->task);priv->task = NULL;return ret;}

定位策略/工具

正如前面提到，整个故障定位过程耗时较长，定位方式也不具备普适性。针对延迟毛刺性问题，是否有什么普适的定位方法呢？

首先，定位非必现的问题，首要条件就是获取问题发生的现场快照，获取更多的问题细节。针对非必现的问题最好的方式，就是在可能出现问题的现场部署合适的脚本获取现场快照。

其次，最重要的是定位工具。本问题之所以定位耗时较长，是因为没有使用合适的工具缩小故障的范围。就进程的调用耗时而言，由两部分耗时组成：用户空间和内核空间。

用户空间耗时

由于在线的 Redis 版本缺少 P99 指标，可以使用 funcslower(bcc) 可以定位或排除 Redis 执行毛刺，将范围缩小到网络或者单机问题。

$> funcslower -UK -u 5000 -p 324568 '/var/lib/docker/overlay2/69e6c3d262a1aed8db1a8b16ddfc34c7c78999f527e028857dc2e5248ae5704a/merged/usr/local/bin/redis-server:processCommand'

内核空间耗时

使用系统调用性能测试工具，通过查看系统调用的长尾延迟，可以确定系统层面是否存在问题。满足要求的工具可能有：

syscount(bcc)

syscount 并不能直接查看 outliner，但可以通过对比不同时间区间的延迟变化发现问题。使用它在问题现场，抓取到延迟前后 mmap 系统调用前后变化，问题出现前耗时为 11 us，问题发生时耗时为 177 ms，如下所示：

# ebpf 抓取故障前后 mmap 耗时$> syscount -L -i 30  -p $PID[21:39:27]SYSCALL                   COUNT        TIME (us)epoll_pwait               24952      4322184.374write                     34458       331600.262read                      26400        59001.053open                         50          527.602epoll_ctl                    70           93.506getpid                       50           39.793close                        50           35.262munmap                        1           26.372getpeername                  12           15.252mmap                          1           11.003[21:40:14]SYSCALL                   COUNT        TIME (us)epoll_pwait               24371      4189948.513write                     34110       296551.821mmap                          1       177477.938read                      25878        57099.880open                         48          504.271epoll_ctl                    68          104.834getpid                       49           45.939close                        49           37.919getpeername                   8           13.127accept                        2            7.896

perf trace

另外一个更好用的工具是 perf trace，相较于 syscount 提供了 histogram 图，可以直观的发现长尾问题，使用示例如下所示（非问题现场）：

# perf trace 示例$> perf trace -p $PID -s   syscall            calls    total       min       avg       max      stddev                               (msec)    (msec)    (msec)    (msec)        (%)   --------------- -------- --------- --------- --------- ---------     ------   epoll_pwait        53841 14561.545     0.000     0.270     4.538      0.53%   write              56177   757.799     0.005     0.013     0.047      0.09%   read               55591   219.250     0.001     0.004     0.702      0.67%   open                 170     2.468     0.012     0.015     0.043      1.69%   getpid               171     1.668     0.002     0.010     1.069     63.91%   mmap                  76     0.795     0.007     0.010     0.018      2.14%   munmap                77     0.643     0.003     0.008     0.030      7.91%   epoll_ctl            151     0.533     0.001     0.004     0.014      4.26%   close                173     0.291     0.001     0.002     0.012      3.87%   getpeername           24     0.064     0.002     0.003     0.004      4.76%   accept                 8     0.045     0.003     0.006     0.011     18.34%   setsockopt            20     0.040     0.001     0.002     0.003      5.50%   fcntl                 16     0.029     0.001     0.002     0.006     15.83%   getrusage              3     0.008     0.001     0.003     0.006     48.77%   getcwd                 1     0.006     0.006     0.006     0.006      0.00%

定位到 mmap 耗时异常之后，其实相关工作就可以交给内核同事处理了，毕竟术业有专攻。要想查看慢在哪里，可以通过 func_graph 工具定位到耗时异常的函数

# tracer: function_graph## CPU  DURATION                  FUNCTION CALLS# |     |   |                     |   |   |   | 0)               |  sys_open() { 0)               |    do_sys_open() { 0)               |      getname() { 0)               |        kmem_cache_alloc() { 0)   1.382 us    |          __might_sleep(); 0)   2.478 us    |        } 0)               |        strncpy_from_user() { 0)               |          might_fault() { 0)   1.389 us    |            __might_sleep(); 0)   2.553 us    |          } 0)   3.807 us    |        } 0)   7.876 us    |      } 0)               |      alloc_fd() { 0)   0.668 us    |        _spin_lock(); 0)   0.570 us    |        expand_files(); 0)   0.586 us    |        _spin_unlock();

针对于 mmap_lock 的锁占用，要想排查持有该锁的进程列表。在内核高版本中封装了 mmap_lock 相关函数，并在其中增加了 tracepoint，可以使用 bpftrace 等工具统计持有写锁的进程、调用栈等

$> perf list |grep mmap  mmap:vm_unmapped_area                              [Tracepoint event]  mmap_lock:mmap_lock_acquire_returned               [Tracepoint event]  mmap_lock:mmap_lock_released                       [Tracepoint event]  mmap_lock:mmap_lock_start_locking                  [Tracepoint event]  syscalls:sys_enter_mmap                            [Tracepoint event]  syscalls:sys_exit_mmap                             [Tracepoint event]$> bpftrace -e 'tracepoint:mmap_lock:mmap_lock_start_locking /args->write == true/{ @[comm, kstack] = count();}'

相关 perf 命令来自字节跳动SYSTech 分享，遗憾的是由于发生问题的内核版本较旧，并未实操相关该定位过程。

当然，从持锁这个更宽泛的观测纬度来看，可以找出有相关动作的进程，如下所示：

$> trace 'rwsem_down_read_slowpath(struct rw_semaphore *sem, int state) "count=0x%lx owner=%s", sem->count.counter, ((struct task_struct *)((sem->owner.counter)&~0x7))->comm'/virtual/main.c:44:66: warning: comparison of array '((struct task_struct *)((sem->owner.counter) & ~7))->comm' not equal to a null pointer is always true [-Wtautological-pointer-compare]        if (((struct task_struct *)((sem->owner.counter)&~0x7))->comm != 0) {            ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~    ~1 warning generated.PID     TID     COMM            FUNC             -195453  195458  monitor         rwsem_down_read_slowpath count=0x100 owner=195453  195458  monitor         rwsem_down_read_slowpath count=0x101 owner=ip195453  195756  monitor         rwsem_down_read_slowpath count=0x101 owner=sh195453  195458  monitor         rwsem_down_read_slowpath count=0x101 owner=python195453  195458  monitor         rwsem_down_read_slowpath count=0x101 owner=python195453  195458  monitor         rwsem_down_read_slowpath count=0x101 owner=python212360  212360  runc            rwsem_down_read_slowpath count=0x100 owner=212360  212360  runc            rwsem_down_read_slowpath count=0x101 owner=runc...

然而，加锁解锁耗时跟持锁耗时是两个完全不同的概念，因此并不能直接定位到持锁耗时较长的进程，所以仍需额外的工作进一步排查。

总结

下次遇到同步调用场景下的延迟毛刺，就可以选择合适的工具根据函数执行耗时快速定位。然而采用 streaming 模式的异步请求/响应的延迟问题，仍然需要再深入学习探索。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/12-22-2023/redis-latency-spike.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

深入理解 DNS 解析

2023-10-07T16:00:00.000Z

作为互联网的基本设施，DNS 通过将域名转换为一组 IP 地址，在不同的连接尝试中，客户端将接收来自不同 IP 的服务器的服务，从而将整体负载分配到不同服务器之间。

在一些对响应延迟极度敏感的场景下，服务端负载不均会显著增加 P99/P999 延迟，例如：Redis 服务接入。假如后端服务能力一致，使用 DNS 作为服务发现的情况下，怎样才能让负载均衡到不同的服务器（注意：不仅仅是负载分配，而是负载均衡）。通常意义上，我们倾向于认为 DNS 解析返回的结果是 Round-robin 的，然而实际上并非如此。

DNS 查询

迭代查询

所有 DNS 服务器都属于以下四个类别之一：

递归解析器（Local DNS）
根域名服务器(Root Nameserver)
TLD 域名服务器(TLD Nameserver)
权威性域名服务器(Authoritative Nameserver)

在典型 DNS 查找中，四种 DNS 服务器协同工作来完成客服端发起的域名到 IP 地址的解析任务。

客户端不会直接与 DNS 域名服务器通信，递归解析器（也称为 DNS 解析器）作为客户端与 DNS 域名服务器的中间人，是 DNS 查询中的第一站。从客户端收到 DNS 查询后，递归解析器将使用缓存的数据进行响应，或向 Root 域名服务器发送请求，接着向 TLD 域名服务器发送另一个请求，然后向权威性域名服务器发送最后一个请求。收到来自权威性域名服务器的响应后，递归解析器将向客户端发送响应。

递归查询

为了满足访问加速、私有（内部）域名、防止 DNS 劫持、智能路由等需求，实际生产环境中会有多级的递归解析器。递归解析器会缓存上游 DNS 服务的查询记录，并根据配置转发未命中缓存的 DNS 查询请求给上游 DNS 服务。

以公有云 VPC 为例，可以在主机部署 node-local-dns，在 Kubernetes 集群部署 CoreDNS，在 VPC 内使用 AWS Route 53 等 DNS 服务。整体效果，如下图：

当 Kubernetes 集群内的容器进行 DNS 解析时，请求首先被转发给主机的 DNS 服务，在未命中缓存是逐级转发给上游的递归解析器。最后一级递归解析器，通过迭代查询返回解析结果。

递归解析器

使用 CoreDNS 搭建域名服务，配置如下：

# Corefile.:53 {    log    errors    forward . 192.168.65.7    # 未命中私有域名、缓存的请求转发给主机 DNS    file /etc/coredns/db/example.com example.com # 私有域名    cache 30  # 缓存 30 秒    loop    reload    loadbalance round_robin # 充当循环DNS负载均衡器，随机响应中 A、AAAA 和 MX 记录的顺序。}# /etc/coredns/db/example.com# www.example.com 两条 A 记录， 两 IP 均为 mock IP# www.cname.example.com CNAME 到 www.example.com...www    IN A     192.168.8.7 www    IN A     192.168.8.8www.cname    IN CNAME  www...

CoreDNS 通过 forward 插件实现递归查询；loadbalance 插件实现轮询 DNS；cache 插件根据域名和记录进行缓存。

使用 dig 验证私有域名 www.example.com、www.cname.example.com 和 serverfault.com，可以看到正常解析，响应中 IP 顺序随机：

$> dig -p 53 @127.0.0.1 +noall +answer  www.example.com      www.example.com.21INA192.168.8.8www.example.com.21INA192.168.8.7$> dig -p 53 @192.168.3.2 +noall +answer  www.cname.example.comwww.cname.example.com.18INCNAMEwww.example.com.www.example.com.18INA192.168.8.7www.example.com.18INA192.168.8.8$> dig -p 53 @127.0.0.1 +noall +answer  serverfault.comserverfault.com.30INA104.18.23.101serverfault.com.30INA104.18.22.101

轮询 DNS

统计 serverfault.com 返回记录的首位结果：

$> for i in $(seq 1 10); do  dig +short serverfault.com | head -n 1; done | sort | uniq -c      4 104.18.22.101      6 104.18.23.101

即使排除缓存失效再缓存的干扰，CoreDNS 结果也并不总是 5:5，看起来与想象的 round-robin 不同。

深入 CoreDNS loadbalance 插件的源代码，可以看到:

仅对 MX 和 A、AAAA 记录 round-robin shuffle
A、AAAA 记录会合并到一起 round-robin shuffle

func roundRobin(in []dns.RR) []dns.RR {cname := []dns.RR{}address := []dns.RR{}mx := []dns.RR{}rest := []dns.RR{}for _, r := range in {switch r.Header().Rrtype {case dns.TypeCNAME:cname = append(cname, r)case dns.TypeA, dns.TypeAAAA: // IPv4, IPv6address = append(address, r)case dns.TypeMX:mx = append(mx, r)default:rest = append(rest, r)}}roundRobinShuffle(address)roundRobinShuffle(mx)out := append(cname, rest...)out = append(out, address...)out = append(out, mx...)return out}

再看 roundRobinShuffle 的实现，可以看到排序规则：根据随机的消息 ID 做 random_shuffle（随机排列组合），而非像击球队伍中的运动员一样：每个人都轮到一次，然后移到队伍的后面。

func roundRobinShuffle(records []dns.RR) {switch l := len(records); l {case 0, 1:breakcase 2:if dns.Id()%2 == 0 {records[0], records[1] = records[1], records[0]}default:for j := 0; j < l; j++ {p := j + (int(dns.Id()) % (l - j))if j == p {continue}records[j], records[p] = records[p], records[j]}}}// Id by default returns a 16-bit random number to be used as a message id. The// number is drawn from a cryptographically secure random number generator.// This being a variable the function can be reassigned to a custom function.// For instance, to make it return a static value for testing:////dns.Id = func() uint16 { return 3 }var Id = id// id returns a 16 bits random number to be used as a// message id. The random provided should be good enough.func id() uint16 {var output uint16err := binary.Read(rand.Reader, binary.BigEndian, &output)if err != nil {panic("dns: reading random id failed: " + err.Error())}return output}

从 Wiki 的解释可以看出来，此 Round-robin 是指排列组合，更类似于 Random：

The order in which IP addresses from the list are returned is the basis for the term round robin. With each DNS response, the IP address sequence in the list is permuted. – Round-robin DNS

缓存插件

cache [TTL] [ZONES...]

TTL：最大TTL（秒）。如果未指定，将使用最大 TTL，对于 NOERROR 响应为 3600，对于拒绝存在的响应为 1800。将 TTL 设置为 300 : cache 300 将缓存最多 300 秒的记录。
ZONE：它应该缓存的区域。如果为空，则使用配置块中的区域。

缓存中的每个元素都根据其 TTL 进行缓存（TTL为最大值）。缓存有 256 个 Shard，默认情况下每 Shard 最多保存 39 条数据，总大小为 256*39=9984 条数据。

域名服务

如果一个域名有多条 A 记录，当发送 DNS 请求时：

DNS 服务是否会返回全部记录？
DNS 服务会以什么顺序返回记录？

由于 RFC 缺少相关的规定，在传输协议的范围内，不同的名称服务器有不同的路由策略。两者共同决定了返回的记录和顺序

传输协议

大多数 DNS RFC1034 请求通过 UDP RFC 768 进行。IPv4规定主机必须能够重组少于等于 576 字节的数据包，包含 IPv4 报头和 8 字节 UDP报头。

因此基于 UDP 的 DNS ，有效载荷限制为小于 512 字节，保证了如果 DNS 数据包在传输中被分段，可以重新组装，降低数据包被随机丢弃的可能性。超过 512 字节的响应将被截断，解析器必须通过 TCP 重新发出请求。

如果解析器支持 EDNS0，也可以通过 UDP 响应最多 4096 字节，且不会被截断。

路由策略

常见的一种路由策略设置是：轮询 DNS

当查询有多条记录时，名称服务器执行循环 DNS。在一个请求和下一个请求时，发送响应的顺序会有所不同。大多数客户端将连接到第条记录，因此可以实现负载平衡。

分别使用 8.8.8.8 和 CoreDNS 分别作为名称服务器。前者直接解析返回，后者配置 loadbalance round_robin shuffle 返回。

loadbalance [round_robin | weighted WEIGHTFILE] { reload DURATION }

查看 serverfault.com 返回记录的顺序，可以看到响应首位的结果差异

$> dig +short serverfault.com104.18.23.101104.18.22.101# 8.8.8.8$> for i in $(seq 1 10); do  dig +short serverfault.com | head -n 1; done | sort | uniq -c     10 104.18.23.101# CoreDNS: round-robin $> for i in $(seq 1 10); do  dig +short serverfault.com | head -n 1; done | sort | uniq -c      4 104.18.22.101      6 104.18.23.101

除了 CoreDNS 的 round-robin，AWS route 53 之类的 DNS 服务提供了更多路由策略，常见：

Geolocation routing policy
IP-based routing policy
Weighted routing policy
…

值得注意的是，由于 CoreDNS 等下游递归解析器，在启用缓存时，并不感知上游的路由策略，因此会导致上游策略失效，甚至导致缺陷。

假设，上游域名服务随机返回部分 IP，该部分 IP 会持续缓存直至缓存失效。在缓存失效前所有请求都会集中到该部分 IP，导致较为严重的访问倾斜。

Resolver 库

在 Linux 上并不存在一个 syscall 用于域名解析，实际上大多数程序是通过一个 C 标准库调用 getaddrinfo 完成的。

dig 、nslookup 等，是查询 DNS 域名服务的工具，因此没有调用 resolver 库

通过 strace 命令可以看到执行的部分细节：

$> strace -e trace=openat -f ping -c1 serverfault.comopenat(AT_FDCWD, "/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3openat(AT_FDCWD, "/lib/x86_64-linux-gnu/libcap.so.2", O_RDONLY|O_CLOEXEC) = 3openat(AT_FDCWD, "/lib/x86_64-linux-gnu/libidn2.so.0", O_RDONLY|O_CLOEXEC) = 3openat(AT_FDCWD, "/lib/x86_64-linux-gnu/libc.so.6", O_RDONLY|O_CLOEXEC) = 3openat(AT_FDCWD, "/lib/x86_64-linux-gnu/libunistring.so.2", O_RDONLY|O_CLOEXEC) = 3openat(AT_FDCWD, "/etc/nsswitch.conf", O_RDONLY|O_CLOEXEC) = 5openat(AT_FDCWD, "/etc/host.conf", O_RDONLY|O_CLOEXEC) = 5openat(AT_FDCWD, "/etc/resolv.conf", O_RDONLY|O_CLOEXEC) = 5openat(AT_FDCWD, "/etc/hosts", O_RDONLY|O_CLOEXEC) = 5openat(AT_FDCWD, "/etc/gai.conf", O_RDONLY|O_CLOEXEC) = 5PING serverfault.com (104.18.22.101) 56(84) bytes of data.openat(AT_FDCWD, "/etc/hosts", O_RDONLY|O_CLOEXEC) = 564 bytes from 104.18.22.101 (104.18.22.101): icmp_seq=1 ttl=62 time=68.6 ms

可以看到依次读取了 /etc/nsswitch.conf，/etc/host.conf，/etc/resolv.conf /etc/gai.conf 四个配置文件， DNS 解析的策略也跟他们相关。通过 POSIX 文档，可以了解四个配置文件的作用

nsswitch.conf

Name Service Switch (NSS) 配置文件，管理了各种信息来源的类别和顺序。每一行可以当做是一个数据库，冒号前面的是信息类型，冒号后面是数据来源或服务。举例：

...hosts:          files dnsnetworks:       files...

域名解析时，gethostbyname 会读取 hosts 一行，并从 files 和 dns 两个来源依次获取数据：

/lib/libnss_files.so.X：实现了 “files” 数据源，读取本地文件：/etc/hosts
/lib/libnss_dns.so.X：实现 “dns” 数据源，访问远端 DNS 服务。

相比于固定搜索顺序的硬编码， NSS 提供了一种更灵活的方法可以动态更新搜索顺序，插件化的增减来源。

host.conf

host.conf 包含了为解析库声明的配置信息. 每行含一个配置关键字，其后跟着合适的配置信息.。举例：

# The "order" line is only used by old versions of the C library.order hosts,bindmulti on

order：管理解析顺序。表示先使用 /etc/hosts 文件，再使用 name server 解析。bind(Berkeley Internet Name Domain)，一种开源 DNS 协议实现。（仅 glibc 2.4及更早版本生效，更新版本见 NSS
multi on：允许主机名对应多个 IP 地址，如果机器有多张网卡，就设置为 on

resolv.conf

resolv.conf 是解析器的核心配置，举例：

$> cat /etc/resolv.confoptions rotate     options timeout:2  options attempts:3  options single-request-reopennameserver 8.8.4.4nameserver 8.8.8.8

其配置项既要满足解析的基本要求：

首先，在发起查询前要填补 local domain 得到 FQDN (Fully Qualified Domain Name 全限定域名): search、ndots:n
其次，有多个 nameserver 时，需要定义查询选择的 nameserver 策略: nameserver、rotate

配置 rotate 时
- 以 Round Robin 的形式挑选 nameserver，而非每次都选择第一个，起到负载均衡的的作用。一次性请求的工具不生效，因为只有一次请求。
不配置 rotate 时
- 首先使用第一个 nameserver
- 如果请求成功，永远不会继续尝试后续的 nameserver
- 如果请求失败且尚未超时，则继续使用后续 nameserver，直至成功

再次，既然是远程调用，更要控制好请求超时时间，以及出错时的重试次数: timeout、attempts
最后，支持对返回的多个结果排序: sortlist

也要兼容历史变迁的沧桑：

首先，要兼容 IPv4 和 IPv6
其次，数据包过大时，可以 TCP 解析: use-vc
最后，兼容种种历史缺陷: single-request-reopen、single-request

gai.conf

调用 getaddrinfo 可能会返回多个结果。根据 rfc3484 / rfc6724 的要求，需要根据根据来源 IP 与结果 IP 进行最长匹配排序，以便相同子网里的 IP 在列表中排在首位，以得到成功率最高的结果。当然相关排序机制也可以通过 /etc/gai.conf 配置控制。

示例：
IPv4/IPv6双栈网络下配置IPv4链路优先

换句话说，按照最新规范，DNS 解析返回的结果应当是固定顺序的，而非 round-robin，那么当 DNS server 返回 round-robin 的结果时，就会因为解析器的排序而不生效，导致新旧版本 library 之间行为不一。

最新的规范的前提都是 IPv6，然而 IPv6 到目前位置支持的并不理想，并且考虑基于兼容性的考虑：当返回结果中仅有 IPv4 时，不适用最长匹配相关的规则，也就不会调整结果的相对顺序（稳定排序）。

Dial：连接创建

func Dial(network, address string) (Conn, error)

Golang 创建连接时，使用 Dial 连接到 named network 的地址。

已知 network 类型有：

TCP：”tcp”、”tcp4” (IPv4-only)、”tcp6” (IPv6-only)
UDP：”udp”、”udp4” (IPv4-only)、”udp6” (IPv6-only)
IP：”ip”、”ip4” (IPv4-only)、”ip6” (IPv6-only)
Unix domain socket：”unix”, “unixgram” and “unixpacket”.

Golang 默认使用双栈（IPv4&IPv6）DNS 解析，当 IPV6 不能访问时，支持 IPv6 的程序需要延迟几秒钟才能正常切换到 IPv4，为了不影响用户体验可以指定 network 为 tcp4，直接禁用 IPv6。

总结

综述，一次 DNS 解析，如果指定 network 为 TCP，在启用 IPv6 时：

Golang Resolver 会并发发出 IPv4 和 IPv6 DNS 查询请求。查询的域名服务节点是 /etc/resolv.conf 指定的递归解析器，策略：详见 resolv.conf 节
递归解析器如果从缓存中发现结果，则直接使用，否则递归查询上游的域名服务，并将结果缓存。得到结果之后，再根据路由策略返回。每一级域名服务均如是
Golang net.Dial 选择 IP 列表中的第一个 IP 建立连接

DNS 本身作为服务发现，通过轮询 DNS 提供了最基本的负载分配功能，而不能保证完美的负载均衡。对负载有极致需求的业务，建议自行负载均衡，策略参考：

动态（定时）更新 DNS 对应的 IP 列表
根据负载均衡策略从 IP 列表中选择合适的 IP
根据 IP 从连接池中获取连接，发起请求

备注：由于 Linux 发行版本众多，也有多种 Resolver 库、DNS 递归解析器，再叠加复杂的版本历史。因此本文中的众多细节仅供参考，实际情况建议使用 strace、tcpdump、ebpf tools 等工具确认

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/10-08-2023/dive-into-dns-resolution.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜getaddrinfo with round robin DNS and happy eyeballs

2023-09-06T16:00:00.000Z

这不是新闻。这只是一些事实，但似乎仍然有许多人不知道，所以我想帮助记录这些内容，以帮助教育世界。我首先会通过提供完整的背景信息来绕着主题转一转……

轮询基础

轮询 DNS一直以来都是实现粗略且廉价的负载均衡和将访问者分散到多个主机上的方法，当他们尝试使用具有静态内容的单个主机/服务时。通过在 DNS 区域中设置一条 A 记录来解析为多个 IP 地址，客户端将以半随机的方式获得不同的结果，从而在不同时间访问不同服务器：

server  IN  A  192.168.0.1server  IN  A  10.0.0.1server  IN  A  127.0.0.1

例如，如果是一个小型开源项目，那么它是一种完美的方式来提供分布式服务，该服务以单一名称出现，但由互联网上的多个分布式独立服务器托管。它也被高端网络服务器使用，例如 www.google.com 和 www.yahoo.com 。

主机名解析

如果您是一名老派黑客，如果您从 Stevens 的原著中学习了套接字和 TCP/IP 编程，如果您是在 BSD unix 环境长大，您就会知道可以使用 gethostbyname()等方法来解析主机名。这是一个 POSIX 和单一 UNIX 规范，基本上一直存在。当对给定的循环主机名调用 gethostbyname() 时，该函数返回一个地址数组。该地址列表将以看似随机的顺序排列。如果应用程序只是按照接收到的顺序遍历列表并连接它们，则轮询概念非常有效。

但 gethostbyname 不够好

gethostbyname() 只适用 IPv4，涉及 IPv6 就崩溃了。它必须被更好的东西取代。getaddrinfo () 加入，也是 POSIX（在 RFC 3943定义，并在 RFC 5014再次更新）。支持 IPv6 和更多功能的现代函数。这是世界所需要的闪亮之物！

不是直接替代品

因此，（世界好的部分）将所有调用 gethostbyname() 替换为调用 getaddrinfo() ，现在一切都支持 IPv6，一切都很好？不完全如此。因为其中涉及微妙之处。比如函数返回地址的顺序。2003 年，IETF 人员发布了 RFC 3484，详细说明了 _Internet 协议版本 6 的默认地址选择_，并以此为指导，大多数（全部？）实现现在已改为按该顺序返回地址列表。然后它将成为按“首选”顺序排列的主机列表。突然间，应用程序将按照“从 IPv6 升级路径的角度来看很聪明的顺序”，同时遍历 IPv4 和 IPv6 地址，。

getaddrinfo 没有轮询

因此，相比旧的轮询 DNS 的方法：多个地址（无论是 IPv4 或 IPv6 或两者）。随着如何返回地址的新想法，这种负载平衡方式不再有效。现在 getaddrinfo() 每次调用基本上都返回相同的顺序。我在 2005 年注意到这一点，并在 glibc 黑客邮件列表上发布了一个问题：http://www.cygwin.com/ml/libc-alpha/2005-11/msg00028.html正如您所看到的，我的问题被愉快地忽略了，并没有人回应过。顺序似乎主要由上述 RFC 和本地 /etc/gai.conf 文件决定，但如果您的目标是获得良好的轮询，两者都无济于事。其他人也注意到了这个缺陷有些人激烈争辩说这是一件坏事，当然也有相反的人声称这是正确的行为，并且无论如何，像这样做轮询 DNS 一开始就是一个坏主意。对大量常见实用程序的影响很简单，当它们启用 IPv6 时，也会同时禁用循环 DNS。

没有合适的方案

由于 getaddrinfo() 现在已经这样工作了近十年，我们可以忘掉“修复”它。。由于 gai.conf 需要本地编辑来提供不同的函数响应，因此它不是答案。但也许更糟糕的是，由于 getaddrinfo() 现在以某种优先顺序返回地址，，因此很难在顶部“粘贴”一个简单洗牌返回结果的层。洗牌需要考虑 IP 版本等因素。而且它将变得特定于应用程序，因此必须一次作用于一个程序。流行的浏览器似乎不太受到 getaddrinfo 的影响。。我的猜测是，因为他们致力于进行异步名称解析，以便名称解析不会阻塞进程，它们采取了不同的方法，因此拥有自己的代码。在 curl 情况下，即使支持IPv6，它也可以使用 c-ares 作为解析器后端构建，并且 c-ares 不提供 getaddrinfo的排序功能，因此在这些情况下，curl 将更像使用 gethostbyname 时那样与轮询 DNS 一起工作。

替代方案

我所知道的所有替代方案的缺点是它们并没有充分利用朴素 DNS。为了避免我提到的问题，您可以调整 DNS 服务器以对不同的用户做出不同的响应。这样，您既可以随机以轮询的方式响应不同的地址，也可以尝试通过 PowerDNS 的 geobackend 功能等使其变得更加智能。当然，我们都知道 A) geoip粗糙且经常错误，B) 现实世界地理位置与网络拓扑并不匹配。

happy eyeballs

在此期间，另一个与连接相关的问题出现了。事实上，IPv6 连接通常作为双栈计算机的第二个选项，而且事实上 IPv6 如今主要出现在双栈中。这可悲地惩罚了 IPv6 的早期采用者（是的，不幸的是，IPv6 仍然必须被视为早期），因为这些服务将比旧的纯 IPv4 服务慢。

对于克服这个问题的方法似乎有一个普遍的共识：happy eyeballs 方法。简而言之，它建议同时尝试两个（或所有）选项，响应最快的获胜并被使用。这就需要同时解析 A 和 AAAA 名称，如果两者都得到响应，就连接到 IPv4 和 IPv6 地址，看看哪一个连接速度最快。

这当然不仅仅是替换一两个函数的问题。要实施这种方法，您需要做一些全新的事情。例如，仅执行 getaddrinfo() + 循环地址并尝试 connect() 根本不起作用。您基本上要么启动两个线程，并在一个线程中执行 IPv4-only 路由，并在另一个线程中执行 IPv6 路由，_或者 _您必须发出非阻塞解析器调用以在同一线程中并行执行 A 和 AAAA 解析，并且当第一个响应到达时，您会触发非阻塞 connect() …

我的观点是，无论如何，在您良好的旧套接字应用程序中引入 Happy Eyeballs 都需要进行一些相当大的改造。这样做很可能还会影响您的应用程序处理轮询 DNS 的方式，因此现在您有机会重新考虑您的选择和代码！

原文： getaddrinfo with round robin DNS and happy eyeballs

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/09-07-2023/getaddrinfo-with-round-robin-dns-and-happy-eyeballs-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

go-redis 超时机制

2023-08-19T16:00:00.000Z

近期有同事问了一个问题：

使用 go-redis 作为 client 访问 redis cluster。ReadTimeout 配置为 1 ms，但请求整体耗时 76 ms，并且成功返回（没有超时）。
为什么 ReadTimeout 没有生效？

超时控制

弄清楚这个问题，最简单的做法是查看源码。go-redis 命令处理的逻辑在 func (c *baseClient) _process(ctx context.Context, cmd Cmder, attempt int) (bool, error) 方法。

func (c *baseClient) _process(ctx context.Context, cmd Cmder, attempt int) (bool, error) {// ...if err := c.withConn(ctx, func(ctx context.Context, cn *pool.Conn) error {        // 写入请求if err := cn.WithWriter(c.context(ctx), c.opt.WriteTimeout, func(wr *proto.Writer) error {return writeCmd(wr, cmd)}); err != nil {atomic.StoreUint32(&retryTimeout, 1)return err}        // 读取响应if err := cn.WithReader(c.context(ctx), c.cmdTimeout(cmd), cmd.readReply); err != nil {if cmd.readTimeout() == nil {atomic.StoreUint32(&retryTimeout, 1)} else {atomic.StoreUint32(&retryTimeout, 0)}return err}return nil}); err != nil {retry := shouldRetry(err, atomic.LoadUint32(&retryTimeout) == 1)return retry, err}return false, nil}

该方法负责根据配置控制重试次数：

c.withConn：从连接池获取链接。
cn.WithWriter：发送请求到连接。即，实际使用 opt.WriteTimeout 的地方
cn.WithReader：接收连接上的响应。即，实际使用 opt.ReadTimeout 的地方
由于 Redis 存在阻塞式命令，因此首先调用 c.cmdTimeout 判断是否存在命令维度的读超时时间（优先级：命令维度 > Client 维度）。

打开 WithReader 可以看到 cn.deadline 计算读取的截止时间并设置给 conn (注意：截止时间为绝对时间，因此连接复用时，需要在每次调用前更新截止时间) 。

func (cn *Conn) WithReader(ctx context.Context, timeout time.Duration, fn func(rd *proto.Reader) error,) error {if timeout >= 0 {if err := cn.netConn.SetReadDeadline(cn.deadline(ctx, timeout)); err != nil {return err}}return fn(cn.rd)}func (cn *Conn) deadline(ctx context.Context, timeout time.Duration) time.Time {tm := time.Now()cn.SetUsedAt(tm)if timeout > 0 {tm = tm.Add(timeout)}if ctx != nil {deadline, ok := ctx.Deadline()if ok {if timeout == 0 {return deadline}if deadline.Before(tm) {return deadline}return tm}}if timeout > 0 {return tm}return noDeadline}

计算逻辑比较简单，取最小的截止时间 min(Context Deadline, Read Deadline)

Context Deadline = context.Deadline()
Read Deadline = time.Now().Add(opt.ReadTimeout)

协程调度

不妨再深入底层，net 包的调用直接向下传递给 netFD

type conn struct {    fd *netFD}// Read implements the Conn Read method.func (c *conn) Read(b []byte) (int, error) {    if !c.ok() {        return 0, syscall.EINVAL    }    return c.fd.Read(b)}// SetReadDeadline implements the Conn SetReadDeadline method.func (c *conn) SetReadDeadline(t time.Time) error {    if !c.ok() {        return syscall.EINVAL    }    return c.fd.setReadDeadline(t)}

netFD 是最终调用 poll.FD 相关的函数。从 poll.FD 的名字可以看出，它是调度器的一部分，也是文件描述符（fd）的封装。

poll.FD 通过 syscall.Read 读取数据，该调用为非阻塞的。如果 I/O 就绪，则将数据从内核缓存区拷贝到用户缓冲区，并返回拷贝的字节数。如果发生错误，则判断错误类型：

EAGAIN 类型错误，说明内核缓冲区为空，未读取到任何数据，则将 goroutine 自身挂起
其他错误，则返回给调用者

// Network file descriptor.type netFD struct {pfd poll.FD// ...}func (fd *netFD) Read(p []byte) (n int, err error) {n, err = fd.pfd.Read(p)runtime.KeepAlive(fd)return n, wrapSyscallError(readSyscallName, err)}type FD struct {}func (fd *FD) Read(p []byte) (int, error) {// ...if fd.IsStream && len(p) > maxRW {p = p[:maxRW]}for {        // 通过 syscall.Read 读取数据n, err := ignoringEINTRIO(syscall.Read, fd.Sysfd, p)         // 如果发生错误，则判断错误类型：        // - EAGAIN 类型错误，内核缓冲区为空，未读取到任何数据        // - 其他错误，则返回给调用者if err != nil { n = 0            // 挂起前检查if err == syscall.EAGAIN && fd.pd.pollable() {if err = fd.pd.waitRead(fd.isFile); err == nil {continue}}}err = fd.eofError(n, err)return n, err}}func (pd *pollDesc) waitRead(isFile bool) error { return pd.wait('r', isFile) }func (pd *pollDesc) wait(mode int, isFile bool) error {if pd.runtimeCtx == 0 {return errors.New("waiting for unsupported file type")}    // 挂起协程res := runtime_pollWait(pd.runtimeCtx, mode)return convertErr(res, isFile)}

在 I/O 就绪或超时，Golang 调度器将挂起的 goroutine 重新调入执行。

 func convertErr(res int, isFile bool) error {switch res {case pollNoError: // I/O 就绪return nilcase pollErrClosing: // 连接关闭return errClosing(isFile)case pollErrTimeout: // 读写超时return ErrDeadlineExceededcase pollErrNotPollable:return ErrNotPollable}println("unreachable: ", res)panic("unreachable")}

调度器相关细节，后续再深入探讨。

Buffer Reader/Writer

conn 可读就会执行 go-redis 的 cmd.readReply。连接创建时，conn 的读写操作被封装为 bufio.Reader。

// ---------- internal/pool/conn.go--------type Conn struct {usedAt  int64 // atomicnetConn net.Connrd *proto.Readerbw *bufio.Writerwr *proto.WriterInited    boolpooled    boolcreatedAt time.Time}func NewConn(netConn net.Conn) *Conn {cn := &Conn{netConn:   netConn,createdAt: time.Now(),}cn.rd = proto.NewReader(netConn)cn.bw = bufio.NewWriter(netConn) // buffer writercn.wr = proto.NewWriter(cn.bw)cn.SetUsedAt(time.Now())return cn}// ---------- proto/reader.go--------package prototype Reader struct {rd *bufio.Reader}func NewReader(rd io.Reader) *Reader {return &Reader{rd: bufio.NewReader(rd), // buffer reader}}

在超过截止时间之前，内核缓冲区内的 reply 数据已就绪，cmd.readReply 就可以借助 bufio.Reader 通过一次或多次 Read 调用，将已就绪的数据从内核换冲突拷贝到用户缓冲区。否则， Read 调用就会因为超过截止时间返回 ErrDeadlineExceeded。

分析验证

最后，可以猜测为什么会出现本文开头的现象：

Read 所需的数据就绪并没有超过 1 ms
76 ms 可能包含了其他耗时，包括但不限于：Goroutine 调度、排队等待、DNS 解析、TCP 握手…

后续同事配合一起调整 min idle conn 大小之后，相关延迟毛刺消失。

总结

go-redis 超时控制说复杂也复杂，说简单也简单。相关参数集中起来，可以汇总成以下这张图：

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/08-20-2023/go-redis-connection-timeout.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

深入理解 Redis cluster GOSSIP 协议

2023-07-03T16:00:00.000Z

背景

GOSSIP 是一种分布式系统中常用的协议，用于在节点之间传播信息，维护集群拓扑结构。通过 GOSSIP 协议，Redis Cluster 中的每个节点都与其他节点进行通信，并共享集群的状态信息，最终达到所有节点拥有相同的集群状态。

在 Redis Cluster 中，Slot 和 Node 是两个关键概念，用于实现数据分片和高可用性。它们分别代表以下内容：

Slot（槽）：Slot 是 Redis Cluster 分割数据的基本单位。数据被分成 16384 个槽，每个槽都可以存储一个键值对。槽的范围是从 0 到 16383。Redis Cluster 使用哈希函数将键映射到特定的槽，从而决定了数据在集群中的分布。
Node（节点）：Node 是 Redis Cluster 中的一个实例或服务节点。每个节点都是一个独立的 Redis 服务，并负责管理一部分槽的数据。每个节点可以担任主节点或从节点的角色。主节点负责处理客户端请求和写入操作，而从节点复制主节点的数据，并处理读取请求。

区分两个概念是为了实现水平扩展，当集群需要扩展时，可以添加新的节点并将一部分槽分配给它。

GOSSIP 协议的核心作用也跟这两个概念强相关，通过 GOSSIP：

构建和维护了集群的槽分配图，包括槽的分配情况（即每个节点负责哪些槽），使得每个节点能够了解其他节点负责的槽信息。
构建和维护了集群的拓扑视图，包括节点的 ID、IP 地址、端口等，使得每个节点了解集群中其他节点的位置和角色。
负责集群的故障转移，包括节点的状态（flags）、GOSSIP 更新时间，使得每个节点能够共同感知故障，进行故障转移和数据恢复。

协议简化

在大规模的集群中，节点的数量可能非常多，节点之间的通信变得非常复杂。由于 GOSSIP 的理解难度，当集群出现问题时，排查和复现问题的难度非常高。为了更好的理解 GOSSIP 协议，就需要有合适的策略将问题简化。

观察 Redis cluster 集群的拓扑，表现出高度的对称性。在数学中，如果一个问题具有对称性，可以利用该性质来简化计算或者找到更简洁的解决方案。利用对称性，可以对集群拓扑进行两次简化，假设集群节点数为 N：

第一次：将 N^N 的通信问题简化为 1^N 问题。即，如何更新 N 个节点中关于一个节点的 POV 信息（Point-of-view）
第二次：将 1^N 的通信问题简化为 1^1 问题。即，如何更新一个节点中关于另外一个节点的 POV 信息（Point-of-view）

最终将 GOSSIP 简化为如下拓扑，其中 Node B 是 GOSSIP 消息的发送方，Node A 是消息接收方：

POV 更新

从 Redis 源代码易知，GOSSIP 消息主要包括消息头（clusterMsg ）和消息体（clusterMsgData）两部分，结构体定义如下：

// 集群消息的结构（消息头，header）typedef struct {    char sig[4];        /* Siganture "RCmb" (Redis Cluster message bus). */    // 消息的长度（包括这个消息头的长度和消息正文的长度）    uint32_t totlen;    /* Total length of this message */    uint16_t ver;       /* Protocol version, currently set to 0. */    uint16_t notused0;  /* 2 bytes not used. */    // 消息的类型    uint16_t type;      /* Message type */    // 消息正文包含的节点信息数量    // 只在发送 MEET 、 PING 和 PONG 这三种 Gossip 协议消息时使用    uint16_t count;     /* Only used for some kind of messages. */    // 消息发送者的配置纪元    uint64_t currentEpoch;  /* The epoch accordingly to the sending node. */    // 如果消息发送者是一个主节点，那么这里记录的是消息发送者的配置纪元    // 如果消息发送者是一个从节点，那么这里记录的是消息发送者正在复制的主节点的配置纪元    uint64_t configEpoch;   /* The config epoch if it's a master, or the last                               epoch advertised by its master if it is a                               slave. */    // 节点的复制偏移量    uint64_t offset;    /* Master replication offset if node is a master or                           processed replication offset if node is a slave. */    // 消息发送者的名字（ID）    char sender[REDIS_CLUSTER_NAMELEN]; /* Name of the sender node */    // 消息发送者目前的槽指派信息    unsigned char myslots[REDIS_CLUSTER_SLOTS/8];    // 如果消息发送者是一个从节点，那么这里记录的是消息发送者正在复制的主节点的名字    // 如果消息发送者是一个主节点，那么这里记录的是 REDIS_NODE_NULL_NAME    // （一个 40 字节长，值全为 0 的字节数组）    char slaveof[REDIS_CLUSTER_NAMELEN];    char notused1[32];  /* 32 bytes reserved for future usage. */    // 消息发送者的端口号    uint16_t port;      /* Sender TCP base port */    // 消息发送者的标识值    uint16_t flags;     /* Sender node flags */    // 消息发送者所处集群的状态    unsigned char state; /* Cluster state from the POV of the sender */    // 消息标志    unsigned char mflags[3]; /* Message flags: CLUSTERMSG_FLAG[012]_... */    // 消息的正文（Body），包括 PING/PONG/UPDATE/MODULE/FAIL/PUBLISH 等类型    union clusterMsgData data;} clusterMsg;

POV 的是 clusterState，结构体定义如下：

// 集群状态，每个节点都保存着一个这样的状态，记录了它们眼中的集群的样子。typedef struct clusterState {    // 指向当前节点的指针    clusterNode *myself;  /* This node */    // 集群当前的配置纪元，用于实现故障转移    uint64_t currentEpoch;    // 集群当前的状态：是在线还是下线    int state;            /* REDIS_CLUSTER_OK, REDIS_CLUSTER_FAIL, ... */    // 集群中至少处理着一个槽的节点的数量。    int size;             /* Num of master nodes with at least one slot */    // 集群节点名单（包括 myself 节点）    // 字典的键为节点的名字，字典的值为 clusterNode 结构    dict *nodes;          /* Hash table of name -> clusterNode structures */    // ...        // 负责处理各个槽的节点    // 例如 slots[i] = clusterNode_A 表示槽 i 由节点 A 处理    clusterNode *slots[REDIS_CLUSTER_SLOTS];        // ....    } clusterState;

将抽象的结构体定义转换为更容易理解的图形：

再看 Redis 对 GOSSIP 消息的处理，消息头和消息体的处理是不一样的。消息头更新消息发送者槽位分配图，而消息体更新集群拓扑及故障转移状态

集群管理缺陷

自 Redis 3.0 支持 Redis cluster 之后，集群管理的机制几乎没有太大变化。由于缺少理论的支持，社区也出现过集群管理相关的缺陷——集群槽分配不一致，（Issue #2969、Issue #3776、Issue #6339），但由于其中的复杂度，该问题并没有得到很好的解决，相关的的测试用例（21-many-slot-migration.tcl）一直没有启用。官方的临时解决方案是提供了问题检测和修复的命令行工具 redis-cli –cluster。

同样的问题，在我们的生产环境也数次出现，急需解决。根据本文上述的分析，回看槽位的更新逻辑

/* We rebind the slot to the new node claiming it if: * 1) The slot was unassigned or the new node claims it with a *    greater configEpoch. * 2) We are not currently importing the slot. */if (server.cluster->slots[j] == NULL ||    server.cluster->slots[j]->configEpoch < senderConfigEpoch){    // ...    if (server.cluster->slots[j] == curmaster) {        newmaster = sender;        migrated_our_slots++;    }    clusterDelSlot(j);    clusterAddSlot(sender,j);    clusterDoBeforeSleep(CLUSTER_TODO_SAVE_CONFIG|                         CLUSTER_TODO_UPDATE_STATE|                         CLUSTER_TODO_FSYNC_CONFIG);}

可知两点：

槽位总是被新 Master 认领走，已经失去槽位的旧 Master 不会对其有任何更新操作。
槽位总是被其归属节点的 configEpoch 看守。由于 Redis 是单线程执行，可以一定程度的将 configEpoch 理解为槽位更新的看守。

槽位的归属总是跟 configEpoch 息息相关，要理解缺陷出现的原因，就一定要去理解 configEpoch 是怎么更新的。

检索 configEpoch 更新的逻辑可知，Redis 节点仅在以下情况更新自己的 config Epoch（操作总是 currentEpoch++； configEpoch = currentEpoch）：

从节点晋升为主节点
当从节点晋升为新的主节点时，它会将自己的 configEpoch 设为当前集群的 currentEpoch（当前纪元）+ 1。新的主节点就拥有了一个独立且更高的 configEpoch，以表示它接管了原主节点的角色。
故障转移
当执行故障转移时，即使用 CLUSTER FAILOVER 命令时，从节点会请求成为新的主节点。currentEpoch 会增加1，更新为自己的 configEpoch，以表示集群配置的变更。
槽位迁移
当槽位迁移完成时，IMPORTING 的节点（接收槽位的节点）会在迁移完成后将 currentEpoch 增加 1 ，更新为自己的 configEpoch，以表示它接管了相应的槽位
configEpoch 冲突
当节点从 GOSSIP 消息中发现其他节点的 configEpoch 与其 configEpoch 冲突（相同）时。解决冲突的方式是，此节点与具有冲突纪元的其他节点（“发送方”节点）Node ID 字典序较小的节点，将 currentEpoch 增加 1，更新为自己的 configEpoch
当创建新集群时，所有节点都以相同的 configEpoch 开始（默认是0）。冲突解决函数可以让节点在启动时自动以不同的 configEpoch 结束。

总而言之，configEpoch 更新时，槽位归属并不总是更新；反之，槽位归属更新时，configEpoch 必然更新。

根据以上知识，侧重 configEpoch 与槽位的更新重新调整 POV 更新 如下图：

在第三种情况下，Redis cluster 的集群管理操作总是有一定概率出现无法恢复的冲突。即

在 POV 中，如果旧的 Master 有一个已经迁出的槽位尚未被新 Master 认领，单独更新 configEpoch 之后，槽位将被旧 Master 的新 configEpoch 看守起来。
旧 Master 在将此槽位迁到新 Master 之后，其 configEpoch 可能再次增加。即，旧 Master 的 configEpoch 比新 Master 的 configEpoch 更大。新 Master 就无法认领该槽位。最终造成该槽位的归属错乱。

具体示例、解释可以参考 Pull Request #12336。

总结

由于 Redis 高性能的要求，Redis 的分布式注定无法使用 Raft 等强一致的协议同步进行一致性协商。虽然 Redis cluster GOSSIP 较为复杂且缺少理论论证，仍然成为目前为止去中心化架构下的最佳选择（社区更偏爱去中心化，头部科技公司反之）。理解 Redis cluster GOSSIP 协议，是使用该架构开发者的必修课。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/07-04-2023/redis-cluster-gossip.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

如何应对系统热点的挑战

2023-06-12T16:00:00.000Z

背景

假设单个有状态实例支撑 1 W QPS，如果有 500 个实例，你可能会期望它们能够支撑 500 * 1W = 500W QPS 的流量。然而，实际情况可能会更为复杂。在实际系统中，添加多个实例并不总是线性地提高性能。

数据通常按照键进行分片。当你将数据分布在多个实例上时，不同的键可能被映射到不同的实例。如果你的访问模式导致某些键频繁被访问，而其他键很少被访问，那么可能会导致某些实例负载过高，而其他实例相对空闲。例如，如果某些热点键（hot keys）集中在同一实例，该实例可能会成为瓶颈。最终超过系统的承载能力，导致系统崩溃或性能下降。

处理热点数据是分布式系统中的常见挑战之一，如果预先知道某些键可能成为热点，可以将这些键手动分片到不同的实例。这样可以避免多个热点集中在同一个实例，实现负载均衡。

当然，也有一些通用的解决方案，包括：

缓存：将热点缓存到无状态服务中，减轻对热点集中的实例负载，提高系统性能。
动态分片：根据实时的负载情况，采用动态分片策略。如果某个键的访问频率增加，可以将其重新分片到其他实例，以实现负载均衡。
数据复制：特别重要的热点，可以将其复制到多个实例，将负载分散到多个实例。

此三者的第一步是一致的，首先要识别哪些数据是热点。

哈希表

如果你希望知道系统中哪些数据是频繁访问的，哈希表是一种有效的数据结构。你可以使用数据作为键，将访问次数作为值存储在哈希表中。每次访问数据项时，增加对应键的值。通过统计访问次数，你可以识别出热点数据。

当系统中的数据量很大时，哈希表的内存占用可能会成为一个问题。如果数据集非常庞大，可能需要考虑使用分布式存储或其他高效的数据结构来处理统计信息。

LRU

数据集庞大的场景，另外一个容易想到替代哈希表的选择是 LRU 缓存算法。

首先，LRU 算法因为是基于访问时间的顺序来进行缓存数据的淘汰，会相对较少淘汰热点数据，从而一定程度上减轻了 Hotkey 的影响。它没有识别出有效的热点数据，因此无法有效将热点数据均匀分散到多个实例。

其次，在缓存大小一定的前提下，LRU 算法的效果受数据集大小的影响。访问的数据集越大，效果越差。

最后，在极端要求的场景下，未优化的引入 LRU 会潜在带来延迟和性能方面的影响。

内存释放顺序导致的延迟增加
LRU 前：
请求到达——分配内存——返回结果——释放内存
LRU 后：
请求到达——分配内存——【缓存结果/淘汰内存】——返回结果
离散读写导致的锁冲突。
即使利用分片降低锁粒度，相比批量定时更新缓存，离线读写导致的锁冲突的概率仍然跟读写请求量正相关。当离散的将数据加入缓存，写入线程持有写锁时，其他线程无法获取读锁或者写锁，需要等待写锁释放，导致线程阻塞和上下文切换。

Heavy hitter

在大数据处理中，此类问题称之为：”Heavy hitter problem（Top K problem）”。类似的问题还有。在网络流量分析中，找出最常见的IP地址或协议可以帮助我们识别潜在的攻击或瓶颈。在广告领域，识别最热门的广告内容可以帮助优化广告投放和资源分配。

常见的解决 “heavy hitter” 问题的算法包括：

Misra-Gries：实现较为简单，节省空间，但精度稍低。
Count-Min Sketch(CMS)：团队同事力推的一个算法， CDN 识别热点，主动下推。但。采用类似 Bloom filter 的思想，牺牲了一定的准确度。见于缓存组件： Caffeine、ristretto。
Space-saving(SS)：精度高，复杂度也更高一些。

三个算法的 Golang 版本实现对比来看：CMS 算法使用哈希算法，如果数据不够离散，准确度下降的厉害（CDN 场景哈希文件名是由 MD5 生成，自然不成问题）；SS 算法相对来说更为稳定，虽然性能稍差，但可通过采样降低数据处理的量来降低性能的损耗。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/06-13-2023/heavy-hitter.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

如何配置 go-redis 连接池

2023-06-04T16:00:00.000Z

连接池是各种服务绕不过去的模块，它在调用链路的上下游之间建立了一个缓冲区。客户端可以从连接池中获取连接来执行数据库操作，完成后将连接返回给连接池，而不是每次都建立新的连接。

连接池的作用显而易见：

提高性能：连接池可以减少连接的创建和销毁过程，避免了频繁地与服务端建立物理连接的开销，从而提高了客户端的性能和响应速度。
节省资源：服务端连接是一种有限的资源，每个连接都占用着内存等系统资源。连接池可以限制连接的数量，避免过多的连接导致资源的浪费，提高了系统的资源利用率。
连接的复用：连接池可以重复利用已经建立的连接，避免了频繁地创建和销毁连接的开销，提高了服务端的并发性能。

但是，连接池配置众多，根据业务特征调整好连接池并不容易。

go-redis 连接池的配置参数包括：

- DialTimeout  # Dial timeout for establishing new connections.- ReadTimeout  # Timeout for socket reads. If reached, commands will fail with a timeout instead of blocking.- WriteTimeout  # Timeout for socket writes. If reached, commands will fail with a timeout instead of blocking.- PoolFIFO  # Type of connection pool. true for FIFO pool, false for LIFO pool.- PoolSize  # Maximum number of socket connections.- PoolTimeout  # Amount of time client waits for connection if all connections are busy before returning an error.- MinIdleConns  # Minimum number of idle connections which is useful when establishing new connection is slow.- MaxIdleConns  # Maximum number of idle connections.- ConnMaxIdleTime  # ConnMaxIdleTime is the maximum amount of time a connection may be idle.- ConnMaxLifetime  # Expired connections may be closed lazily before reuse.

误区一： DialTimeout 设置过小

DialTimeout（拨号超时）用于指定建立网络连接的超时时间。当客户端尝试连接到服务端时，如果在 DialTimeout 指定的时间内无法建立连接，连接操作将超时失败。它通常包括域名解析、建立 TCP 连接等步骤的超时时间。

DialTimeout 设置过小，可能会导致服务由于无法成功建立连接，启动失败。尤其是使用 DNS 作为服务发现以及跨 IDC 调用的场景下。

go-redis 默认是 5 s。3~5 s 是比较合适的，可以直接使用默认值。

误区二： PoolSize 设置不合理

如果连接池的大小设置过小，无法满足应用程序的并发需求，可能会导致连接不足的问题，影响应用程序的性能和响应速度。

如果连接池的大小设置过大，最大连接总数超过服务端最大连接数。在业务请求峰值时，会出现新建连接失败导致的请求失败。

那怎么评估连接池大小呢？

假如请求服务端的平均延迟是 duration ms，客户端进程的峰值 QPS 是 qps。单个连接 1 秒（1000）能否处理的请求总数是 1000 / duration；同时，预留一定的 Buffer 连接数 buffer 给请求变慢或请求量因为需求变化增加等场景。那么合适的连接池大小为：

PoolSize = qps / (1000 / duration) + buffer

误区三：ConnMaxLifetime 设置不当

如果连接生存时间设置得过短，则可能频繁地创建和销毁连接，影响性能。此问题比较容易理解。

如果连接生存时间设置得过长，可能会导致连接过期或失效。举个极端的例子，不设置连接生存时间。

考虑以下场景

场景一：
服务端新版本发布。假如该服务有两个实例 A、B。考虑发布过程，首先，A 升级重启，连接全部请求到 B。然后，B 升级重启，连接全部回到 A。因为没有设置连接生存时间，调用 A 不出现错误的前提下，连接永远不均匀。
场景二：
客户端到服务端短暂网络异常。假如该服务有两个实例 A、B，新建连接的机制是 Round Robin。考虑到 B 的网络异常，导致请求全部断开。然后客户端开始新建连接，到 B 的连接全部失败，最终连接池的中的连接全部连接到 A。因为没有设置连接生存时间，调用 A 不出现错误的前提下，连接永远不均匀。

go-redis 该设置默认关闭。为避免类似问题，连接生存时间一般建议配置为小时级，既避免频繁地创建和销毁连接，影响性能；同时也避免连接不均匀。

误区四：PoolFIFO 设置不当

在连接池中连接到服务端每个实例的连接数大致均匀的前提下。客户端从连接池获取连接发起请求，本质来说是一个负载均衡的问题。常见的负载均衡算法包括：

Round-Robin(FIFO)
Random
Weighted Round Robin
Weighted Random
Hashing

很显然，go-redis 默认使用的 LIFO 并不在列。

LIFO 并不适合作为负载均衡算法的选择。因为 LIFO 会优先处理最近使用过的连接，这可能会导致某些服务实例负载过重，而其他的服务实例却得不到充分的利用。这种不均衡的分配会影响系统的可用性、性能和容错能力。

因此，在使用 go-redis 时，PoolFIFO 应永远设置为 true。

附：连接池图例

连接使用：获取/释放流程图

连接管理：连接状态机

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/06-05-2023/go-redis-connection-pool.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜A scalable, commodity data center network architecture

2023-05-09T16:00:00.000Z

摘要

当今的数据中心可能包含数万台计算机，具有巨大的总带宽需求。网络架构通常是由路由器和交换机等元件构成的一棵树，网络层次结构越靠上，设备越专业化、越昂贵。不幸的是，即使部署最高端的 IP 交换机/路由器，所得拓扑也只能支持网络边缘可用总带宽的 50%，同时仍然产生巨大的成本。数据中心节点之间的非均匀带宽，使应用程序设计复杂化，并限制了整个系统性能。

在本文中，我们展示了如何利用大量商用以太网交换机来支持由数万个元件组成的集群的全部总带宽。与商用计算机集群在很大程度上取代了更专业化的 SMP 和 MPP 类似，我们认为适当架构和互连的商用交换机，能以更低的成本提供比现有高端解决方案更高的性能。我们的方法不需要对终端主机网络接口、操作系统或应用程序进行任何修改；关键是，它完全后向兼容以太网、IP和TCP。

1. 介绍

越来越多的专业知识使许多机构能够以经济高效的方式运用兆亿次浮点运算能力和兆字节存储能力。数万台 PC 组成的集群在最大机构中并不少见，在大学、研究实验室和公司中千节点集群日益普遍。重要应用类别包括科学计算、金融分析、数据分析和仓储以及大规模网络服务。

如今，大型集群中主要瓶颈通常是节点间通信带宽。许多应用程序必须与远程节点交换信息才能继续进行本地计算。例如，MapReduce 必须执行大量数据洗牌（shuffling），以传输 map 阶段输出，然后才能继续进行 reduce 阶段。在基于集群的文件系统上运行的应用程序通常需要远程节点访问才能继续执行其 I/O 操作。搜索引擎查询通常需要与集群中存储倒排索引的每个节点进行并行通信，以返回最相关的结果。甚至逻辑上不同的集群之间，通常也存在重要的通信需求，例如，从负责构建索引的站点更新各个执行搜索的集群的倒排索引时。互联网服务越来越多地采用面向服务的架构，检索单个网页可能需要与远程节点上运行的数百个单独子服务进行协调和通信。最后，并行科学应用程序的重大通信需求众所周知。

大型集群的通信矩阵有两种高层选择。一种选择是利用专用硬件和通信协议，如 InﬁniBand 或 Myrinet。虽然这些解决方案可以伸缩到具有高带宽的数千个节点的集群，但它们不利用商用零件（因此更昂贵），并且与 TCP/IP 应用程序不兼容。第二种选择是利用商用以太网交换机和路由器来互连集群机器。这种方法支持熟悉的管理基础设施以及未修改的应用程序、操作系统和硬件。不幸的是，集群带宽不能很好的随着集群规模伸缩，并且实现最高水平带宽会随着集群规模呈非线性增长。

由于兼容性和成本原因，大多数集群通信系统遵循第二种方法。然而，在大型集群中，由于通信模式的不同，通信带宽可能会被超分使用。也就是说，连接到同一物理交换机的两个节点可能能够以全带宽（例如 1Gbps）进行通信，但在交换机之间移动，可能跨越多个层次结构层次，可用带宽可能会严重受限。解决这些瓶颈需要非商用解决方案，例如大型 10Gbps 交换机和路由器。此外，典型的沿着相互连接的交换机树的单路径路由，意味着整个集群的带宽受到通信层次结构根部可用带宽的限制。即使我们处于一个转折点，10Gbps 技术正在变得具有成本竞争力，最大的 10Gbps 交换机仍然产生巨大的成本，并且仍然限制了最大集群的整体可用带宽。

在这种情况下，本文的目标是设计一种数据中心通信架构，满足以下目标：

可伸缩的互连带宽：数据中心中的任意主机应该能够以其本地网络接口的全带宽与网络中的任何其他主机通信
规模经济：正如商用个人电脑成为大型计算环境的基础一样，我们希望利用同样的规模经济，使廉价的现成以太网交换机成为大型数据中心网络的基础。
向后兼容性：整个系统应该后向兼容运行以太网和 IP 的主机。也就是说，现有的数据中心几乎都是利用普通以太网和运行IP，应该能够在不作任何修改的情况下利用新的互联架构。

通过在胖树（fat-tree）结构中互连商用交换机，可以实现由数万个节点组成的集群的双工带宽。具体来说，我们的架构实例使用 48 端口以太网交换机，能够为多达 27,648 个主机提供全带宽。通过完全使用商用交换机，我们实现了比现有解决方案更低的成本，同时提供了更多的带宽。我们的解决方案不需要对终端主机进行任何更改，完全兼容 TCP/IP，只对交换机本身的转发功能进行适度修改。我们还预计，一旦 10 GigE 交换机在集群边缘商用，我们的方法将是唯一一种能够为大型集群提供全带宽的方法，因为目前没有任何更高速度以太网替代方案（无论成本多少）。即使更高速度以太网解决方案可用，它们最初也会以巨大的成本得到小的端口密度。

2. 背景

2.1 当前数据中心网络拓扑

我们进行了一项研究，以确定当前数据中心通信网络的最佳实践。我们在这里关注利用以太网和 IP 的商用设计；我们在第 7 节讨论我们的工作与替代技术的关系。

2.1.1 拓扑

当前典型的架构由两层或三层树形交换机或路由器组成。三层设计（见图 1）树的根部是核心层，中间是聚合层，树的叶子处是边缘层。两层设计只有核心和边缘层。通常，两层设计可以支持 5K 到 8K 台主机。由于我们的目标大约是 25,000 台主机，因此我们将注意力聚焦在三层设计上。树叶处的交换机具有一些 GigE 端口（48-288）以及一些 10 GigE 上行链路到一个或多个网络元件层，这些元件聚合和传输叶子交换机之间的数据包。在层次结构的更高层，有具有 10 GigE 端口（通常为 32-128）和显著交换能力的交换机来聚合边缘之间的流量。

术语“：交换机” 指代执行二层交换和三层路由的设备。

假设使用两种类型的交换机，它们分别代表端口密度和带宽方面的高端型。前者，用于树的边缘，是一个带有四个 10 GigE 上行链路的 48 端口 GigE 交换机。对于通信层次结构的更高层，我们考虑 128 端口 10 GigE 交换机。两种类型的交换机都允许所有直连的主机彼此相互通信。

2.1.2 超分

许多数据中心设计引入超分作为降低设计总成本的手段。我们定义超分这个术语为终端主机之间最坏情况下可实现的总带宽与特定通信拓扑双工带宽之比。超分比为 1:1 表示所有主机可与任意其他主机以其网络接口的全带宽（例如，商用以太网设计中的 1 Gb/s）进行通信。超分值为 5:1 意味着只有 20% 的可用主机带宽可用于某些通信模式。典型设计超分比为 2.5:1 （400 Mbps) 至 8:1 （125 Mbps)。尽管对于 1 Gb/s 的以太网，可以实现超分比为 1:1 的数据中心，但正如我们在第 2.1.4 节中所述，这种设计的成本通常是令人望而却步的，即使对于中等规模的数据中心也是如此。当超越单台交换机时，为 10 Gb/s 的以太网实现双工带宽目前是不可能的。

2.1.3 多路径路由

在大型集群中，实现任意主机之间的全带宽需要一个具有多个核心交换机的“多根”树（见图 1）。这反过来需要多路径路由技术，例如 ECMP。目前，大多数企业核心交换机都支持 ECMP。如果不使用 ECMP，则仅使用单根核心的 1:1 超分的集群最大大小将受到限制，最多为 1,280 个节点（对应于单个 128 端口 10 GigE 交换机的带宽）。

为了利用多条路径，ECMP 对流进行静态 负载分割 。在进行分配决策时，并未考虑流带宽，即使是简单的通信模式也可能导致超分。此外，当前的 ECMP 实现将路径的多样性限制在 8-16 之间，通常比大型数据中心所需的高双工带宽多样性更少。此外，路由表条目标数量随着考虑的路径数量成倍增长，这增加了开销与查找延迟。

2.1.4 成本

为大型集群构建网络互连的成本极大地影响了设计决策。正如我们上面所讨论的，超分通常是为了降低总成本。在这里，使用当前最佳实践，我们给出了不同数量主机和超分配置的粗略成本。假设每个边缘的 48 端口 GigE 交换机的成本为 $7,000，聚合和核心层中的 128 端口 10 GigE 交换机的成本为 $700,000。在这些计算中，不考虑布线成本。

图 2 绘制了以百万美元为单位的成本与 x 轴上终端主机总数之间的关系。每条曲线代表目标超分比。例如，连接 20,000 台主机，并在所有主机之间提供全带宽的交换硬件约为 $37M。3∶1 超分比的曲线绘制了连接终端主机的成本，任意终端主机之间通信可用的最大带宽将限制在约 330 Mbps。图中还包括，胖树架构超分比为 1:1 的交付成本，以进行比较。

总的来说，我们发现使用现有技术为大型集群提供高水平带宽会产生巨大成本，而且基于胖树的集群互连在以适中的成本提供可伸缩带宽方面潜力巨大。然而，在某种意义上，图 2 低估了在构建数据中心架构中使用最高端的组件的难度和成本。2008 年，10 GigE 交换机即将成为商用零件；GigE 与 10 GigE 交换机相比，每端口每比特/秒价格差约为 5 倍，并且这种差值还在继续缩小。为了探究历史趋势，在表 1 中展示了特定年份中使用可用的最高端的交换机所支持的最大集群配置的成本。历史研究数据来自于各高端 10 GigE 交换机供应商 2002 年、2004 年、2006 年和 2008 年的产品公告。

使用我们的发现构建当年技术能够支持的、超分比为 1:1 的、最大集群配置。表 1 显示了特定年份可用的最大 10 GigE 交换机；在核心和聚合层中使用这些交换机进行分层设计。表格还显示了该年份可用的最大商用 GigE 交换机；在胖树的所有层和分层设计的边缘层中使用这些交换机。

传统技术采用高端交换机支持的最大集群大小一直受到可用端口密度的限制，直到最近。此外，当 10 GigE 交换机最初可用时，高端交换机成本让人望而却步。请注意，我们对传统层次结构的计算比较慷慨，因为聚合层的商用 GigE 交换机直到最近才有必要的 10 GigE 上行链路。相比之下，基于胖树拓扑的集群具有很好的可伸缩性，总成本下降的更早且更快（因为它更早地遵循商用定价趋势）。此外，在胖树拓扑中也不需要高速上行链路。

最后，值得注意的是，今天，技术上不可能构建一个具有 27,648 个节点，节点之间仅有 10 Gbps 带宽的集群。另一方面，胖树交换架构采用近乎商用的 48 端口 10 GigE 交换机，产生超过 6.9 亿美元的成本。虽然在大多数情况下可能成本过高，但最重要的事实是，甚至不可能使用传统聚合与高端交换机构建这样一个配置，因为今天没有产品，甚至没有以太网标准用于速度超过10 GigE 的交换机。

2.2 Clos 网络/胖树

今天，商用和非商用交换机之间的价格差提供了强大的动力，用许多小型商用交换机取代少量大型、昂贵的交换机构建大规模通信网络。五十年多前，电话交换机类似的趋势促使 Charles Clos 设计了一种网络拓扑，通过适当地互连较小的商用交换机为许多终端设备提供高水平带宽。

本文采用一种特殊的 Clos 拓扑称为胖树（fat-tree）来互连商用以太网交换机。我们将 k 元胖树组织如图 3 所示。有 k 个 pod ，每个 pod 包含两层 k/2 台交换机。下层的 k 端口交换机直接连接到 k/2 台主机。剩余的 k/2 个端口连接到层次结构中聚合层的 k 个端口中的 k/2 个。

有（k/2)² 台 k 端口核心交换机。每个核心交换机都有一个端口连接到 k 个 pod 。任何核心交换机的第 i 个端口连接到 pod i，使得每个 pod 交换机中以（k/2) 步幅的连续端口连接到核心交换机。一般来说，k 端口交换机构建的胖树支持 k^3/4 个主机。在本文中，我们专注于 k = 48 及以下的设计。我们的方法可以推广到任意 k 值。

胖树拓扑的一个优点是，所有交换元件都是相同的，使我们能够利用廉价的商用部件来实现通信架构中的所有交换器。此外，胖树是 _可重排非阻塞的_，这意味着对于任意通信模式，都有一组路径饱和拓扑中终端主机的所有可用带宽。由于需要防止 TCP 流的数据包重排，在实践中实现 1:1 的超分配置比较困难

图 3 显示了 k = 4 的简单胖树拓扑。连接到同一台边缘交换机的所有主机形成自己的子网。因此，所有流向同一子网的流量都被交换，而所有其他流量都被路由。

例如，由 48 端口千兆交换机构建的胖树包括 48 个 pod，每个 pod 包含一个边缘层和一个汇聚层，每个汇聚层有 24 台交换机。每个 pod 中的边缘交换机分配 24 台主机。网络支持 27,648 台主机，由 1,152 个子网组成，每个子网 24 台主机。不同 pod 中的任意两个主机之间有 576 条等价路径。部署这种网络架构的成本为 $8.64M，而前面描述的传统技术为 $37M。

2.3 总结

鉴于我们的目标网络架构，在本文的其余部分，我们解决在以太网部署中采用这种拓扑的两个主要问题。首先，IP/以太网通常在每个源和目标之间建立单一路由路径。即使是简单的通信模式，单一路径路由也会迅速导致胖树上行下行的瓶颈，严重限制整体性能。我们描述了简单的 IP 转发扩展，以有效利用胖树的高扇出可用性。其次，在大型网络中，胖树拓扑会增加布线的复杂性。在某种程度上，这种开销是胖树拓扑固有的，但在第6节中，我们将介绍减轻这种开销的封装和放置技术。最后，我们在 Click 中构建了第 3 节所述架构的原型。第 5 节中给出的初步性能评估证实了我们的方法在小规模部署中潜在的性能优势。

3. 架构

在本节中，我们描述了一种将商用交换机互连成胖树拓扑的架构。我们首先说明需要对路由表结构进行轻微修改的原因。然后我们描述如何为集群中的主机分配 IP 地址。接下来，我们引入两级路由查找的概念，以协助完成跨胖树多路径路由。然后介绍在每个交换机中填充转发表的算法。我们还描述了流分类和流调度技术作为多路径路由的替代方法。最后，我们介绍了一个简单的容错方案，并描述了该方案的热量和功耗特征。

3.1 动机

为了实现最大化网络的双工带宽，需要将任何给定 pod 的输出流量尽可能均匀地分布在核心交换机之间。路由协议如 OSPF2 通常以跳数作为“最短路径”的度量标准，在 k 元胖树拓扑结构（参见 2.2 节）中，不同 pod 的任意两台主机之间有（k/2)2 条这样的最短路径，但只能选择了一条。因此，交换机将发送到给定子网的流量集中到单个端口，即使存在其他具有相同成本的选择。此外，由于 OSPF 消息到达时间交错，可能只选择少数核心交换机，甚至只选择一个作为 pod 之间的中间链路。这将导致这些点严重拥塞，并且无法利用胖树中的路径冗余

OSPF-ECMP 等扩展，除了不可用在候选的交换机类别之外，还会导致所需前缀数量爆炸性增长。一个较低层的 pod 交换机中需要为其他每个子网存储（k/2) 个前缀；总计 k∗（k/2)² 个前缀。

因此，我们需要一种简单、细粒度的方法，利用拓扑结构在 pod 之间进行流量扩散。交换机必须能够识别需要均匀分布的流量类别，并给予特殊处理。为此，我们提出使用两级路由表，根据目标 IP 地址的低位字节来传播输出流量（参见第 3.3 节）。

3.2 编址

我们分配私有的 10.0.0.0/8 段内所有网络 IP 地址。我们遵循熟悉的四点形式，满足以下条件：pod 交换机的地址形式为 10.pod.switch.1，其中 pod 表示 pod 编号（ [0,k-1] ），switch 表示该交换机在 pod 中的位置（[0,k−1]，从左到右，从下到上）。我们给出核心交换机的地址形式为 10.k.j.i，其中 j 和 i 表示交换机在（k/2)2 核心交换机网格中的坐标（每个都包含在 [1，（k/2)] 内，从左上角开始)。

主机的地址位于所连接的 pod 交换机之后；主机的地址格式为：10.pod.switch.ID，其中ID 是主机在该子网中的位置（[2,k/2+1]，从左到右）。因此，每个下层交换机负责 k/2 台主机的 /24 子网（k < 256）。图 3 显示了这种寻址方案的示例，对应于 k = 4 的胖树。尽管这种使用方式相对浪费可用地址空间，但它简化了路由表的构建，如下所示。而且，这种方案可以伸缩到 420 万台主机。

3.3 两级路由表

为了提供第 3.1 节提出的均匀分布机制，我们修改路由表以允许两级前缀查找。主路由表中的每个条目都可能有一个额外的指针，指向一个由（后缀，端口)条目组成的小型二级表。如果一级前缀不包含任何二级后缀，则终止，并且二级表可以被多个一级前缀指向。主表中的项是左旋的（即，/m 前缀掩码为 1^m0^32−m)，而二级表中的项是右旋的（即， /m 后缀掩码为 0^32−m1^m)。如果最长匹配前缀搜索得到非终止前缀，则在二级表中找到最长匹配后缀并使用。

两级结构会稍微增加路由表查找延迟，但硬件中前缀搜索的并行性应该只会带来很小的损耗（见下文）。因为这些表都非常小。如下图所示，任何 pod 交换机的路由表都不会超过 k/2 个前缀和 k/2 个后缀。

3.4 两级查找实现

我们现在描述如何使用内容可寻址存储器(Content-Addressable Memory, CAM) 在硬件中实现两级查找。CAM 用于搜索密集型应用，在查找位模式的匹配时，比算法实现更快。CAM 可以在单个时钟周期内并行搜索所有条目。查找引擎使用一种特殊的 CAM，称为三元 CAM (Ternary CAM, TCAM)。除了匹配 0 和 1 之外，TCAM 还可以在特定位置存储 —don’t care 位，使得它适合存储变长前缀，例如路由表中的前缀。缺点是，CAM 的存储密度很低，非常耗电，而且每比特的成本很高。然而，在我们的架构中，路由表可以实现在一个相对较小的 TCAM 中(k 个条目，每个 32 位宽)。

图 5 显示了我们提出的两级查找引擎的实现。TCAM 存储地址前缀和后缀，又索引一个 RAM，该 RAM 存储下一跳 IP 地址和输出端口。我们在数值较小的地址中存储左旋(前缀)条目，在较大的地址中存储右旋(后缀)条目。我们对 CAM 的输出进行编码，以便输出具有数值最小匹配地址的条目。这满足了特定的二级查找应用的语义：当数据包的目标 IP 地址同时匹配一个左旋项和一个右旋项时，则选择左旋项。例如，使用图 5 中的路由表，一个目标 IP 地址为 10.2.0.3 的数据包与左旋条目 10.2.0.X 和右旋条目 X.X.X.3 匹配。数据包正确地转发到端口 0。而目标地址为 10.3.1.2 的数据包只匹配右旋 X.X.X.2，并在端口 2 上转发。

3.5 路由算法

胖树的前两层交换机充当过滤流量扩散器；任何给定 pod 中的下层和上层交换机都具有该pod 中子网的终止前缀。因此，如果一个主机将一个数据包发送到另一个同一 pod 但不同子网的主机，那么该 pod 中的所有上层交换机都具有一个指向目标子网交换机的终止前缀。

对于所有其他输出的 pod 间流量，pod 交换机有一个默认 /0 前缀，带有一个与主机 ID(目标 IP 地址的最低有效字节)匹配的二级表。我们利用主机 ID 作为确定性熵的来源；它们将使流量均匀地上行分布到核心交换机的出口链路。这也将导致到同一主机的后续数据包遵循相同的路径，从而避免数据包重排。

在核心交换机中，我们为所有网络 ID 分配终止第一级前缀，每个前缀指向包含该网络的适当 pod。一旦数据包到达核心交换机，就只有一条链路到它的目标 pod，并且该交换机将包含该数据包的 pod 的终止 /16 前缀(10.pod.0.0/16, port)。一旦一个数据包到达它的目标 pod，接收的上层 pod 交换机也将包括一个(10.pod.switch.0/24,port)前缀，以将该数据包定向到其目标子网交换机，在那里它最终被交换到其目标主机。因此，流量扩散只发生在数据包传输的前半段。

设计分布式协议可以在每个交换机中增量地建立所需的转发状态。然而，为简单起见，假设一个完全了解集群互连拓扑的中央实体。这个中央路由控制负责静态地生成所有路由表，并在网络设置阶段将这些表加载到交换机中。动态路由协议还负责检测单个交换机的故障并执行路径故障转移(见第 3.8 节)。下面，我们总结了在 pod 和核心交换机上生成转发表的步骤。

Pod 交换机

在每个 pod 交换机中，我们为包含同一 pod 中的子网分配终止前缀。对于 pod 间流量，添加一个 /0 前缀和一个与主机 ID 匹配的二级表。算法 1 展示了为上层 pod 交换机生成路由表的伪代码。输出端口模数移位的原因是避免来自同一个主机、不同底层交换机的流量流向同一个上层交换机。

对于下层 pod 交换机，我们简单地省略了 /24 子网前缀步骤（第 3 行），因为该子网自己的流量被交换，并且pod 间和 pod 内流量应该在上层交换机之间均匀分割。

核心交换机

由于每个核心交换机连接到每个 pod(端口 i 连接到 pod i)，因此核心交换机只包含指向其目标 pod 的终止 /16 前缀，如算法 2 所示。该算法生成的表大小与 k 成线性关系。网络中没有交换机包含超过 k 个一级前缀或 k/2 个二级后缀的表。

路由示例

为了说明使用两级表的网络操作，我们给出一个数据包从源 10.0.1.2 到目标 10.2.0.3 的路由决策示例，如图 3 所示。首先，源主机的网关交换机（10.0.1.1）只有 /0 的第一级前缀匹配该数据包，因此会根据该前缀的二级表中的主机 ID 字节转发该数据包。在该表中，在该表中，数据包与 0.0.0.3/8 后缀匹配，该后缀指向端口 2 和交换机 10.0.2.1。交换机 10.0.2.1 也遵循相同的步骤，并转发到端口 3，连接到核心交换机 10.4.1.1。核心交换机将数据包与终止 10.2.0.0/16 前缀匹配，该前缀指向目标 pod 2 的端口 2 和交换机 10.2.2.1。这个交换机与目标子网属于同一个 pod，因此有一个终止前缀 10.2.0.0/24，该前缀指向负责该子网的交换机 10.2.0.1 的端口 0。从那里，标准切换技术将数据包传递到目标主机 10.2.0.3。

请注意，对于从 10.0.1.3 到另一个主机 10.2.0.2 的同时通信，传统的单路径 IP 路由将遵循与上述流程相同的路径，因为两个目标地都属于同一个子网。不幸的是，这将消除胖树拓扑的所有扇出优势。相反，我们的两级表查找允许交换机 10.0.1.1 基于两级表中的右旋匹配将第二条流转发到 10.0.3.1。

3.6 流分类

除了上述两级路由技术，我们还考虑了两种可选的动态路由技术，因为它们目前在一些商用路由器中可用[10,3]。我们的目标是量化这些技术的潜在好处，但承认它们会产生每个数据包的额外开销。重要的是，这些方案中维护的任何状态都是软性的，如果状态丢失，单个交换机可以回退到两级路由。

作为流量扩散到核心交换机的另一种方法，我们在 pod 交换机中执行流分类，并使用动态端口重分配，以克服可避免的局部拥塞情况(例如，当两条流竞争同一个输出端口时，即使另一个到目标具有相同成本的端口未使用)。我们将流定义为一系列的数据包，这些数据包具有相同头部字段子集(通常是源 IP 地址和目标 IP 地址、目标传输端口)。特别是 pod 交换机:

识别同一条流的后续数据包，并将它们转发到相同的输出端口。
周期性地重新分配一个最小数量的流输出端口，以最小化不同端口聚合流容量的差异。

第 1 步是针对数据包重排序的措施，第 2 步是在流大小动态变化的情况下，保证上行端口的流公平分布。第 4.2 节更详细地描述了流分类器的实现和流分布启发式方法。

3.7 流调度

已有研究表明，网络流量的传输时间和突发长度分布呈长尾分布，其特征是很少长生命周期的大数据流(占大部分带宽)，而有许多短生命周期的小数据流。本文认为路由大型流在确定网络可实现的双工带宽方面，起着至关重要的作用，因此需要进行特殊处理。在这种流管理的替代方法中，我们调度大数据流以尽量减少彼此的重叠。中央调度器根据网络中所有活动的大数据流的全局信息做出此选择。在这个初始设计中，我们仅考虑每台主机一次只有一条大数据流的情况。

3.7.1 边缘交换机

与之前一样，边缘交换机最初会在本地将新流分配给负载最少的端口。然而，边缘交换机还会检测任何规模增长超过预定义阈值的输出流，并定期向指定所有活动大数据流的源和目标的中央调度器发送通知。这表示边缘交换机将该流放置非竞争路径的请求。

请注意，与第 3.6 节不同的是，该方案不允许边缘交换机独立地重新分配流的端口，无论其大小。中央调度器是唯一有权下令重新分配的实体。

3.7.2 中央调度器

中央调度器(可能是复制的)跟踪所有活动的大数据流，并试图为它们分配不冲突的路径。调度器维护网络中所有链路的布尔状态，表示它们是否可用来承载大数据流。

对于 pod 间流量，回想一下，网络中任意一对主机之间都有 (k/2)² 条可能的路径，每条路径对应一台核心交换机。当调度器收到新流的通知时，它线性搜索核心交换机，以找到对应路径组件不包含预留链路的交换机。一旦找到这样的路径，调度器将这些连接标记为保留，并通知源 pod 相关的下层和上层交换机及流选择的路径相对应的正确输出端口。对pod 间的大数据流执行类似的搜索；这次是通过上层 pod 交换机找到一条无竞争路径。调度器垃圾收集最后更新时间超过给定时间的流，清除它们的预留标记。请注意，边缘交换机不会阻塞并等待调度器执行该计算，但一开始会像处理其他流一样处理大数据流。

3.8 容错

任意一对主机之间可用路径的冗余使得胖树拓扑具有容错能力。我们提出了一种简单的故障广播协议，该协议允许交换机在下游一两跳处绕过链路或交换机故障。

在该方案中，网络中的每台交换机都与其每个邻居维护一个双向转发检测会话(BFD)，以确定链路或邻居交换机何时发生故障。从容错的角度来看，可以承受两类故障：(a) 在 pod 间的下层交换机和上层交换机之间，(b) 在核心交换机和上层交换机之间。显然，较低层的交换机故障将导致直接连接的主机断开连接；叶子上的冗余交换机元件是容忍这种故障的唯一方法。我们在这里描述链路故障，因为交换机故障会触发相同的 BFD 警报，并引发相同的响应。

3.8.1 下层到上层交换机

当下层和上层交换机之间发生链路故障时，会影响三类流量：

从下层交换机发出的 pod 间和内的输出流量。在这种情况下，本地流分类器将该连接的“成本”设置为无穷大，并且不为其分配任何新流，并选择另一个可用的上层交换机。
使用上层交换机作为中介的 pod 内流量。作为响应，该交换机广播一个标签，通知同一 pod 中的所有其他底层交换机链路故障。在分配新流时，这些交换机将检查预期的输出端口是否属于这些标记，并尽可能规避。
进入上层交换机的 pod 间流量。连接到上层交换机的核心交换机将其作为访问该 pod的唯一入口，因此上层交换机向其所有核心交换机广播此标记，表明其无法将流量传送到下层交换机的子网。这些核心交换机依次将此标签镜像到它们连接到其他 pod 的所有上层交换机。最后，上层交换机在将新数据流分配给该子网时，规避单个受影响的核心交换机。

3.8.2 上层到核心交换机

当上层交换机与核心交换机之间发生链路故障时，会影响两类流量：

pod 间的输出流量，本地路由表将受影响的链路标记为不可用，并在本地选择另一台核心交换机。
pod 间的输入流量。在这种情况下，核心交换机向它直接连接的所有上层交换机广播一个标记，表示它无法将流量传送到整个 pod。和之前一样，上层交换机在分配流向pod 的数据流时，会避免使用核心交换机。

自然地，当故障链路和交换机恢复并重新建立 BFD 会话时，上述步骤将被反转以抵消其效果。此外，调整第 3.7 节的方案适应链路和交换机故障相对简单。调度器将任何被报告为 down 的链路标记为繁忙或不可用，从而取消任何包含它的路径的候选资格，最终大型流绕过故障路由。

3.9 电量和热量问题

除了性能和成本，数据中心设计的另一个主要问题是功耗。在数据中心中，构成互连网络较高层的交换机通常消耗数千瓦的电力，在一个大规模的数据中心中，互连网络的电力需求可达数百千瓦。几乎同样重要的是交换机的散热问题。企业级交换机产生大量的热量，因此需要专用的冷却系统。

在本节中，我们将分析我们架构中的电力需求和散热，并将其与其他典型方案进行比较。我们的分析基于交换机数据表中报告的数字，尽管我们承认，这些报告的值由不同的供应商以不同的方式测量得到，因此可能并不总是反映部署中的系统特征。

为了比较每类交换机的功率需求，我们在交换机可支持的总带宽(以 Gbps 为单位)对交换机的总功耗和散热进行了归一化。图 6 绘制了三个不同交换机模型的平均值。我们可以看到，当带宽归一化时，10 GigE 交换机(x 轴上的最后 3 个)每 Gbps 消耗大约是商用 GigE 交换机两倍的瓦数，耗散大约三倍的热量。

最后，我们还计算了一个可支持约 27k 台主机的互连线的预估总功耗和散热。在分层设计中，我们使用了 576 台 ProCurve 2900 边缘交换机和 54 台 BigIron RX-32 交换机(汇聚层 36 台，核心层 18 台)。胖树结构采用了 2880 台 Netgear GSM 7252 交换机。我们能够使用更便宜的 NetGear 交换机，因为我们在胖树互连中不需要 10 GigE 的上行链路(存在于 ProCurve)。图 7 显示，虽然我们的架构采用了更多的单台交换机，但功耗和散热都优于当前的数据中心设计，功耗降低 56.6%，散热减少 56.5%。当然，实际的功耗和散热必须在部署时进行测量；我们把这样的研究留作正在进行的工作。

4. 实现

为了验证本文描述的通信架构，我们构建了一个简单的转发算法原型。使用 NetFPGA 实现了一个原型系统。NetFPGA 包含一个利用 TCAM 的 IPv4 路由器实现。如 3.4 节所述，我们适当地修改了路由表查找例程。我们的修改总共不到100行代码，并且没有引入可测量的额外查找延迟，支持我们的观点，即我们提出的修改可以合并到现有的交换机。

为了进行更大规模的评估，我们还使用 Click 构建了一个原型，这是本文评估的重点。。Click 是一个模块化的软件路由器架构，支持实验路由器设计的实现。Click 路由是一个由称为元件的数据包处理模块组成的图，这些模块执行路由表查找或递减数据包的 TTL 等任务。当连接在一起时，Click 元件可以在软件中执行复杂的路由功能和协议。

4.1 两级表

我们构建了一个新的 Click 元件，TwoLevelTable，它实现了 3.3 节中描述的两级路由表的思想。这个元件有一个输入，两个或多个输出。路由表的内容使用输入文件初始化，该文件给出了所有的前缀和后缀。对于每个数据包，TwoLevelTable 元件查找最长匹配的第一级前缀。如果该前缀是终止的，它将立即在该前缀的端口上转发数据包。否则，它将在二级表上执行右旋最长匹配后缀搜索，并在相应的端口上转发。

该元件可以取代 [21] 中提供的符合标准的 IP 路由器配置示例的中央路由表元件。我们生成了一个类似的 4 端口版本的 IP 路由器，在所有端口上增加了带宽限制元素，以模拟链路饱和容量。

4.2 流分类

为了提供 3.6 节中描述的流分类功能，我们来介绍具有一个输入、两个或多个输出的Click 元件流分类器的实现。根据输入报文的源 IP 地址和目标 IP 地址进行简单的流分类，使得相同源和目标的后续报文从同一个端口输出(避免报文乱序)。元件增加了一个目标，即最小化其最高负载和最低负载输出端口之间聚合流容量的差异。

即使预先知道各条流的大小，该问题也是 NP 难装箱优化问题的一个变体。然而，流的大小实际上是未知的，这使得求解问题更加困难。我们遵循算法 3 中概述的贪婪启发式算法。每隔几秒钟，如果需要，启发式尝试切换最多 3 条流的输出端口，以最小化其输出端口的聚合流容量的差异。

回想一下，FlowClassifier 元件是用于流量扩散的两级表的替代方案。使用这些元件的网络采用普通的路由表。例如，一台上层 pod 交换机的路由表中包含了分配给该 pod 的所有子网前缀。然而，此外，我们添加了一个 /0 前缀来匹配所有剩余的需要均匀向上扩散到核心层的 pod 间流量。所有仅与该前缀匹配的数据包都被定向到 FlowClassifier 的输入。该分类器试图根据所描述的启发式方法在其输出之间均匀地分配 pod 间输出流，其输出直接连接到核心交换机。核心交换机不需要分类器，路由表保持不变。

请注意，这个解决方案有软性状态，它不是正确性所必需的，仅用作性能优化。这种分类器偶尔会造成干扰，因为少数的流可能会周期性地重新排列，可能导致数据包ç重排。然而，它也能适应动态变化的数据流大小，并且从长远来看是“公平的”。

4.3 流调度

如第 3.7 节所述，我们实现了元件 FlowReporter，它驻留在所有边缘交换机中，检测大于给定阈值的输出流。它定期向中央调度器发送这些活跃大数据流的通知。

FlowScheduler 元件从边缘交换机接收活跃大数据流的通知，并试图为它们找到无竞争的路径。为此，它保存了网络中所有连接的二进制状态，以及先前放置的流的列表。对于任何新的大流，调度器都会在源主机和目标主机之间的所有等价路径中执行线性搜索，以找到路径组件都没有预留的路径。找到这样的路径后，流调度器将所有组件连接标记为预留，并向相关的 pod 交换机发送该流路径的通知。我们还修改了pod 交换机，以处理来自调度器的端口重新分配消息。

调度器维护两个主要的数据结构:网络中所有连接的二进制数组(总共 4∗k∗(k/2)² 条连接)，以及先前放置的流及其分配的路径的哈希表。搜索新的流布局平均需要 2 * （k / 2)² 次内存访问，使得调度器的空间复杂度为 O(k³)，时间复杂度为 O(k²)。k 的典型值(每台交换机的端口数)为 48，使这两个值都可以管理，如第 5.3 节中所量化。

5. 评估

为了测量该设计的总双工带宽，生成了一套通信映射的基准套件，以评估使用 TwoLevelTable 交换机、FlowClassifier 和 FlowScheduler 的 4 端口胖树的性能。我们将这些方法与标准分层树进行了比较，其超分比为 3.6:1，类似与当前数据中心设计

5.1 实验描述

在 4 端口胖树中，有 16 台主机、4 个 pod(每个 pod 有 4 台交换机)和 4 台核心交换机。因此，总共有 20 台交换机和 16 台终端主机(对于更大的集群，交换机的数量将小于主机的数量)。我们将这 36 个元件复用到 10 台物理机器上，由一条具有 1 Gigabit 以太网链路的 48 端口 ProCurve 2900 交换机连接。这些机器有 2.33GHz 的双核 Intel Xeon cpu, 4096KB 缓存和 4GB RAM，运行 Debian GNU/Linux 2.6.17.3。每台 pod 交换机托管在一台机器上；每个 pod 的主机都托管在一台机器上；剩下的两台机器分别运行两台核心交换机。交换机和主机都是 Click 配置，运行在用户级别。网络中所有 Click 元件之间的虚拟链路带宽限制为 96Mbit/s，以确保配置不受 CPU 限制。

分层树形网络的对比情况，有 4 台机器，每台机器运行 4 台主机，每台机器运行 4 台 pod 交换机，并有一条额外的上行链路。4 台 pod 交换机连接到运行在专用机上的 4 端口核心交换机。为了实现从 pod 交换机到核心交换机的上行链路 3.6:1 超分配置，这些链路的带宽被限制为 106.67Mbit/s，所有其他链路的带宽都被限制为 96Mbit/s。

每台主机输出的流量恒定为 96Mbit/s。我们测量输入流量的速率。对于所有的双向通信映射，所有主机的最小输入流量总和就是网络的有效双工带宽。

5.2 基准套件

我们根据以下策略生成通信对，并增加限制，即任何主机仅接收来自一台主机的流量(即，映射为 1 对 1):

Random ：主机以均匀概率发送给网络中的其他主机。
Stride(i)：索引为 x 的主机发送到索引为（x + i）mod 16 的主机。
Staggered Prob (SubnetP, PodP)：主机将以 SubnetP 的概率发送到其子网中的另一台主机，以 PodP 的概率发送到其 pod，以 1 − SubnetP − PodP 的概率发送到其他任何主机。
Inter-pod Incoming：多个 pod 发送到同一 pod 中的不同主机，并且都恰好选择相同的核心交换机。该核心交换机到目标 pod 的连接将过载。这种情况下的最坏情况本地超分比为 (k − 1) : 1。
Same-ID Outgoing：同一子网中的主机发送到网络中其他任意不同主机，使目标主机具有相同的主机 ID 字节。静态路由技术强制它们采用相同的向上输出端口。这种情况下的最坏情况超分比为 (k/2) : 1。这是 FlowClassifier 预计可以最大程度提高性能的情况。

5.3 结果

表 2 显示了上述实验的结果。这些结果是基准测试 5 次运行/排列的平均值，每次持续 1 分钟。如预期的那样，对于任何 pod 间通信模式，传统树会饱和到核心交换机的链路，因此在这种情况下，所有主机的实际带宽约为理想带宽的 28%。通信对彼此间越接近，树的性能越好。

两级表交换机在随机通信模式下实现了理想双工带宽的大约 75%。这可以用表的静态性质来解释；任何给定子网上的两台主机有 50% 的几率发送到具有相同主机 ID 的主机，在这种情况下，它们的总吞吐量减半，因为它们都被转发到同一输出端口。使得两者的期望值都为 75%。预计随着 k 的增加，两级表的随机通信性能会提高，因为随着 k 的增加，多条流在单个链路上发生碰撞的可能性会降低。两级表的内部流入情况给出了 50% 的双工带宽；然而，相同 ID 输出效应进一步被核心路由器中的拥塞所加剧。

由于动态流分配和重新分配，流分类器在所有情况下都优于传统树和两级表，最坏情况下双工带宽约为 75%。然而，它仍然不完美，因为它避免的拥塞类型完全是局部的；由于上游一两跳处所做的路由决策，可能会在核心交换机处造成拥塞。这种次优路由产生是因为交换机仅本地知识可用。

另一方面，FlowScheduler 基于全局知识并尝试将大数据流分配到不相交的路径上，从而在随机通信映射中实现了理想双工带宽的 93%，并在所有基准测试中都优于所有其他方案。使用具有所有活跃大数据流和所有连接状态知识的集中调度，对于大型任意网络可能是不可行的，但是胖树拓扑的规律性大大简化了寻找无冲突路径的过程。

在另一个测试中，表 3 显示了在配置适当的 2.33 GHz 商用 PC 上运行中央调度程序时的时间和空间要求。对于不同的 k，我们生成了虚假的放置请求（每台主机一个），以测量处理放置请求的平均时间和维护连接状态和流状态数据结构所需的总内存。对于一个包含27k 台主机的网络，调度程序需要 5.6MB 的内存，并且可以在不到 0.8ms 的时间内放置一条数据流。

6. 封装

胖树拓扑用于集群互连的一个缺点是需要大量的电缆来连接所有的机器。使用 10 GigE 交换机进行聚合的一个微不足道的好处是，向上层传输相同带宽所需电缆数量减少 10 倍。在我们提出的胖树拓扑中，既不利用 10 GigE 链路也不利用交换机，因为非商用部件会增加成本，更重要的是，因为胖树拓扑严重依赖于层次中每层多台交换机的大扇出来实现其伸缩性能。

承认增加布线开销是胖树拓扑固有的，在本节中，我们考虑一些组装技术来减轻这种开销。总之，我们提出的组装技术消除了大部分所需的外部布线，并减少了所需电缆的总长度，从而简化了集群管理并降低了总成本。此外，这种方法允许网络的增量部署。

在最大容量 27,648 节点集群的背景下，提出了我们的方法，该集群利用 48 端口以太网交换机作为胖树的构建模块。这种设计可以推广到不同大小的集群。我们从单个 pod 的设计开始，它们构成了大型集群的复制单元，见图 8。每个 pod 包括 576 台计算机和 48 个独立 48 端口 GigE 交换机。为简单起见，假设每台终端主机占用一个机架单元（1RU），并且单个机架可以容纳 48 台计算机。因此，每个 pod 由 12 个机架组成，每个机架有 48 台计算机。

将构成 pod 的、胖树前两层的 48 台交换机放置在一个集中的机架中。但是，假设能够将48 台交换机打包成一个单一的整体单元，具有 1,152 个面向用户的端口。我们称之为 pod 交换机。其中 576 个端口直接连接到 pod 中的计算机，对应于边缘连接。另外 576 个端口扇出到胖树核心层中 576 台交换机中的一个端口。请注意，以这种方式打包的 48 台交换机实际上具有 2,304 个总端口（48 * 48）。另外 1,152 个端口在 pod 交换机内部接线，以解决 pod 边缘和聚合层之间所需的互连（见图 3）。

进一步将组成胖树顶部的 576 台必需核心交换机分布在各个 pod 中。假设总共有 48 个 pod ，每个 pod 将容纳 12 台必需的核心交换机。从每台 pod 交换机扇出到核心层的 576根电缆中，有 12 根将直接连接到放置在同一 pod 的核心交换机上。其余电缆每 12 一组扇出到远程 pod 中的核心交换机。请注意，电缆每 12 一组从 pod 移动到 pod，并且以每 48 一组从机架移动到 pod 交换机，这为适当的“电缆封装”提供了额外的机会，以减少布线的复杂性。

最后，最小化电缆总长度也是一个重要的考虑因素。为此，围绕 pod 交换机在两个维度上放置机架，如图 8 所示（我们不考虑三维数据中心布局）。相比于在一个 pod 中“水平” 布局的单个机架，这样做将减少电缆长度。同样，将 pod 布置在 7×7 的网格中（空缺一个位置）以容纳所有 48 个 pod 。再次，这种网格布局将减少 pod 间布线到适当核心交换机的距离，，并将支持电缆长度和包装的一些标准化，以支持 pod 间的连接。

我们还考虑了一种不将交换机集中到一个机架中的替代设计。在这种方法中，每个机架将分配两台 48 端口交换机。主机每 24 一组连接到交换机。这种方法的优点是主机连接到第一跳交换机所需的电缆更短，并且如果机架适当的内部封装，可以完全消除这些电缆。我们放弃了这种方法，因为我们会失去消除每个 pod 内连接边缘层和聚合层的 576 根电缆的机会。这些电缆需要穿过每个 pod 的 12 个机架，大大增加了复杂性。

7. 相关工作

我们在数据中心网络架构方面的工作必然建立在许多相关领域的工作基础上。也许与我们的努力最密切相关的是建立可伸缩互连的各种努力，主要来自超级计算机和大规模并行处理（MPP）社区。许多 MPP 互连都组织成胖树，包括 Thinking Machines 和 SGI 的系统。Thinking Machine 采用伪随机转发决策来执行胖树连接之间的负载平衡。虽然这种方法实现了良好的负载平衡，但它容易发生数据包重排。Myrinet 交换机也采用胖树拓扑，并且一直受到基于集群的超级计算机的欢迎。Myrinet 采用基于预定拓扑知识的源路由，启用直通低延迟交换机实现。主机还负责通过测量往返延迟来在可用路由之间进行负载均衡。相对于所有这些工作，我们专注于利用商用以太网交换机来互连大规模集群，展示适当的路由和封装技术。

InfiniBand 是高性能计算环境中流行的互连，并且目前正在迁移到数据中心环境。 InfiniBand 还使用 Clos 拓扑的变体来实现可伸缩带宽。例如，Sun 最近宣布了一款 3,456 端口 InfiniBand 交换机，该交换机由 720 台 24 端口 InfiniBand 交换机组成，排列成 5 级胖树。但是，InfiniBand 强加了自己的 1-4 层协议，使得以太网/IP/TCP 在某些设置中更具吸引力，特别是随着 10Gbps 以太网价格的不断下降。

另一个流行的 MPP 互连拓扑是 Torus，例如 BlueGene/L 和 Cray XT3。Torus 直接将处理器与 k 维格子中的一些邻居相互连接。维数决定了源和目标地之间预期的跳数。在 MPP 环境中，Torus 的优点是没有任何专用的交换元件，以及电气上更简单的点对点连接。在集群环境中，Torus 的布线复杂性很快变得难以承受，并且卸载所有路由和转发功能到商用主机/操作系统通常是不切实际的。

我们提出的转发技术与现有的路由技术，如 OSPF2 和等价多路径（ECMP）相关。我们提出多路径利用胖树拓扑的特定属性来实现良好性能。相对于我们的工作，ECMP 提出了三类无状态转发算法：（i）轮询和随机化；（ii）区域拆分，其中特定前缀被拆分为两个较大掩码长度的前缀；以及（iii）一种散列技术，它根据源地址和目标地址将流拆分到一组输出端口。第一种方法会遇到潜在的数据包重排问题，对 TCP 尤其有问题。第二种方法可能导致路由前缀数量激增。在具有 25,000 台主机的网络中，需要大约 600,000 个路由表条目。除了增加成本外，这种规模的表查找也会产生巨大延迟。因此，当前企业级路由器最多允许 16 路 ECMP 路由。最后一种方法在进行分配决策时不考虑流带宽，即使简单的通信模式也会很快超分。

8. 结论

带宽越来越成为大规模集群可伸缩性的瓶颈。现有解决这一瓶颈的解决方案围绕着交换机层次结构，顶层的交换机昂贵，非商用化。在任何给定时间点，高端交换机的端口密度都会限制整个集群的大小，同时产生高昂的成本。在本文中，我们提出了一种数据中心通信架构，利用商用以太网交换机为大规模集群提供可伸缩带宽。以胖树为基础构建拓扑，然后提出技术来执行可伸缩路由，同时保持与以太网、IP 和 TCP 的后向兼容性。

总体而言，我们发现我们能够以比现有技术显著更低的成本提供可伸缩带宽。虽然还需要进一步的工作来完全验证我们的方法，但我们相信更多的商用交换机有可能在数据中心取代高端交换机，就像商用 PC 集群取代了高端计算环境中的超级计算机一样。

原文： A Scalable, Commodity Data Center Network Architecture

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/05-10-2023/a-scalable-commodity-data-center-network-architecture-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜llustrated Guide to Monitoring and Tuning the Linux Networking Stack: Receiving Data

2023-04-25T16:00:00.000Z

TL;DR

本文是对我们之前的文章监控和调优 Linux 网络堆栈：接收数据的扩展，其中包含了一系列旨在帮助读者更清晰地了解 Linux 网络堆栈工作原理的图表。

在监控或调优 Linux 网络堆栈时，没有捷径可走。运维人员必须努力全面了解各个系统及其相互作用，才有可能对它们进行调优。也就是说，之前博客文章的长度可能使读者难以概念化各个系统如何相互作用。希望这篇博客文章能够帮助澄清这一点。

Getting Start

这些图表旨在概述 Linux 网络堆栈的工作原理。因此，许多细节被省略了。为了获得完整的画面，建议读者阅读我们的博客文章，其中详细介绍了网络堆栈的各个方面：监控和调优 Linux 网络堆栈：接收数据。这些图的目的是帮助读者形成一个心智模型，了解内核中的一些系统如何在高层次上相互交互。

让我们首先看一下在理解数据包处理之前必要的一些重要初始设置。

初始设置

设备有许多方法来提醒计算机系统的其他部分，有一些工作已经准备好进行处理。在网络设备的情况下，NIC 常常会产生一个 IRQ 来表示一个数据包已经到达并准备好被处理。当 Linux 内核执行 IRQ 处理程序时，它以非常高的优先级运行，并且通常阻止生成其他的 IRQ。因此，设备驱动程序中的 IRQ 处理程序必须尽快执行，并推迟所有长时间运行的工作到在此上下文之外执行。这就是“softIRQ”系统存在的原因。

Linux 内核的“softIRQ”系统是内核用来在设备驱动程序 IRQ 上下文之外处理工作的系统。在网络设备的情况下，softIRQ 系统负责处理传入的数据包。softIRQ 系统在内核启动过程的早期初始化。

上图对应文章的 softIRQ 部分，显示了 softIRQ 系统及其每个 CPU 内核线程的初始化过程。

softIRQ 系统的初始化如下：

通过从 kernel/smpboot.c调用smpboot_register_percpu_thread ，在 kernel/softirq.c 中的 spawn_ksoftirqd 中创建 softIRQ 内核线程（每个 CPU 一个）。如代码所示，函数 run_ksoftirqd 被列为 thread_fn，这是将在循环中执行的函数。
ksoftirqd 线程开始在 run_ksoftirqd 函数中执行它们的处理循环。
接下来，每个 CPU 创建一个 softnet_data 结构。这些结构保存着对处理网络数据的重要数据结构的引用。poll_list 后续将再次看到。poll_list 是调用 napi_schedule 或来自设备驱动程序的其他 NAPI API 来添加 NAPI poll worker 结构的地方。
然后，net_dev_init 调用 open_softirq 向 softirq 系统注册 NET_RX_SOFTIRQ softirq，如此处所示。注册的处理程序函数称为 net_rx_action。这是 softirq 内核线程为处理数据包而执行的函数。

图上的步骤 5 - 8 与到达的数据处理有关，并将在下一节中提及。继续阅读以获取更多信息！

数据到达

数据从网络到达！

当网络数据到达 NIC 时，NIC 将使用 DMA将数据包数据写入 RAM。在 igb 网络驱动程序的情况下，RAM 中设置了一个指向接收数据包的环形缓冲区。需要注意的是，一些 NIC 是“多队列” NIC，这意味着它们可以 DMA 传入的数据包到 RAM 中的多个环形缓冲区之一。正如我们很快就会看到的，这样的 NIC 能够利用多个处理器来处理传入的网络数据。阅读有关多队列 NIC 的更多信息。上图为了简单起见只显示了一个环形缓冲区，但根据您使用的 NIC 和硬件设置，您的系统上可能有多个队列。

阅读更多关于下面描述过程的详细信息在此部分网络博客文章中。

让我们来看一下接收数据的过程：

NIC 从网络接收数据。
NIC 使用 DMA 将网络数据写入 RAM。
NIC 产生一个 IRQ。
执行设备驱动程序的已注册 IRQ 处理程序。
清除 NIC 上的 IRQ，以便它可以为新数据包到达生成 IRQ。
调用 napi_schedule启动 NAPI softIRQ 轮询循环。

调用 napi_schedule 触发了前面图表中步骤 5 - 8 的开始。正如我们将看到的，NAPI softIRQ 轮询循环的启动仅仅是在位域中翻转一个位，并将一个结构添加到 poll_list 中进行处理。napi_schedule 不做任何其他工作，这正是驱动程序如何将处理推迟到 softIRQ 系统的方式。

继续前一节中的图表，使用那里找到的数字：

驱动程序调用 napi_schedule 添加驱动程序的 NAPI 轮询结构到当前 CPU 的 poll_list 中。
设置 softirq 挂起位，以便此 CPU 上的 ksoftirqd 进程知道有数据包要处理。
执行 run_ksoftirqd 函数（由 ksoftirq 内核线程在循环中运行）。
调用 __do_softirq，检查挂起位域，看到 softIRQ 挂起，并调用挂起 softIRQ 的已注册处理程序：net_rx_action，它完成了传入网络数据处理的所有繁重工作。

需要注意的是，执行 net_rx_action 的是 softIRQ 内核线程，而不是设备驱动程序 IRQ 处理程序。

网络数据处理开始

现在，数据处理开始。net_rx_action 函数（从 ksoftirqd 内核线程调用）开始处理已添加到当前 CPU 的 poll_list 中的任何 NAPI 轮询结构。通常在两种情况下，添加轮询结构：

设备驱动程序调用 napi_schedule。
在接收数据包转向的情况下，使用处理器间中断。阅读更多关于接收数据包转向如何使用 IPI 处理数据包的信息。

我们将从 poll_list 中获取驱动程序的 NAPI 结构开始。（下一节介绍 RPS 如何使用 IPI 注册 NAPI 结构）。

上面的图表在这里进行了深入的解释，可以总结如下：

net_rx_action 循环开始检查 NAPI 轮询列表中的 NAPI 结构。
检查 budget 和经过的时间以确保 softIRQ 不会垄断 CPU 时间。
调用已注册的 poll 函数。在这种情况下，igb_poll 函数由 igb 驱动程序注册。
驱动程序的 poll 函数从 RAM 中的环形缓冲区收取数据包。
数据包交给 napi_gro_receive，它将处理可能的通用接收卸载。
数据包要么保留用于 GRO，调用链在此结束，要么数据包被传递给 net_receive_skb，继续向协议栈上方进行。

接下来我们将看到 net_receive_skb 如何处理 Receive Packet steering，以在多个 CPU 之间分配数据包处理负载。

网络数据处理继续

网络数据处理从 netif_receive_skb 继续，但数据的路径取决于是否启用了 Receive Packet Steering (RPS)。一个“开箱即用”的 Linux 内核默认不会启用 RPS，如果您想使用它，需要显式启用并配置。

在禁用 RPS 的情况下，使用上图中的数字：

netif_receive_skb 将数据传递给 __netif_receive_core。
__netif_receive_core 将数据传递给任何 tap（如PCAP）。
__netif_receive_core 将数据传递给已注册的协议层处理程序。在许多情况下，是 IPv4 协议栈已注册的 ip_rcv 函数。

在启用 RPS 的情况下：

netif_receive_skb 将数据传递给 enqueue_to_backlog。
数据包被放置在每个 CPU 的输入队列中等待处理。
远程 CPU 的 NAPI 结构被添加到该 CPU 的 poll_list 中，并排队一个 IPI，如果远程 CPU 上的 softIRQ 内核线程尚未运行，则触发它唤醒。
当远程 CPU 上的 ksoftirqd 内核线程运行时，它遵循前一节中描述的相同模式，但这次，已注册的 poll 函数是 process_backlog，它从当前 CPU 的输入队列中收取数据包。
数据包被传递到 __net_receive_skb_core。
__netif_receive_core 将数据传递给任何 tap（如PCAP）。
__netif_receive_core 将数据传递给已注册的协议层处理程序。在许多情况下，是 IPv4 协议栈已注册的 ip_rcv 函数。

协议栈和用户界面套接字

接下来是协议栈、netfilter、berkley packet filters，最后是用户空间套接字。这条代码路径很长，但线性且相对简单。

您可以继续跟踪网络数据的详细路径。一个非常简短的高层次总结路径是：

数据包由 ip_rcv 接收到 IPv4 协议层。
执行 Netfilter 和路由优化。
传送到当前系统的数据被传送到更高级别的协议层，如 UDP。
数据包由 udp_rcv 接收到 UDP 协议层，并由 udp_queue_rcv_skb 和 sock_queue_rcv 排队到用户空间套接字的接收缓冲区。在排队到接收缓冲区之前，处理伯克利数据包过滤器。

请注意，在此过程中多次咨询 netfilter。确切的位置可以在我们的详细演练中找到。

结论

Linux 网络堆栈非常复杂，有许多不同的系统相互作用。任何调优或监控这些复杂系统的努力都必须努力理解它们之间的相互作用以及如何更改一个系统中的设置会影响其他系统。

这篇（画得不好的）博客文章试图使我们的更长的博客文章更易于管理和理解。

原文： Illustrated Guide to Monitoring and Tuning the Linux Networking Stack: Receiving Data

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/04-26-2023/illustrated-guide-to-monitoring-and-tuning-the-Linux-networking-stack-recv-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜Monitoring and Tuning the Linux Networking Stack: Sending Data

2023-04-24T16:00:00.000Z

TL;DR

本文解释了 Linux 内核的计算机如何发送数据包，以及当数据包从用户程序流向网络硬件时，如何监控和调优网络栈的每个组件。

本文是之前的文章监控和调优 Linux 网络栈：接收数据的姊妹篇。

如果不阅读内核的源代码，不深入了解到底发生了什么，就不可能调优或监控 Linux 网络栈。

希望本文能给想做这方面工作的人提供参考。

关于监控和调优 Linux 网络栈的一般性建议

正如在上一篇文章中提到的，Linux 网络栈是复杂的，没有一刀切的监控或调优解决方案。如果您真的想调优网络栈，您别无选择，只能投入大量的时间、精力和金钱来了解网络系统的各个部分是如何交互的。

本文中提供的许多示例设置仅用于说明目的，并不是对某个配置或默认设置的推荐或反对。在调整任何设置之前，您应该围绕您需要监控的内容制定一个参考框架，以注意到有意义的变化。

网络连接到计算机时调整网络设置是危险的；你很容易地把自己锁在外面，或者完全关闭你的网络。不要在生产机器上调整这些设置；相反，如果可能的话，在新机器上进行调整，再投入生产中。

概览

作为参考，您可能需要手边有一份设备数据手册。这篇文章将研究由 igb 设备驱动程序控制的 Intel I350 以太网控制器。您可以找到该数据手册（警告：大型 PDF）供您参考。

网络数据从用户程序到网络设备的流程概览：

使用系统调用（如sendto、sendmsg等）写入数据。
数据通过套接字子系统传递到套接字协议族的系统（本例是 AF_INET）。
协议族通过协议层传递数据，协议层（在许多情况下）将数据转成数据包。
数据通过路由层，沿途填充目标和邻居缓存（如果是冷缓存）。如果需要查找以太网地址，会生成 ARP 流量。
在通过协议层之后，数据包到达设备无关层。
使用 XPS（如果启用）或哈希函数选择输出队列。
调用设备驱动程序的发送函数。
然后，数据被传递到输出设备附属的排队规则（qdisc）。
如果可以，qdisc 将直接传输数据；或将其排队，等待 NET_TX 软中断期间发送。
最后，数据从 qdisc 传递给驱动程序。
驱动程序创建所需的 DMA 映射，以便设备可以从 RAM 读取数据。
驱动器向设备发送信号，表示数据准备就绪。
设备从 RAM 读取数据并传输。
传输完成后，设备发出硬中断信号，表示传输完成。
驱动程序注册的传输完成硬中断处理程序运行。对于许多设备，此处理程序只是生成 NET_RX 软中断，触发 NAPI 轮询循环开始运行。
软中断触发轮询函数运行，并调用驱动程序以解除 DMA 映射、释放数据包。

接下来各节会详细介绍以上整个流程。

下面探讨的协议层是 IP 和 UDP 协议层。本文介绍的许多信息也可作为其他协议层的参考。

详细探讨

与姊妹篇类似，本文将探讨 Linux 3.13.0 版本内核，贯穿全文提供了 GitHub 代码链接和代码片段。

从如何在内核中注册协议族、套接字子系统如何使用协议族开始探讨，然后探讨协议族接收数据。

协议族注册

当用户程序中运行这样一段代码来创建 UDP 套接字时，会发生什么？

sock = socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP)

简而言之，Linux 内核查找 UDP 协议栈导出的一组函数，它们处理包括发送和接收网络数据在内的许多事情。要准确理解其工作原理，必须深入 AF_INET 地址族代码。

Linux 内核在内核初始化的早期执行 inet_init 函数。此函数注册 AF_INET 协议族、协议族中的各种协议栈（TCP、UDP、ICMP 和 RAW），并调用初始化程序使协议栈准备好处理网络数据。您可以在 ./net/ipv4/af_inet.c 中找到 inet_init 的代码。

AF_INET 协议族导出了一个具有 create 函数的结构。当用户程序创建套接字时，内核会调用此函数：

static const struct net_proto_family inet_family_ops = {        .family = PF_INET,        .create = inet_create,        .owner  = THIS_MODULE,};

inet_create 函数接受传递给套接字系统调用的参数，搜索已注册的协议，以找到链接到套接字的一组操作。看一看：

        /* Look for the requested type/protocol pair. */lookup_protocol:        err = -ESOCKTNOSUPPORT;        rcu_read_lock();        list_for_each_entry_rcu(answer, &inetsw[sock->type], list) {                err = 0;                /* Check the non-wild match. */                if (protocol == answer->protocol) {                        if (protocol != IPPROTO_IP)                                break;                } else {                        /* Check for the two wild cases. */                        if (IPPROTO_IP == protocol) {                                protocol = answer->protocol;                                break;                        }                        if (IPPROTO_IP == answer->protocol)                                break;                }                err = -EPROTONOSUPPORT;        }

稍后，复制 answer 的 ops 字段到套接字结构中，answer 持有协议栈相关的引用：

sock->ops = answer->ops;

可以在 af_inet.c 中找到所有协议栈的结构定义。让我们看一下TCP 和 UDP 协议结构：

/* Upon startup we insert all the elements in inetsw_array[] into * the linked list inetsw. */static struct inet_protosw inetsw_array[] ={        {                .type =       SOCK_STREAM,                .protocol =   IPPROTO_TCP,                .prot =       &tcp_prot,                .ops =        &inet_stream_ops,                .no_check =   0,                .flags =      INET_PROTOSW_PERMANENT |                              INET_PROTOSW_ICSK,        },        {                .type =       SOCK_DGRAM,                .protocol =   IPPROTO_UDP,                .prot =       &udp_prot,                .ops =        &inet_dgram_ops,                .no_check =   UDP_CSUM_DEFAULT,                .flags =      INET_PROTOSW_PERMANENT,       },/* .... more protocols ... */

在 IPPROTO_UDP 的情况下，ops 结构关联包含各种功能的函数，包括发送和接收数据：

const struct proto_ops inet_dgram_ops = {  .family   = PF_INET,  .owner   = THIS_MODULE,  /* ... */  .sendmsg   = inet_sendmsg,  .recvmsg   = inet_recvmsg,  /* ... */};EXPORT_SYMBOL(inet_dgram_ops);

协议相关的结构 prot 包含函数指针，指向 UDP 协议栈所有内部函数。UDP 协议中，此结构被称为 udp_prot，并由 ./net/ipv4/udp.c 导出：

struct proto udp_prot = {  .name   = "UDP",  .owner   = THIS_MODULE,  /* ... */  .sendmsg   = udp_sendmsg,  .recvmsg   = udp_recvmsg,  /* ... */};EXPORT_SYMBOL(udp_prot);

现在，转向一段发送 UDP 数据的用户程序，看内核是如何调用 udp_sendmsg 的！

套接字发送网络数据

用户程序想要发送 UDP 网络数据，因此它使用 sendto 系统调用，可能像这样：

ret = sendto(socket, buffer, buflen, 0, &dest, sizeof(dest));

此系统调用经过Linux 系统调用层，并落在./net/socket.c 中的这个函数：

/* *      Send a datagram to a given address. We move the address into kernel *      space and check the user space data area is readable before invoking *      the protocol. */SYSCALL_DEFINE6(sendto, int, fd, void __user *, buff, size_t, len,                unsigned int, flags, struct sockaddr __user *, addr,                int, addr_len){/*  ... code ... */err = sock_sendmsg(sock, &msg, len);/* ... code  ... */}

SYSCALL_DEFINE6 宏展开为一堆宏，这些宏反过来使用 6 个参数，建立基础结构来创建系统调用（因此是 DEFINE6）。这样做的一个结果是，内核的系统调用函数名都有 sys_ 前缀。

sendto 的系统调用代码，组织数据为较低层能够处理的格式之后，调用 sock_sendmsg。特别是，它将传递给 sendto 的目标地址构造一个结构，让我们来看一下：

iov.iov_base = buff;iov.iov_len = len;msg.msg_name = NULL;msg.msg_iov = &iov;msg.msg_iovlen = 1;msg.msg_control = NULL;msg.msg_controllen = 0;msg.msg_namelen = 0;if (addr) {        err = move_addr_to_kernel(addr, addr_len, &address);        if (err < 0)                goto out_put;        msg.msg_name = (struct sockaddr *)&address;        msg.msg_namelen = addr_len;}

此段代码复制用户程序传入的 addr 到内核数据结构 address 中，然后以 msg_name 嵌入到 struct msghdr 结构中。类似于 userland 程序不调用 sendto，而是直接调用 sendmsg 时所做的操作。内核提供此变化，是因为 sendto 和 sendmsg 都调用到 sock_sendmsg。

`sock_sendmsg`、`__sock_sendmsg` 和 `__sock_sendmsg_nosec`

在调用 __sock_sendmsg 之前，sock_sendmsg 会执行一些错误检查，而 __sock_sendmsg 在调用 __sock_sendmsg_nosec 之前也会进行自己的错误检查。__sock_sendmsg_nosec 传递数据到更深层的套接字子系统中。

static inline int __sock_sendmsg_nosec(struct kiocb *iocb, struct socket *sock,                                       struct msghdr *msg, size_t size){        struct sock_iocb *si =  ..../* other code ... */        return sock->ops->sendmsg(iocb, sock, msg, size);}

如前一节解释套接字创建时所述，注册到此套接字 ops 结构的 sendmsg 函数是inet_sendmsg。

`inet_sendmsg`

从名字不难猜到，这是 AF_INET 协议族提供的一个通用函数。此函数首先调用sock_rps_record_flow 记录最后一个处理流的 CPU；接收数据包转向会使用该信息。接下来，查找并调用套接字的内部协议操作结构的 sendmsg 函数：

int inet_sendmsg(struct kiocb *iocb, struct socket *sock, struct msghdr *msg,                 size_t size){  struct sock *sk = sock->sk;  sock_rps_record_flow(sk);  /* We may need to bind the socket. */  if (!inet_sk(sk)->inet_num && !sk->sk_prot->no_autobind &&      inet_autobind(sk))          return -EAGAIN;  return sk->sk_prot->sendmsg(iocb, sk, msg, size);}EXPORT_SYMBOL(inet_sendmsg);

在处理 UDP 时，sk->sk_prot->sendmsg 指向 UDP 协议层 udp_sendmsg。 udp_sendmsg 是前面看到的 udp_prot 结构导出的。此函数调用从通用 AF_INET 协议族过渡到 UDP 协议栈。

UDP 协议层

`udp_sendmsg`

udp_sendmsg 函数位于 ./net/ipv4/udp.c。整个函数相当长，因此我们将探讨其中的一些部分。如果你想完整地阅读它，请点击前面的链接。

UDP corking

在变量声明和一些基本的错误检查之后，udp_sendmsg 要做的第一件事就是检查套接字是否“corked”。 UDP corking 是一项特性，允许用户程序请求内核累积多次 send 调用的数据到单个数据报中发送。在用户程序中有两种方法可启用此选项：

使用 setsockopt 系统调用，传递 UDP_CORK 套接字选项。
调用 send、sendto 或 sendmsg 时，传递带有 MSG_MORE 的 flags 。

以上选项分别记录在 UDP 手册页和 send / sendto / sendmsg 手册页。

udp_sendmsg 检查 up->pending 以确定套接字当前是否被 corked。如果是，则直接追加数据。稍后将看到如何追加数据。

int udp_sendmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,                size_t len){/* variables and error checking ... */  fl4 = &inet->cork.fl.u.ip4;  if (up->pending) {          /*           * There are pending frames.           * The socket lock must be held while it's corked.           */          lock_sock(sk);          if (likely(up->pending)) {                  if (unlikely(up->pending != AF_INET)) {                          release_sock(sk);                          return -EINVAL;                  }                  goto do_append_data;          }          release_sock(sk);  }

获取 UDP 目标地址和端口

接下来，从两个可能的来源之一确定目标地址和端口：

套接字本身存储的目标地址，因为套接字在某个时间点已连接。
辅助结构传入的地址，正如在 sendto 的内核代码中看到的那样。

内核处理逻辑如下：

/* *      Get and verify the address. */if (msg->msg_name) {        struct sockaddr_in *usin = (struct sockaddr_in *)msg->msg_name;        if (msg->msg_namelen < sizeof(*usin))                return -EINVAL;        if (usin->sin_family != AF_INET) {                if (usin->sin_family != AF_UNSPEC)                        return -EAFNOSUPPORT;        }        daddr = usin->sin_addr.s_addr;        dport = usin->sin_port;        if (dport == 0)                return -EINVAL;} else {        if (sk->sk_state != TCP_ESTABLISHED)                return -EDESTADDRREQ;        daddr = inet->inet_daddr;        dport = inet->inet_dport;        /* Open fast path for connected socket.           Route will not be used, if at least one option is set.         */        connected = 1;}

是的，UDP 协议层使用 TCP_ESTABLISHED！不管怎样，套接字状态都使用 TCP 状态描述。

回想一下前面看到的，当用户程序调用 sendto 时，内核是如何代表用户组装一个 struct msghdr 结构。上面的代码显示了内核解析该数据设置 daddr 和 dport。

当内核函数访问 udp_sendmsg 函数时，内核函数没有构造 struct msghdr 结构，则从套接字本身获取目标地址和端口，并标记套接字为“已连接”。

两种情况下，都设置 daddr 和 dport 为目标地址和端口。

套接字传输簿记和时间戳

接下来，获取并存储套接字上设置的源地址、设备索引和时间戳选项（如SOCK_TIMESTAMPING_TX_HARDWARE、SOCK_TIMESTAMPING_TX_SOFTWARE、SOCK_WIFI_STATUS）：

ipc.addr = inet->inet_saddr;ipc.oif = sk->sk_bound_dev_if;sock_tx_timestamp(sk, &ipc.tx_flags);

`sendmsg` 发送辅助消息

除了发送或接收数据包之外，sendmsg 和 recvmsg 系统调用还允许用户设置或请求辅助数据。用户程序可以创建一个嵌入了请求的 struct msghdr，来使用这些辅助数据。许多辅助数据类型都记录在 IP 手册页中。

辅助数据的一个常见例子是 IP_PKTINFO。在 sendmsg 的情况下，此数据类型允许程序设置 struct in_pktinfo，以便发送数据时使用。通过在结构 struct in_pktinfo 中填充字段，程序可以指定要在数据包上使用的源地址。如果程序是侦听多个 IP 地址的服务器程序，这是一个有用的选项。在这种情况下，服务器程序可能希望使用与客户端连接服务器的 IP 地址来回复客户端。IP_PKTINFO 恰好适合这种情况。

类似地，当用户程序向 sendmsg 传递数据时， IP_TTL 和 IP_TOS 辅助消息允许用户在每个数据包的级别设置 IP 数据包的 TTL 和 TOS 值。如果需要，也可以通过使用 setsockopt 设置 IP_TTL 和 IP_TOS 在套接字级别，生效套接字的所有传出数据包。 Linux 内核使用数组转换指定的 TOS 值为优先级。优先级影响数据包从排队规则传输的方式和时间。稍后会详细了解这意味着什么。

内核如何处理 sendmsg 在 UDP 套接字上的辅助消息：

if (msg->msg_controllen) {        err = ip_cmsg_send(sock_net(sk), msg, &ipc,                           sk->sk_family == AF_INET6);        if (err)                return err;        if (ipc.opt)                free = 1;        connected = 0;}

./net/ipv4/ip_sockglue. c 中的 ip_cmsg_send 负责辅助消息的内部解析。请注意，只要提供任何辅助数据，都会标记该套接字为未连接。

设置自定义 IP 选项

接下来，sendmsg 检查用户是否指定了任何带有自定义 IP 选项的辅助消息。如果设置了选项，则使用这些选项。如果没有，则使用此套接字已在使用的选项：

if (!ipc.opt) {        struct ip_options_rcu *inet_opt;        rcu_read_lock();        inet_opt = rcu_dereference(inet->inet_opt);        if (inet_opt) {                memcpy(&opt_copy, inet_opt,                       sizeof(*inet_opt) + inet_opt->opt.optlen);                ipc.opt = &opt_copy.opt;        }        rcu_read_unlock();}

接下来，该函数检查是否设置了源记录路由（SRR）IP 选项。源记录路由有两种类型：宽松源记录路由和严格源记录路由。如果设置了此选项，记录并存储第一跳地址为 faddr，标记套接字为“未连接”。 faddr 将在后面用到：

ipc.addr = faddr = daddr;if (ipc.opt && ipc.opt->opt.srr) {        if (!daddr)                return -EINVAL;        faddr = ipc.opt->opt.faddr;        connected = 0;}

在处理 SRR 选项后，从用户辅助消息设置的值，或套接字当前使用的值中，获取 TOS IP 标志。随后进行检查以确定：

套接字是否已设置（使用 setsockopt）SO_DONTROUTE ，或
调用 sendto 或 sendmsg 时，是否已指定 MSG_DONTROUTE 标志，或
是否已设置 is_strictroute ，代表需要严格源记录路由

然后，置位 tos 的 0x1（RTO_ONLINK）位，且标记套接字为“未连接”：

tos = get_rttos(&ipc, inet);if (sock_flag(sk, SOCK_LOCALROUTE) ||    (msg->msg_flags & MSG_DONTROUTE) ||    (ipc.opt && ipc.opt->opt.is_strictroute)) {        tos |= RTO_ONLINK;        connected = 0;}

组播还是单播？

接下来，代码尝试处理组播。这有点棘手，因为如前所述，用户可以发送辅助 IP_PKTINFO 消息来指定一个源地址或设备索引来发送数据包。

如果目标地址是组播地址：

设置组播设备索引为数据包发送的设备索引，并且
设置组播源地址为数据包的源地址。

除非用户发送 IP_PKTINFO 辅助消息覆盖设备索引。我们来看一下：

if (ipv4_is_multicast(daddr)) {        if (!ipc.oif)                ipc.oif = inet->mc_index;        if (!saddr)                saddr = inet->mc_addr;        connected = 0;} else if (!ipc.oif)        ipc.oif = inet->uc_index;

如果目标地址不是组播地址，则会设置设备索引，除非用户使用 IP_PKTINFO 覆盖了该索引。

路由

是时候探讨路由了！

UDP 层负责路由的代码从一个快速路径开始。如果套接字已连接，请尝试获取路由结构：

if (connected)        rt = (struct rtable *)sk_dst_check(sk, 0);

如果套接字没有连接，或者虽然连接了，但路由助手 sk_dst_check 判定路由已淘汰，则代码进入慢速路径以生成路由结构。首先调用 flowi4_init_output 来构造一个描述此 UDP 流的结构：

if (rt == NULL) {        struct net *net = sock_net(sk);        fl4 = &fl4_stack;        flowi4_init_output(fl4, ipc.oif, sk->sk_mark, tos,                           RT_SCOPE_UNIVERSE, sk->sk_protocol,                           inet_sk_flowi_flags(sk)|FLOWI_FLAG_CAN_SLEEP,                           faddr, saddr, dport, inet->inet_sport);

一旦该流结构构造完成，套接字及其流结构就被传递到安全子系统，使得诸如 SELinux 或 SMACK 之类的系统可以在流结构上设置安全 id 值。接下来，ip_route_output_flow 调用 IP 路由代码来生成此流的路由结构：

security_sk_classify_flow(sk, flowi4_to_flowi(fl4));rt = ip_route_output_flow(net, fl4, sk);

如果无法生成路由结构，并且错误为 ENETUNREACH，则 OUTNOROUTES 统计计数器增加。

if (IS_ERR(rt)) {  err = PTR_ERR(rt);  rt = NULL;  if (err == -ENETUNREACH)    IP_INC_STATS(net, IPSTATS_MIB_OUTNOROUTES);  goto out;}

保存上述统计计数器的文件的位置、其他计数器及其含义，将在下面的 UDP 监控章节中讨论。

接下来，如果路由用于广播，但是在套接字上没有设置 SOCK_BROADCAST 套接字选项，则代码终止。如果套接字“已连接”（如本函数所述），则缓存路由结构到套接字：

err = -EACCES;if ((rt->rt_flags & RTCF_BROADCAST) &&    !sock_flag(sk, SOCK_BROADCAST))        goto out;if (connected)        sk_dst_set(sk, dst_clone(&rt->dst));

使用 `MSG_CONFIRM` 阻止 ARP 缓存失效

在调用 send、sendto 或 sendmsg 时，如果用户指定了 MSG_CONFIRM 标志，UDP 协议层将处理该标志：

  if (msg->msg_flags&MSG_CONFIRM)          goto do_confirm;back_from_confirm:

此标志指示系统确认 ARP 缓存条目仍然有效，并阻止其被垃圾回收。 dst_confirm 函数只是在目标缓存条目上设置一个标志，在查询邻居缓存并找到条目时再次检查该标志。我们稍后再看。 UDP 网络应用程序常使用此功能，以减少不必要的 ARP 流量。 do_confirm 标签位于此函数的末尾附近，但它很简单：

do_confirm:        dst_confirm(&rt->dst);        if (!(msg->msg_flags&MSG_PROBE) || len)                goto back_from_confirm;        err = 0;        goto out;

这段代码确认缓存条目，如果不是探测消息，则跳回到 back_from_confirm。

一旦 do_confirm 代码跳回到 back_from_confirm（或者没有跳转 do_confirm ），代码会尝试处理 UDP cork 和 uncorked 的情况。

uncorked UDP 套接字的快速路径：准备传输数据

如果未请求 UDP corking，调用 ip_make_skb ，数据可以打包到 struct sk_buff，并传递给 udp_send_skb，以向下移动栈并更接近 IP 协议层。请注意，前面调用 ip_route_output_flow 生成的路由结构也会传入。它将被关联到 skb，并稍后在 IP 协议层中使用。

/* Lockless fast path for the non-corking case. */if (!corkreq) {        skb = ip_make_skb(sk, fl4, getfrag, msg->msg_iov, ulen,                          sizeof(struct udphdr), &ipc, &rt,                          msg->msg_flags);        err = PTR_ERR(skb);        if (!IS_ERR_OR_NULL(skb))                err = udp_send_skb(skb, fl4);        goto out;}

ip_make_skb 函数尝试构建一个 skb，其考虑了各种因素，例如：

MTU。
UDP corking（如果启用）。
UDP Fragmentation Offloading（UFO）。
Fragmentation，如果不支持 UFO ，并且传输数据大于 MTU。

大多数网络设备驱动程序不支持 UFO，因为网络硬件本身不支持此功能。让我们看一下这段代码，记住 corking 是禁用的。接下来我们查看启用 corking 的路径。

`ip_make_skb`

ip_make_skb 函数可以在 ./net/ipv4/ip_output.c 中找到。这个函数有点棘手。 ip_make_skb 依赖底层代码（译者释：__ip_make_skb）构建 skb，它需要传入一个 corking 结构和 skb 排队的队列。在套接字没有 corked 的情况下，传入一个伪 corking 结构和空队列。

让我们来看看伪 corking 结构和队列是如何构造的：

struct sk_buff *ip_make_skb(struct sock *sk, /* more args */){        struct inet_cork cork;        struct sk_buff_head queue;        int err;        if (flags & MSG_PROBE)                return NULL;        __skb_queue_head_init(&queue);        cork.flags = 0;        cork.addr = 0;        cork.opt = NULL;        err = ip_setup_cork(sk, &cork, /* more args */);        if (err)                return ERR_PTR(err);

如上所述，corking 结构（cork）和队列（queue）都在栈上分配的；当 ip_make_skb 完成时，两者都不再需要。调用 ip_setup_cork 来构建伪 corking 结构，它分配内存、并初始化结构。接下来，调用 __ip_append_data，传入队列和 corking 结构：

err = __ip_append_data(sk, fl4, &queue, &cork,                       ¤t->task_frag, getfrag,                       from, length, transhdrlen, flags);

稍后我们将看到这个函数是如何工作的，因为它在套接字是否被 corked 的情况下都会使用。现在，我们只需要知道 __ip_append_data 会创建一个 skb，向其追加数据，并添加该 skb 到传入的队列中。如果追加数据失败，则调用 __ip_flush_pending_frame 静默丢弃数据，并向上返回错误码：

if (err) {        __ip_flush_pending_frames(sk, &queue, &cork);        return ERR_PTR(err);}

最后，如果没有错误发生，__ip_make_skb 出队队列中的 skb，添加 IP 选项，并返回一个 skb，该 skb 已准备好传递给底层发送：

return __ip_make_skb(sk, fl4, &queue, &cork);

传输数据！

如果没有发生错误，则 skb 会交给 udp_send_skb，它传递 skb 到网络栈的下一层，即 IP 协议栈：

err = PTR_ERR(skb);if (!IS_ERR_OR_NULL(skb))        err = udp_send_skb(skb, fl4);goto out;

如果出现错误，将在稍后计数。有关详细信息，请参阅 UDP corking 的“错误统计”部分。

corked UDP 套接字的慢速路径：没有预先存在的 corked 数据

如果正在使用 UDP corking，但没有预先存在的 corked 数据，则慢速路径开始：

锁定套接字。
检查应用程序缺陷：corked 套接字被 “re-corked”。
准备此 UDP 流的流结构，以进行 corking。
追加要发送的数据到现有数据。

你可以在下一段代码中看到这一点，udp_sendmsg 继续向下：

  lock_sock(sk);  if (unlikely(up->pending)) {          /* The socket is already corked while preparing it. */          /* ... which is an evident application bug. --ANK */          release_sock(sk);          LIMIT_NETDEBUG(KERN_DEBUG pr_fmt("cork app bug 2\n"));          err = -EINVAL;          goto out;  }  /*   *      Now cork the socket to pend data.   */  fl4 = &inet->cork.fl.u.ip4;  fl4->daddr = daddr;  fl4->saddr = saddr;  fl4->fl4_dport = dport;  fl4->fl4_sport = inet->inet_sport;  up->pending = AF_INET;do_append_data:  up->len += ulen;  err = ip_append_data(sk, fl4, getfrag, msg->msg_iov, ulen,                       sizeof(struct udphdr), &ipc, &rt,                       corkreq ? msg->msg_flags|MSG_MORE : msg->msg_flags);

`ip_append_data`

ip_append_data 是一个小的包装函数，它在调用 __ip__append_data 之前做两件主要事情：

检查用户是否传入了 MSG_PROBE 标志。此标志表示用户不想真正发送数据。应探测路径（例如，以确定 PMTU）。
检查套接字的发送队列是否为空。如果是，意味着没有待处理的 corking 数据，因此调用 ip_setup_cork 来设置 corking。

处理完上述条件后，就会调用 __ip_append_data 函数，该函数包含大量逻辑以处理数据为数据包。

`__ip_append_data`

如果套接字被 corked，则从 ip_append_data 调用该函数；如果套接字未被 corked ，则从 ip_make_skb 调用该函数。在这两种情况下，该函数要么分配一个新的缓冲区来存储传入的数据，要么追加数据到现有数据中。

这种工作方式以套接字的发送队列为中心。等待发送的现有数据（例如，如果套接字被 corked）在队列中有一个条目，可以在其中追加其他数据。

这个函数很复杂；它执行多轮计算，以确定如何构建传递给底层网络层的 skb，并且详细探讨缓冲器分配过程对于理解如何传输网络数据并非绝对必要。

该函数的重点包括：

处理 UDP fragmentation offloading（UFO）（如果硬件支持）。绝大多数网络硬件不支持 UFO。如果您的网卡驱动程序支持，它将设置功能标志 NETIF_F_UFO。
处理支持分散/聚集 IO 的网卡。许多卡都支持此功能，并使用 NETIF_F_SG 功能标志进行通告。该功能的可用性表明，网络卡能够处理数据分散在一组缓冲区中的数据包；内核不需要花费时间合并多个缓冲区为单个缓冲区。期望的是结果避免额外的复制，大多数网卡都支持该功能。
调用 sock_wmalloc 跟踪发送队列的大小。当分配一个新的 skb 时，skb 的大小会被计入拥有它的套接字，并且套接字的发送队列的分配字节会增加。如果发送队列中没有足够的空间，则不分配 skb，并返回并跟踪错误。我们将在下面的调优部分看到如何设置套接字发送队列大小。
增加错误统计信息。此函数中的任何错误都将增加 “discard”。我们将在下面的监控部分看到如何读取这个值。

此函数执行成功后，将返回 0。此时传输的数据已组装成适合网络设备的 skb，等待在发送队列上。

在 uncorked 的情况下，持有 skb 的队列传递给上述的 __ip_make_skb，在那里它出队并准备经由 udp_send_skb 发送到更低层。

在 corked 的情况下，向上传递 __ip_append_data 的返回值。数据停留在发送队列中，直到udp_sendmsg 确定是时候调用 udp_push_pending_frames 确认 skb 并调用 udp_send_skb。

刷新 corked 套接字

现在，udp_sendmsg 继续检查 ___ip_append_skb 的返回值（下面的 err ）：

if (err)        udp_flush_pending_frames(sk);else if (!corkreq)        err = udp_push_pending_frames(sk);else if (unlikely(skb_queue_empty(&sk->sk_write_queue)))        up->pending = 0;release_sock(sk);

让我们来看看每个分支：

如果出现错误（ err 非零），则调用 udp_flush_pending_frames，从而取消阻塞并从套接字的发送队列中删除所有数据。
如果发送此数据时未指定 MSG_MORE，则称为 udp_push_pending_frames，它尝试传递数据到较低的网络层。
如果发送队列为空，则标记套接字为不再阻塞。

如果 append 操作成功完成，并且还有更多的数据要 cork，则代码继续清理并返回所追加的数据的长度：

ip_rt_put(rt);if (free)        kfree(ipc.opt);if (!err)        return len;

这就是内核处理 corked 的 UDP 套接字的方式。

错误统计

如果：

non-corking 快速路径无法创建 skb 或 udp_send_skb 报告错误，或
ip_append_data 无法追加数据到 corked 的 UDP 套接字，或
在尝试传输 corked skb 时， udp_push_pending_frames 返回从 udp_send_skb 收到的错误

只有当收到的错误是 ENOBUFS（没有可用的内核内存）或套接字设置了 SOCK_NOSPACE（发送队列已满）时，SNDBUFERRORS 统计信息才会增加：

/* * ENOBUFS = no kernel mem, SOCK_NOSPACE = no sndbuf space.  Reporting * ENOBUFS might not be good (it's not tunable per se), but otherwise * we don't have a good statistic (IpOutDiscards but it can be too many * things).  We could add another new stat but at least for now that * seems like overkill. */if (err == -ENOBUFS || test_bit(SOCK_NOSPACE, &sk->sk_socket->flags)) {        UDP_INC_STATS_USER(sock_net(sk),                        UDP_MIB_SNDBUFERRORS, is_udplite);}return err;

我们将在下面的监控部分看到如何读取这些计数。

`udp_send_skb`

udp_sendmsg 调用 udp_send_skb 函数最终下推 skb 到网络栈的下一层，在本例中是 IP 协议层。该函数做了几件重要的事情：

添加 UDP 报头到 skb。
处理校验和：软件校验和、硬件校验和或无校验和（如果禁用）。
尝试调用 ip_send_skb 发送 skb 到 IP 协议层。
增加传输成功或失败的统计计数器。

我们来看看。首先，创建 UDP 报头：

static int udp_send_skb(struct sk_buff *skb, struct flowi4 *fl4){/* useful variables ... */        /*         * Create a UDP header         */        uh = udp_hdr(skb);        uh->source = inet->inet_sport;        uh->dest = fl4->fl4_dport;        uh->len = htons(len);        uh->check = 0;

接下来，处理校验和。有几种情况：

首先处理 UDP-Lite 校验和。
接下来，如果套接字被设置为不生成校验和（通过setsockopt 设置 SO_NO_CHECK），将如此标记 skb。
接下来，如果硬件支持 UDP 校验和，调用 udp4_hwcsum 来设置。请注意，如果数据包被分段，内核将在软件中生成校验和。您可以在 udp4_hwcsum 的源代码中看到这一点。
最后，调用 udp_csum 生成软件校验和。

if (is_udplite)                                  /*     UDP-Lite      */        csum = udplite_csum(skb);else if (sk->sk_no_check == UDP_CSUM_NOXMIT) {   /* UDP csum disabled */        skb->ip_summed = CHECKSUM_NONE;        goto send;} else if (skb->ip_summed == CHECKSUM_PARTIAL) { /* UDP hardware csum */        udp4_hwcsum(skb, fl4->saddr, fl4->daddr);        goto send;} else        csum = udp_csum(skb);

接下来，添加 psuedo 报头：

uh->check = csum_tcpudp_magic(fl4->saddr, fl4->daddr, len,                              sk->sk_protocol, csum);if (uh->check == 0)        uh->check = CSUM_MANGLED_0;

如果校验和为 0，则根据 RFC 768 设置其等效的补码值为校验和。最终，skb 被传递到 IP 协议栈，增加统计信息：

send:  err = ip_send_skb(sock_net(sk), skb);  if (err) {          if (err == -ENOBUFS && !inet->recverr) {                  UDP_INC_STATS_USER(sock_net(sk),                                     UDP_MIB_SNDBUFERRORS, is_udplite);                  err = 0;          }  } else          UDP_INC_STATS_USER(sock_net(sk),                             UDP_MIB_OUTDATAGRAMS, is_udplite);  return err;

如果 ip_send_skb 执行成功，则增加 OUTDATAGRAMS 统计信息。如果 IP 协议层报告错误，则增加 SNDBUFERRORS，但仅当错误为 ENOBUFS（内核内存不足）且未启用错误队列时，才增加。

在讨论 IP 协议层之前，让我们先看看如何在 Linux 内核中监控和调优 UDP 协议层。

监控：UDP 协议层统计信息

获取 UDP 协议统计信息的两个非常有用的文件是：

/proc/net/snmp
/proc/net/udp

`/proc/net/snmp`

读取 /proc/net/snmp 监控详细的 UDP 协议统计信息。

$ cat /proc/net/snmp | grep Udp\:Udp: InDatagrams NoPorts InErrors OutDatagrams RcvbufErrors SndbufErrorsUdp: 16314 0 0 17161 0 0

为了准确地理解这些统计信息在哪里增加，您需要仔细阅读内核源代码。在一些情况下，一些错误会计入多个统计量中。

InDatagrams：当用户程序使用 recvmsg 读取数据报时增加。当 UDP 数据包被封装并发回处理时，也会增加。
NoPorts：当 UDP 数据包到达目的地为没有程序侦听的端口时增加。
InErrors：在以下几种情况下增加：接收队列中没有内存，当看到错误的校验和时，sk_add_backlog 无法添加数据报。
OutDatagrams：当 UDP 数据包无错误地传递到要发送的 IP 协议层时增加。
RcvbufErrors：当 sock_queue_rcv_skb 报告没有可用内存时增加；如果 sk->sk_rmem_alloc 大于等于 sk->sk_rcvbuf 就会发生这种情况。
SndbufErrors：如果 IP 协议层在尝试发送数据包时报告错误，并且没有设置错误队列，则会增加。如果没有可用的发送队列空间或内核内存，也会增加。
InCsumErrors：检测到 UDP 校验和失败时增加。请注意，在我能找到的所有情况下，InCsumErrors 与 InErrors 会同时增加。因此，InErrors-InCsumErros 应当得出接收端的内存相关错误的计数。

请注意，UDP 协议层发现的一些错误会报告到其他协议层的统计信息文件。举个例子：路由错误。 udp_sendmsg 发现的路由错误将增加 IP 协议层的 OutNoRoutes 统计信息。

`/proc/net/udp`

读取 /proc/net/udp 监控 UDP 套接字统计信息

$ cat /proc/net/udp  sl  local_address rem_address   st tx_queue rx_queue tr tm->when retrnsmt   uid  timeout inode ref pointer drops  515: 00000000:B346 00000000:0000 07 00000000:00000000 00:00000000 00000000   104        0 7518 2 0000000000000000 0  558: 00000000:0371 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7408 2 0000000000000000 0  588: 0100007F:038F 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7511 2 0000000000000000 0  769: 00000000:0044 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7673 2 0000000000000000 0  812: 00000000:006F 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7407 2 0000000000000000 0

第一行描述后续行中的每个字段：

sl：套接字的内核哈希槽
local_address：套接字的十六进制本地地址和端口号，以 :分隔。
rem_address：套接字的十六进制远程地址和端口号，以 : 分隔。
st：套接字的状态。奇怪的是，UDP 协议层似乎使用了一些 TCP 套接字状态。在上面的例子中，7 是 TCP_CLOSE。
tx_queue：内核中为传出 UDP 数据报分配的内存量。
rx_queue：内核中为传入 UDP 数据报分配的内存量。
tr，tm->when，retrnsmt：UDP 协议层未使用这些字段。
uid：创建此套接字的用户的有效用户 ID。
timeout：UDP 协议层未使用。
inode：与此套接字对应的 inode 编号。您可以使用它来帮助您确定哪个用户进程打开了此套接字。检查 /proc/[pid]/fd，它将包含到 socket:[inode] 的符号链接。
ref：套接字的当前引用计数。
pointer：内核中 struct sock 的内存地址。
drops：与此套接字关联的数据报丢弃数。请注意，这不包括任何与发送数据报有关的丢弃（在 corked 的 UDP 套接字上，或其他）；在本博客考察的内核版本中，只在接收路径中增加。

可以在 net/ipv4/udp.c 中找到输出此内容的代码。

调优：套接字发送队列内存

发送队列（也称为写入队列）的最大大小可以设置 net.core.wmem_max sysctl 来调整

设置 sysctl 增加最大发送缓冲区大小。

$ sudo sysctl -w net.core.wmem_max=8388608

sk->sk_write_queue 从 net.core.wmem_default 值开始，也可以设置 sysctl 来调整，如下所示：

设置 sysctl 来调整默认的初始发送缓冲区大小。

$ sudo sysctl -w net.core.wmem_default=8388608

您还可以从应用程序调用 setsockopt 并传递 SO_SNDBUF 来设置 sk->sk_write_queue 大小。您可以使用 setsockopt 设置的最大值是 net.core.wmem_max。

但是，当运行应用程序的用户具有 CAP_NET_ADMIN 权限时，可以调用 setsockopt 并传递 SO_SNDBUFFORCE 来覆盖 net.core.wmem_max 限制。

每次调用 ip_append_data 分配 skb 时，sk->sk_wmem_alloc 都会增加。正如我们将看到的，UDP 数据报传输很快，通常不会在发送队列中花费太多时间。

IP 协议层

UDP 协议层简单地调用 ip_send_skb 传递 skbs 给 IP 协议，因此让我们从那开始，并掌握 IP 协议层！

`ip_send_skb`

ip_send_skb 函数位于 ./net/ipv4/ip_output.c 中，非常短。它只是向下调用 ip_local_out，如果 ip_local_out 返回某种错误，它就会增加错误统计信息。我们来看一下：

int ip_send_skb(struct net *net, struct sk_buff *skb){        int err;        err = ip_local_out(skb);        if (err) {                if (err > 0)                        err = net_xmit_errno(err);                if (err)                        IP_INC_STATS(net, IPSTATS_MIB_OUTDISCARDS);        }        return err;}

如上所述，调用 ip_local_out，然后处理返回值。调用 net_xmit_errno “翻译” 来自底层的错误为 IP 和 UDP 协议层可以理解的错误。如果发生错误，将增加 IP 协议统计信息 “OutDiscards” 。稍后我们将看到获得此统计信息要读取哪些文件。现在，让我们继续探索，看看 ip_local_out 会把我们带到哪里。

`ip_local_out` 和 `__ip_local_out`

幸运的是，ip_local_out 和 __ip_local_out 都很简单。ip_local_out 只是向下调用 __ip_local_out，并根据返回值调用路由层发送数据包：

int ip_local_out(struct sk_buff *skb){        int err;        err = __ip_local_out(skb);        if (likely(err == 1))                err = dst_output(skb);        return err;}

可以从 __ip_local_out 的源代码中看到，该函数首先做了两件重要的事情：

设置 IP 数据包的长度
调用 ip_send_check 计算要写入 IP 数据包报头的校验和。 ip_send_check 函数调用 ip_fast_csum 来计算校验和。在 x86 和 x86_64 体系结构上，此功能以汇编实现。你可以在这里阅读 64 位的实现，在这里阅读 32 位的实现。

接下来，IP 协议层调用 nf_hook 向下调用 netfilter。传回 nf_hook 函数的返回值给 ip_local_out。如果 nf_hook 返回 1，表明允许数据包通过，调用者应该自己传递它。正如我们在上面看到的，实际正是如此：ip_local_out 检查返回值 1，并调用 dst_output 传递数据包。让我们来看看 __ip_local_out 的代码：

int __ip_local_out(struct sk_buff *skb){        struct iphdr *iph = ip_hdr(skb);        iph->tot_len = htons(skb->len);        ip_send_check(iph);        return nf_hook(NFPROTO_IPV4, NF_INET_LOCAL_OUT, skb, NULL,                       skb_dst(skb)->dev, dst_output);}

netfilter 和 `nf_hook`

简洁起见，我决定跳过对 netfilter、iptables 和 conntrack 的深入研究。你可以从这里和这里开始深入了解 netfilter 的源代码。

简版：nf_hook 是一个包装器，它调用 nf_hook_thresh，首先检查指定的协议族和钩子类型（在本例中分别为 NFPROTO_IPV4 和 NF_INET_LOCAL_OUT）是否安装了过滤器，并试图返回执行流程到 IP 协议层，以避免深入 netfilter 和在其下面的钩子，如 iptables 和 conntrack。

请记住：如果你有很多或非常复杂的 netfilter 或 iptables 规则，这些规则将在启动原始 sendmsg 调用的用户进程的 CPU 上下文中执行。如果您设置了 CPU pinning 以限制此进程的执行到特定的 CPU（或一组 CPU），请注意 CPU 将花费系统时间处理出站 iptables 规则。根据系统的工作负载，如果您在这里测量性能回归，您可能需要小心地固定进程到 CPU 或降低规则集的复杂性。

为了便于讨论，我们假设 nf_hook 返回 1 表示调用方（在本例中是 IP 协议层）应该自己传递数据包。

目标缓存

在 Linux 内核中，dst 代码实现了协议无关的目标缓存。为了理解如何设置 dst 条目以继续发送 UDP 数据报，我们需要简要地探讨一下 dst 条目和路由是如何生成的。目标缓存、路由和邻居子系统都可以单独进行极其详细的探讨。出于我们的目的，我们可以快速查看一下这一切是如何结合在一起的。

我们上面看到的代码调用了 dst_output(skb)。这个函数只是查找 skb 附加的 dst 条目 skb 并调用 output 函数。我们来看一下：

/* Output packet to network from transport.  */static inline int dst_output(struct sk_buff *skb){        return skb_dst(skb)->output(skb);}

看起来很简单，但 output 函数起初是如何被关联到 dst 条目的呢？

重要的是要了解，有许多不同的方式添加目标缓存条目。到目前为止，我们在代码路径中看到的一种方式是从 udp_sendmsg 调用 ip_route_output_flow。 ip_route_output_flow 函数调用 __ip_route_output_key，后者调用 __mkroute_output。 __mkroute_output 函数创建路由和目标缓存条目。当它执行时，它会确定适合于此目标的输出函数。大多数时候，这个函数是 ip_output。

`ip_output`

因此，dst_output 执行 output 函数，在 UDP IPv4 情况下为 ip_output。 ip_output 函数很简单：

int ip_output(struct sk_buff *skb){        struct net_device *dev = skb_dst(skb)->dev;        IP_UPD_PO_STATS(dev_net(dev), IPSTATS_MIB_OUT, skb->len);        skb->dev = dev;        skb->protocol = htons(ETH_P_IP);        return NF_HOOK_COND(NFPROTO_IPV4, NF_INET_POST_ROUTING, skb, NULL, dev,                            ip_finish_output,                            !(IPCB(skb)->flags & IPSKB_REROUTED));}

首先，更新统计计数器 IPSTATS_MIB_OUT。 IP_UPD_PO_STATS 宏增加字节数和数据包数。我们将在后面的部分中看到如何获得 IP 协议层统计信息以及它们各自的含义。接下来，设置传输此 skb 的设备、协议。

最后，调用 NF_HOOK_COND 传递控制权给 netfilter。查看 NF_HOOK_COND 的函数原型有助于更清楚地解释它的工作原理。来源为 ./include/linux/netfilter.h：

static inline intNF_HOOK_COND(uint8_t pf, unsigned int hook, struct sk_buff *skb,             struct net_device *in, struct net_device *out,             int (*okfn)(struct sk_buff *), bool cond)

NF_HOOK_COND 检查传入的条件。在此情况下，条件是 !(IPCB(skb)->flags & IPSKB_REROUTED。如果条件为真，那么传递 skb 给 netfilter。如果 netfilter 允许数据包通过，则调用 okfn。此情况下，okfn 是 ip_finish_output。

`ip_finish_output`

ip_finish_output函数也很简洁明了。我们来看一下：

static int ip_finish_output(struct sk_buff *skb){#if defined(CONFIG_NETFILTER) && defined(CONFIG_XFRM)        /* Policy lookup after SNAT yielded a new policy */        if (skb_dst(skb)->xfrm != NULL) {                IPCB(skb)->flags |= IPSKB_REROUTED;                return dst_output(skb);        }#endif        if (skb->len > ip_skb_dst_mtu(skb) && !skb_is_gso(skb))                return ip_fragment(skb, ip_finish_output2);        else                return ip_finish_output2(skb);}

如果在此内核中启用了 netfilter 和数据包转换，会更新 skb 的标志，并通过 dst_output 将其发送回。两种比较常见的情况是：

如果数据包的长度大于 MTU，并且数据包的分段不会卸载到设备，则调用 ip_fragment 以在传输之前对数据包进行分段。
否则，直接传递数据包到 ip_finish_output2。

在继续内核学习之前，让我们稍微绕个圈子来讨论一下路径 MTU 发现。

路径 MTU 发现

Linux 提供了一个我前面避免提到的特性：路径 MTU 发现。此功能允许内核自动确定特定路由的最大 MTU。确定此值并发送小于或等于路由 MTU 的数据包意味着可以避免 IP 分段。这是首选设置，因为数据包分段会消耗系统资源，而且似乎很容易避免：简单地发送足够小的数据包，就不需要分段。

调用 setsockopt，您可以在应用程序中使用 SOL_IP 级别和 IP_MTU_DISCOVER optname 调整每个套接字的路径 MTU 发现设置。optval 可以是 IP 协议手册页中描述的几个值之一。您可能希望设置的值为：IP_PMTUDISC_DO 表示“始终执行路径 MTU 发现”。更高级的网络应用程序或诊断工具可以选择自己实现 RFC 4821 ，以在应用程序启动时确定特定路由的 PMTU。在这种情况下，您可以使用 IP_PMTUDISC_PROBE 选项，该选项告诉内核设置“Don’t Fragment”位，允许您发送大于 PMTU 的数据。

调用 getsockopt，您的应用程序可以使用 SOL_IP 和 IP_MTU optname 来检索 PMTU。您可以使用它来帮助指导应用程序尝试在传输之前构造 UDP 数据报的大小。

如果已启用 PTMU 发现，则任何发送大于 PMTU 的 UDP 数据的尝试都将导致应用程序收到错误码 EMSGSIZE。然后，应用程序可以使用更少的数据重试。

强烈建议启用 PTMU 发现，因此我将避免详细描述 IP 分段代码路径。当查看 IP 协议层统计信息时，我将解释所有统计信息，包括与分段相关的统计信息。其中许多在 ip_fragment。无论是否分段，都调用了 ip_finish_output2，所以让我们继续。

`ip_finish_output2`

ip_finish_output2 在 IP 分段之后被调用，并且也直接从 ip_finish_output 调用。在向下传递数据包到邻居缓存之前，此函数增加各种统计计数器。让我们看看它是如何工作的：

static inline int ip_finish_output2(struct sk_buff *skb){/* variable declarations */        if (rt->rt_type == RTN_MULTICAST) {                IP_UPD_PO_STATS(dev_net(dev), IPSTATS_MIB_OUTMCAST, skb->len);        } else if (rt->rt_type == RTN_BROADCAST)                IP_UPD_PO_STATS(dev_net(dev), IPSTATS_MIB_OUTBCAST, skb->len);        /* Be paranoid, rather than too clever. */        if (unlikely(skb_headroom(skb) < hh_len && dev->header_ops)) {                struct sk_buff *skb2;                skb2 = skb_realloc_headroom(skb, LL_RESERVED_SPACE(dev));                if (skb2 == NULL) {                        kfree_skb(skb);                        return -ENOMEM;                }                if (skb->sk)                        skb_set_owner_w(skb2, skb->sk);                consume_skb(skb);                skb = skb2;        }

如果与此数据包相关联的路由结构是组播类型，使用IP_UPD_PO_STATS 宏来增加 OutMcastPkts 和 OutMcastOctets 计数器。否则，如果路由类型为广播，则增加 OutBcastPkts 和 OutBcastOctets 计数器。

接下来，执行检查以确保 skb 结构具有足够的空间添加任何需要的链路层报头。如果没有，则调用 skb_realloc_headroom 来分配额外的空间，并且新 skb 的成本将计入相关套接字。

rcu_read_lock_bh();nexthop = (__force u32) rt_nexthop(rt, ip_hdr(skb)->daddr);neigh = __ipv4_neigh_lookup_noref(dev, nexthop);if (unlikely(!neigh))        neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);

继续，我们可以看到，下一跳是查询路由层，然后查找邻居缓存得到的。如果找不到邻居，则调用 __neigh_create 创建一个。例如，数据第一次发送到另一台主机时可能出现此情况。请注意，此函数是调用 arp_tbl（在 ./net/ipv4/arp.c 中定义），在 ARP 表中创建邻居条目。其他系统（如 IPv6 或 DECnet）维护自己的 ARP 表，并传递不同的结构给 __neigh_create。本文并不旨在全面介绍邻居缓存，但如果必须创建邻居缓存，那么创建可能会导致缓存增长。这篇文章将在下面的章节中介绍更多关于邻居缓存的细节。无论如何，邻居缓存导出自己的统计信息，以便可以测量缓存增长。有关详细信息，请参阅下面的监控部分。

        if (!IS_ERR(neigh)) {                int res = dst_neigh_output(dst, neigh, skb);                rcu_read_unlock_bh();                return res;        }        rcu_read_unlock_bh();        net_dbg_ratelimited("%s: No header cache and no neighbour!\n",                            __func__);        kfree_skb(skb);        return -EINVAL;}

最后，如果没有返回错误，则调用 dst_neigh_output 沿着输出的旅程传递 skb。否则，释放 skb 并返回 EINVAL。此处的错误将产生连锁反应，并增加 ip_send_skb 中的 OutDiscards。让我们继续探索 dst_neigh_output，并继续接近 Linux 内核的网络设备子系统。

`dst_neigh_output`

dst_neigh_output 函数为我们做了两件重要的事情。首先，回想一下在这篇博客文章的前面，我们看到如果用户通过辅助消息指定 MSG_CONFIRM 给 sendmsg 函数，则会翻转一个标志，指示远程主机的目标缓存条目仍然有效，不应被垃圾回收。该检查在这里发生，设置邻居的 confirmed 字段为当前的 jiffies 计数。

static inline int dst_neigh_output(struct dst_entry *dst, struct neighbour *n,                                   struct sk_buff *skb){        const struct hh_cache *hh;        if (dst->pending_confirm) {                unsigned long now = jiffies;                dst->pending_confirm = 0;                /* avoid dirtying neighbour */                if (n->confirmed != now)                        n->confirmed = now;        }

其次，检查邻居的状态，并调用适当的输出函数。让我们来看看以下条件句，试着理解是怎么回事：

        hh = &n->hh;        if ((n->nud_state & NUD_CONNECTED) && hh->hh_len)                return neigh_hh_output(hh, skb);        else                return n->output(n, skb);}

如果邻居被认为是 NUD_CONNECTED，则意味着它是以下情况的一种或多种：

NUD_PERMANENT：静态路由。
NUD_NOARP：不需要 ARP 请求（例如，目的地是组播或广播地址，或环回设备）。
NUD_REACHABLE：邻居是“可达的”。只要 ARP 请求成功处理，目的地就会被标记为可达。

且 “硬件头”（hh）已缓存（因为之前发送过数据并已生成它），则调用 neigh_hh_output。否则，调用 output 函数。两条代码路径都以 dev_queue_xmit 结束，它传递 skb 到 Linux 网络设备子系统，在到达设备驱动程序层之前会进行更多处理。让我们跟随 neigh_hh_output 和 n->output 代码路径，直至 dev_queue_xmit。

`neigh_hh_output`

如果目标是 NUD_CONNECTED，并且硬件头已缓存，则调用 neigh_hh_output ，它在移交skb 给 dev_queue_xmit 之前执行一小段处理逻辑。让我们从 ./include/net/neighbor.h 来看看：

static inline int neigh_hh_output(const struct hh_cache *hh, struct sk_buff *skb){        unsigned int seq;        int hh_len;        do {                seq = read_seqbegin(&hh->hh_lock);                hh_len = hh->hh_len;                if (likely(hh_len <= HH_DATA_MOD)) {                        /* this is inlined by gcc */                        memcpy(skb->data - HH_DATA_MOD, hh->hh_data, HH_DATA_MOD);                 } else {                         int hh_alen = HH_DATA_ALIGN(hh_len);                         memcpy(skb->data - hh_alen, hh->hh_data, hh_alen);                 }         } while (read_seqretry(&hh->hh_lock, seq));         skb_push(skb, hh_len);         return dev_queue_xmit(skb);}

这个函数有点难以理解，部分原因是同步读/写已缓存硬件头的锁定原语。这段代码使用了一种叫做 seqlock 的东西。你可以把上面的 do { } while() 循环想象成一种简单的重试机制，它将尝试执行循环中的操作，直到成功执行为止。

循环本身试图确定在复制之前是否需要对齐硬件头部的长度。这是必需的，因为某些硬件报头（如 IEEE 802.11 报头）大于 HH_DATA_MOD（16 字节）。

一旦数据被复制到 skb，并且 skb_push 更新了 skb 的内部指针跟踪数据，skb 就会传递给 dev_queue_xmit 进入 Linux 网络设备子系统。

`n->output`

如果目标不是 NUD_CONNECTED 或硬件头尚未缓存，则代码沿着 n->output 路径继续。邻居结构的输出函数指针关联了什么 output？嗯，那要看情况了。为了理解这是如何设置的，我们需要了解更多关于邻居缓存的工作原理。

一个 struct neighbour 包含几个重要的字段。上面看到的 nud_state 字段，output 函数和 ops 结构。回想一下之前看到的，如果在缓存中没有找到现有的条目，则从 ip_finish_output2 调用 __neigh_create。当调用 __neigh_creaet 时，邻居被分配，其 output 函数初始设置为 neigh_blackhole。随着 __neigh_create 代码执行，它根据邻居的状态调整 output 的值以指向适当的 output 函数。

例如，当代码确定要连接的邻居时，neigh_connect 设置 output 指针为 neigh->ops->connected_output。或者，在代码怀疑邻居可能关闭时（例如，如果自发送探测以来已经超过/proc/sys/net/ipv4/neigh/default/delay_first_probe_time 秒），neigh_suspect 设置 output 指针为 neigh->ops->output。

换句话说：neigh->output 设置为 neigh->ops_connected_output 还是 neigh->ops->output，取决于邻居的状态。 neigh->ops 从何而来？

在分配邻居之后，arp_constructor（来自 ./net/ipv4/arp.c）被调用来设置 struct neighbour 的一些字段。特别地，此函数检查与邻居相关联的设备，并且如果该设备暴露包含cache（以太网设备这样做）函数的 header_ops 结构，则 neigh->ops 被设置为 ./net/ipv4/arp. c 中定义的以下结构：

static const struct neigh_ops arp_hh_ops = {        .family =               AF_INET,        .solicit =              arp_solicit,        .error_report =         arp_error_report,        .output =               neigh_resolve_output,        .connected_output =     neigh_resolve_output,};

因此，无论邻居缓存代码是否视邻居为 “已连接”或“可疑”，都将关联 neigh_resolve_output 函数到 neigh->output，并且在调用 n->output 时被调用。

`neigh_resolve_output`

此函数的目的是尝试解析未连接的邻居，或已连接但没有缓存硬件头的邻居。让我们来看看这个函数是如何工作的：

/* Slow and careful. */int neigh_resolve_output(struct neighbour *neigh, struct sk_buff *skb){        struct dst_entry *dst = skb_dst(skb);        int rc = 0;        if (!dst)                goto discard;        if (!neigh_event_send(neigh, skb)) {                int err;                struct net_device *dev = neigh->dev;                unsigned int seq;

代码首先执行一些基本检查，然后继续调用 neigh_event_send。 neigh_event_send 函数是__neigh_event_send 的简单包装。__neigh_event_send 实际完成解析邻居的繁重工作。您可以在 ./net/core/neighbor.c 中阅读 __neigh_event_send 的源代码，但从代码中可以看出，用户最感兴趣的有三点：

假设/proc/sys/net/ipv4/neigh/default/app_solicit /proc/sys/net/ipv4/neigh/default/mcast_solicit 中设置的值允许发送探测，则 NUD_NONE 状态（分配时的默认状态）的邻居将立即发送 ARP 请求（如果不允许，则标记状态为 NUD_FAILED）。邻居状态被更新并设置为 NUD_INCOMPLETE。
更新状态为 NUD_STALE 的邻居为 NUD_DELAYED，并设置一个计时器以稍后探测它们（稍后：当前时间 +/proc/sys/net/ipv4/neigh/default/delay_first_probe_time 秒）。
检查 NUD_INCOMPLETE 的任何邻居（包括上面第一点），以确保未解析邻居的排队数据包数量小于等于 /proc/sys/net/ipv4/neigh/default/unres_qlen。如果有更多的数据包，则将数据包出队并丢弃，直到长度低于等于 proc 中的值。针对此类情况，邻居缓存统计中的统计计数器都将增加。

如果需要立刻发送 ARP 探测，它就会发送。__neigh_event_send 将返回 0，指示邻居被视为“已连接”或“已延迟”的，否则返回 1。返回值 0 允许 neigh_resolve_output 函数继续执行：

if (dev->header_ops->cache && !neigh->hh.hh_len)        neigh_hh_init(neigh, dst);

如果邻居关联的设备的协议实现（在此例子中是以太网）支持缓存硬件报头，并且它当前没有被缓存，则调用 neigh_hh_init 缓存它。

do {        __skb_pull(skb, skb_network_offset(skb));        seq = read_seqbegin(&neigh->ha_lock);        err = dev_hard_header(skb, dev, ntohs(skb->protocol),                              neigh->ha, NULL, skb->len);} while (read_seqretry(&neigh->ha_lock, seq));

接下来，使用 seqlock 同步访问邻居结构的硬件地址，当尝试为 skb 创建以太网报头时，dev_hard_header 将读取该地址。一旦 seqlock 允许继续执行，就会进行错误检查：

        if (err >= 0)                rc = dev_queue_xmit(skb);        else                goto out_kfree_skb;}

如果以太网头被写入而没有返回错误，则 skb 被传递到 dev_queue_xmit，以通过 Linux 网络设备子系统进行传输。如果有错误，goto 将丢弃 skb，设置返回代码并返回错误：

out:        return rc;discard:        neigh_dbg(1, "%s: dst=%p neigh=%p\n", __func__, dst, neigh);out_kfree_skb:        rc = -EINVAL;        kfree_skb(skb);        goto out;}EXPORT_SYMBOL(neigh_resolve_output);

在进入 Linux 网络设备子系统前，让我们看一下一些监控和调优 IP 协议层的文件。

监控：IP 协议层

`/proc/net/snmp`

读取 /proc/net/snmp 监控详细的 IP 协议统计信息。

$ cat /proc/net/snmpIp: Forwarding DefaultTTL InReceives InHdrErrors InAddrErrors ForwDatagrams InUnknownProtos InDiscards InDelivers OutRequests OutDiscards OutNoRoutes ReasmTimeout ReasmReqds ReasmOKs ReasmFails FragOKs FragFails FragCreatesIp: 1 64 25922988125 0 0 15771700 0 0 25898327616 22789396404 12987882 51 1 10129840 2196520 1 0 0 0...

此文件包含多个协议层的统计信息。首先显示 IP 协议层。第一行包含空格分隔的名称，每个名称对应下一行中的相应值。

在 IP 协议层中，您会发现统计计数器正在增加。计数器引用 C 枚举类型。 /proc/net/snmp 所有有效的枚举值和它们对应的字段名称可以在 include/uapi/linux/snmp.h 中找到：

enum{  IPSTATS_MIB_NUM = 0,/* frequently written fields in fast path, kept in same cache line */  IPSTATS_MIB_INPKTS,     /* InReceives */  IPSTATS_MIB_INOCTETS,     /* InOctets */  IPSTATS_MIB_INDELIVERS,     /* InDelivers */  IPSTATS_MIB_OUTFORWDATAGRAMS,   /* OutForwDatagrams */  IPSTATS_MIB_OUTPKTS,      /* OutRequests */  IPSTATS_MIB_OUTOCTETS,      /* OutOctets */  /* ... */

一些有趣的统计数据：

OutRequests：每次尝试发送 IP 数据包时增加。看起来，每次是否成功，都会增加此值。
OutDiscards：每次丢弃 IP 数据包时增加。如果数据追加到 skb（对于 corked 的套接字）失败，或者 IP 下面的层返回错误，就会发生这种情况。
OutNoRoute：在多个位置增加，例如在 UDP 协议层（udp_sendmsg），如果无法为给定目标生成路由。当应用程序在 UDP 套接字上调用 “connect” 但找不到路由时也会增加。
FragOKs：每个被分段的数据包增加一次。例如，被分割成 3 个片段的数据包增加该计数器一次。
FragCreates：每个创建的片段增加一次。例如，被分割成 3 个片段的数据包增加该计数器三次。
FragFails：如果尝试分段，但不允许分段，则增加（因为设置了 “Don’t Fragment” 位）。如果输出片段失败，也会增加。

其他统计数据记录在接收端博客文章中。

`/proc/net/netstat`

读取 /proc/net/netstat 监控扩展 IP 协议统计信息。

$ cat /proc/net/netstat | grep IpExtIpExt: InNoRoutes InTruncatedPkts InMcastPkts OutMcastPkts InBcastPkts OutBcastPkts InOctets OutOctets InMcastOctets OutMcastOctets InBcastOctets OutBcastOctets InCsumErrors InNoECTPkts InECT0Pktsu InCEPktsIpExt: 0 0 0 0 277959 0 14568040307695 32991309088496 0 0 58649349 0 0 0 0 0

格式类似于 /proc/net/snmp，不同之处在于行的前缀是 IpExt。

一些有趣的统计数据：

OutMcastPkts：每次发送目的地为组播地址的数据包时增加。
OutBcastPkts：每次发送目的地为广播地址的数据包时增加。
OutOctects：输出的数据包字节数。
OutMcastOctets：输出的组播数据包字节数。
OutBcastOctets：输出的广播数据包字节数。

其他统计数据记录在接收端博客文章中。

请注意，这些值都是在 IP 层的特定位置增加的。代码有时会移动，可能会出现双重计数错误或其他统计错误。如果这些统计数据对您很重要，强烈建议您阅读 IP 协议层源代码，了解您重要的指标何时增加（或不增加）。

Linux 网络设备子系统

在我们继续讨论 dev_queue_xmit 的数据包传输路径之前，让我们花一点时间来谈谈一些重要的概念，这些概念将出现在接下来的部分。

Linux 流量控制

Linux 支持一种叫做流量控制的特性。此功能允许系统管理员控制如何从计算机传输数据包。本文不会深入讨论 Linux 流量控制的各方面的细节。这篇文档提供了对系统、其控制和特性的深入研究。有几个概念值得一提，以使下面看到的代码更容易理解。

流量控制系统包含几种不同的排队系统，它们为控制流量提供不同的功能。单个排队系统通常称为 qdisc，也称为排队规则。您可以将 qdisc 视为调度程序；qdisc 决定何时以及如何传输数据包。

在 Linux 上，每个接口都有一个与之关联的默认 qdisc。对于仅支持单个传输队列的网络硬件，使用默认 qdisc pfifo_fast。支持多个传输队列的网络硬件使用默认 qdisc mq。您可以运行 tc qdisc 来检查您的系统。

还需要注意的是，有些设备支持硬件流量控制，这可以让管理员将流量控制卸载到网络硬件上，从而节省系统上的 CPU 资源。

现在这些想法已经介绍过了，让我们从 ./net/core/dev.c 继续沿着 dev_queue_xmit 进行。

`dev_queue_xmit` 和 `__dev_queue_xmit`

dev_queue_xmit 是 __dev_queue_xmit 的一个简单包装：

int dev_queue_xmit(struct sk_buff *skb){        return __dev_queue_xmit(skb, NULL);}EXPORT_SYMBOL(dev_queue_xmit);

在此之后，__dev_queue_xmit 是完成繁重工作的地方。让我们一步一步地看一下这段代码，继续：

static int __dev_queue_xmit(struct sk_buff *skb, void *accel_priv){        struct net_device *dev = skb->dev;        struct netdev_queue *txq;        struct Qdisc *q;        int rc = -ENOMEM;        skb_reset_mac_header(skb);        /* Disable soft irqs for various locks below. Also         * stops preemption for RCU.         */        rcu_read_lock_bh();        skb_update_prio(skb);

上面的代码开始于：

声明变量。
调用 skb_reset_mac_header 来准备要处理的 skb。这将重置 skb 的内部指针，以便可以访问以太网报头。
调用 rcu_read_lock_bh 来准备读取 RCU 保护的数据结构。阅读更多关于安全使用 RCU 的信息。
如果正在使用网络优先级 cgroup，调用 skb_update_prio 来设置 skb 的优先级。

现在，我们将开始更复杂的数据传输部分 ;）

txq = netdev_pick_tx(dev, skb, accel_priv);

在这里，代码试图确定要使用哪个传输队列。正如您将在本文后面看到的，一些网络设备公开了多个传输队列来传输数据。让我们来详细看看这是如何工作的。

`netdev_pick_tx`

netdev_pick_tx 代码位于 ./net/core/flow_dissector.c 中。我们来看一下：

struct netdev_queue *netdev_pick_tx(struct net_device *dev,                                    struct sk_buff *skb,                                    void *accel_priv){        int queue_index = 0;        if (dev->real_num_tx_queues != 1) {                const struct net_device_ops *ops = dev->netdev_ops;                if (ops->ndo_select_queue)                        queue_index = ops->ndo_select_queue(dev, skb,                                                            accel_priv);                else                        queue_index = __netdev_pick_tx(dev, skb);                if (!accel_priv)                        queue_index = dev_cap_txqueue(dev, queue_index);        }        skb_set_queue_mapping(skb, queue_index);        return netdev_get_tx_queue(dev, queue_index);}

正如您在上面看到的，如果网络设备只支持单个传输队列，则会跳过更复杂的代码，并返回单个传输队列。在高端服务器上使用的大多数设备具有多个传输队列。具有多个传输队列的设备有两种情况：

驱动程序实现 ndo_select_queue，它可以以硬件或功能特定的方式更智能地选择传输队列，或者
驱动程序没有实现 ndo_select_queue，所以内核应该自己选择设备。

截止 3.13 内核，实现 ndo_select_queue 的驱动程序并不多。 bnx2x 和 ixgbe 驱动程序实现了此功能，但它仅用于以太网光纤通道（FCoE）。鉴于此，让我们假设网络设备不实现ndo_select_queue 和/或 FCoE 未被使用。在这种情况下，内核将选择具有 __netdev_pick_tx。

一旦 __netdev_pick_tx 确定了队列的索引，skb_set_queue_mapping 将缓存该值（稍后将在流量控制代码中使用），netdev_get_tx_queue 将查找并返回指向该队列的指针。在回到 __dev_queue_xmit 之前，让我们看看 __netdev_pick_tx 是如何工作。

`__netdev_pick_tx`

让我们来看看内核如何选择传输队列来传输数据。来自 ./net/core/flow_dissector.c：

u16 __netdev_pick_tx(struct net_device *dev, struct sk_buff *skb){        struct sock *sk = skb->sk;        int queue_index = sk_tx_queue_get(sk);        if (queue_index < 0 || skb->ooo_okay ||            queue_index >= dev->real_num_tx_queues) {                int new_index = get_xps_queue(dev, skb);                if (new_index < 0)                        new_index = skb_tx_hash(dev, skb);                if (queue_index != new_index && sk &&                    rcu_access_pointer(sk->sk_dst_cache))                        sk_tx_queue_set(sk, new_index);                queue_index = new_index;        }        return queue_index;}

代码首先调用 sk_tx_queue_get 检查传输队列是否已经缓存在套接字上。如果没有缓存，则返回 -1。

下一个 if 语句检查以下任一项是否为真：

queue_index 小于 0。如果尚未设置队列，则会发生这种情况。
ooo_okay 标志置位。如果设置了该标志，则意味着现在允许乱序数据包。协议层必须适当地设置此标志。在流的所有未完成数据包都已确认时，TCP 协议层会设置此标志。当这种情况发生时，内核可以为该数据包选择不同的传输队列。 UDP 协议层不设置此标志-因此 UDP 数据包永远不会设置 ooo_okay 为非零值。
队列索引大于队列数。如果用户最近通过 ethtool 更改了设备上的队列计数，则可能会发生这种情况。稍后会详细介绍。

以上任一情况下，代码都会进入慢速路径以获取传输队列。首先调用 get_xps_queue，它试图使用用户配置映射传输队列到 CPU。这称为“Transmit Packet Steering(XPS)”。我们稍后将更详细地了解 Transmit Packet Steering(XPS) 是什么以及它是如何工作的。

如果 get_xps_queue 返回 -1，则此内核不支持 XPS，或系统管理员未配置 XPS，或配置的映射指向无效队列，则代码将继续调用 skb_tx_hash。

一旦使用 XPS 或内核自动使用 skb_tx_hash 选择了队列，将使用 sk_tx_queue_set 缓存该队列到套接字对象上，并返回。在继续 dev_queue_xmit 之前，让我们看看 XPS 和 skb_tx_hash 是如何工作的。

Transmit Packet Steering(XPS)

Transmit Packet Steering(XPS)是一项特性，允许系统管理员确定哪些 CPU 可以处理设备的哪些传输队列的传输操作。此功能的主要目的是避免在处理传输请求时出现锁争用。使用 XPS 时，还期望获得其他好处，如减少缓存驱逐和避免在 NUMA 机器上进行远程内存访问。

您可以查看 XPS 的内核文档来了解更多关于 XPS 如何工作的信息。我们将在下面研究如何为您的系统调整 XPS，但现在，您需要知道的是，要配置 XPS，系统管理员可以定义一个位图，映射传输队列到 CPU。

上面代码中调用 get_xps_queue 函数将查询此用户指定的映射，以确定应使用哪个传输队列。如果 get_xps_queue 返回 -1，则将改用 skb_tx_hash。

`skb_tx_hash`

如果内核未包含 XPS，或未配置 XPS，或建议的队列不可用（可能是因为用户调整了队列计数），则 skb_tx_hash 接管以确定发送数据到哪个队列。根据传输工作负载，准确了解 skb_tx_hash 工作原理非常重要。请注意，这段代码已经随着时间的推移进行了调整，因此如果您使用的内核版本与本文档不同，您应该直接查阅您的内核源代码。

让我们看看它是如何工作的，来自 ./include/linux/netdevice.h：

/* * Returns a Tx hash for the given packet when dev->real_num_tx_queues is used * as a distribution range limit for the returned value. */static inline u16 skb_tx_hash(const struct net_device *dev,                              const struct sk_buff *skb){        return __skb_tx_hash(dev, skb, dev->real_num_tx_queues);}

代码只是调用 __skb_tx_hash，来自 ./net/core/flow_dissector.c。这个函数中有一些有趣的代码，让我们来看看：

/* * Returns a Tx hash based on the given packet descriptor a Tx queues' number * to be used as a distribution range. */u16 __skb_tx_hash(const struct net_device *dev, const struct sk_buff *skb,                  unsigned int num_tx_queues){        u32 hash;        u16 qoffset = 0;        u16 qcount = num_tx_queues;        if (skb_rx_queue_recorded(skb)) {                hash = skb_get_rx_queue(skb);                while (unlikely(hash >= num_tx_queues))                        hash -= num_tx_queues;                return hash;        }

函数中的第一个 if 语句是一个有趣的短路。函数名 skb_rx_queue_recorded 有些误导。skb 有一个 queue_mapping 字段，用于 rx 和 tx。无论如何，如果您的系统正在接收数据包，并转发它们到其他地方，则此 if 语句为真。如果不是这种情况，则代码继续。

if (dev->num_tc) {        u8 tc = netdev_get_prio_tc_map(dev, skb->priority);        qoffset = dev->tc_to_txq[tc].offset;        qcount = dev->tc_to_txq[tc].count;}

要理解这段代码，重要的是要提到程序可以设置套接字发送数据的优先级。这可以使用 setsockopt 与 SOL_SOCKET 和 SO_PRIORITY 级别和 optname 分别完成。有关 SO_PRIORITY 的更多信息，请参阅 socket(7) 手册页。

请注意，如果您在应用程序中使用了 setsockopt 选项 IP_TOS 来设置特定套接字发送的 IP 数据包的 TOS 标志（或者如果作为辅助消息传递给 sendmsg 则按每个数据包设置），则内核转换您设置的 TOS 选项为优先级，最终进入 skb->priority。

如前所述，某些网络设备支持基于硬件的流量控制系统。如果 num_tc 非零，则表示此设备支持基于硬件的流量控制。

如果该数字非零，则表示此设备支持基于硬件的流量控制。将查询优先级映射，优先级映射映射数据包优先级到基于硬件的流量控制。根据此映射为数据优先级选择适当的流量类别。

接下来，将生成适合流量类别的传输队列范围。它们将确定传输队列。

如果 num_tc 为零（因为网络设备不支持基于硬件的流量控制），则 qcount 和 qoffset 变量分别设置为传输队列数和 0。

使用 qcount 和 qoffset，可以计算传输队列的索引：

        if (skb->sk && skb->sk->sk_hash)                hash = skb->sk->sk_hash;        else                hash = (__force u16) skb->protocol;        hash = __flow_hash_1word(hash);        return (u16) (((u64) hash * qcount) >> 32) + qoffset;}EXPORT_SYMBOL(__skb_tx_hash);

最后，返回适当的队列索引到 __netdev_pick_tx。

恢复 `__dev_queue_xmit`

此时，已选择适当的传输队列。__dev_queue_xmit 可以继续：

        q = rcu_dereference_bh(txq->qdisc);#ifdef CONFIG_NET_CLS_ACT        skb->tc_verd = SET_TC_AT(skb->tc_verd, AT_EGRESS);#endif        trace_net_dev_queue(skb);        if (q->enqueue) {                rc = __dev_xmit_skb(skb, q, dev, txq);                goto out;        }

它首先获得与此队列相关联的排队规则的引用。回想一下，我们之前看到，对于单个传输队列设备，默认值是 pfifo_fast qdisc，而对于多队列设备，它是 mq qdisc。

接下来，如果在内核中启用了数据包分类 API，则代码会为传出数据分配一个流量分类“决定”。接下来，检查排队规则是否有方法将数据排队。像 noqueue qdisc 这样的一些排队规则没有队列。如果有队列，则代码调用 __dev_xmit_skb 来继续处理要传输的数据。之后，执行跳转到此函数的结尾。我们稍后将看一下 __dev_xmit_skb。现在，让我们看看如果没有队列会发生什么，从一个非常有用的注释开始：

/* The device has no queue. Common case for software devices:   loopback, all the sorts of tunnels...   Really, it is unlikely that netif_tx_lock protection is necessary   here.  (f.e. loopback and IP tunnels are clean ignoring statistics   counters.)   However, it is possible, that they rely on protection   made by us here.   Check this and shot the lock. It is not prone from deadlocks.   Either shot noqueue qdisc, it is even simpler 8) */if (dev->flags & IFF_UP) {        int cpu = smp_processor_id(); /* ok because BHs are off */

正如注释所示，唯一可以拥有不带队列的 qdisc 的设备是环回设备和隧道设备。如果设备当前已启动，则保存当前 CPU。它用于下一项检查，这有点棘手，让我们来看看：

if (txq->xmit_lock_owner != cpu) {        if (__this_cpu_read(xmit_recursion) > RECURSION_LIMIT)                goto recursion_alert;

此处有两个分支：该设备队列上的传输锁是否由该 CPU 拥有。如果是，则在此处检查为每个 CPU 分配的计数器变量 xmit_recursion，以确定计数是否超过 RECURSION_LIMIT。一个程序可能试图发送数据，并在代码中的这个地方被抢占。调度程序可以选择另一个程序来运行。如果第二个程序也试图发送数据并运行到这里。因此，xmit_recursion 计数器防止超过RECURSION_LIMIT 程序此处竞争传输数据。让我们继续：

                        HARD_TX_LOCK(dev, txq, cpu);                        if (!netif_xmit_stopped(txq)) {                                __this_cpu_inc(xmit_recursion);                                rc = dev_hard_start_xmit(skb, dev, txq);                                __this_cpu_dec(xmit_recursion);                                if (dev_xmit_complete(rc)) {                                        HARD_TX_UNLOCK(dev, txq);                                        goto out;                                }                        }                        HARD_TX_UNLOCK(dev, txq);                        net_crit_ratelimited("Virtual device %s asks to queue packet!\n",                                             dev->name);                } else {                        /* Recursion is detected! It is possible,                         * unfortunately                         */recursion_alert:                        net_crit_ratelimited("Dead loop on virtual device %s, fix it urgently!\n",                                             dev->name);                }        }

代码的其余部分首先尝试获取传输锁。检查要使用的设备的传输队列，以查看是否停止传输。如果没有，则增加 xmit_recursion 变量，并传递数据到更靠近设备的位置进行传输。我们稍后会更详细地看到 dev_hard_start_xmit。完成后，释放锁并打印警告。

另外，如果当前 CPU 是传输锁所有者，或者如果达到了 RECURSION_LIMIT，则不进行传输，但会打印警告。函数中剩余的代码设置错误码并返回。

由于我们对真实以太网设备感兴趣，因此让我们继续沿着前面 __dev_xmit_skb 为那些设备所采用的代码路径。

`__dev_xmit_skb`

现在我们从 ./net/core/dev. c 进入 __dev_xmit_skb，并配备了排队规则、网络设备和传输队列引用：

static inline int __dev_xmit_skb(struct sk_buff *skb, struct Qdisc *q,                                 struct net_device *dev,                                 struct netdev_queue *txq){        spinlock_t *root_lock = qdisc_lock(q);        bool contended;        int rc;        qdisc_pkt_len_init(skb);        qdisc_calculate_pkt_len(skb, q);        /*         * Heuristic to force contended enqueues to serialize on a         * separate lock before trying to get qdisc main lock.         * This permits __QDISC_STATE_RUNNING owner to get the lock more often         * and dequeue packets faster.         */        contended = qdisc_is_running(q);        if (unlikely(contended))                spin_lock(&q->busylock);

这段代码首先使用 qdisc_pkt_len_init 和 qdisc_calculate_pkt_len 计算 qdisc 稍后将使用的数据的准确长度。这对于基于硬件的发送卸载（例如 UDP 分段卸载，如我们之前所看到的）的 skb 是必要的，因为需要考虑在分段发生时添加的附加报头。

接下来，使用一把锁来帮助减少 qdisc 主锁（稍后我们将看到第二把锁）的竞争。如果 qdisc 当前正在运行，则其他试图传输的程序将竞争 qdisc 的 busylock。使得运行中的 qdisc 处理数据包，并与较少数量的程序竞争第二把主锁。该技巧减少了竞争者的数量，从而增加了吞吐量。你可以在这里阅读描述这一点的原始提交消息。接下来，主锁被占用：

spin_lock(root_lock);

现在，我们接近一个 if 语句，它处理 3 种可能的情况：

qdisc 已停用。
qdisc 允许数据包绕过排队系统，且没有其他数据包要发送，且 qdisc 当前未运行。 qdisc 变为 “工作节省” qdisc ，允许数据包绕过 —— 换句话说，流量整形目的的 qdisc 不延迟数据包传输。
所有其他情况。

让我们来看看在这些情况下会发生什么，从停用的 qdisc 开始：

if (unlikely(test_bit(__QDISC_STATE_DEACTIVATED, &q->state))) {        kfree_skb(skb);        rc = NET_XMIT_DROP;

这是直截了当的。如果 qdisc 已停用，请释放数据并设置返回码为 NET_XMIT_DROP。接下来，qdisc 允许数据包旁路，没有其他未完成的数据包，且 qdisc 当前未运行：

} else if ((q->flags & TCQ_F_CAN_BYPASS) && !qdisc_qlen(q) &&           qdisc_run_begin(q)) {        /*         * This is a work-conserving queue; there are no old skbs         * waiting to be sent out; and the qdisc is not running -         * xmit the skb directly.         */        if (!(dev->priv_flags & IFF_XMIT_DST_RELEASE))                skb_dst_force(skb);        qdisc_bstats_update(q, skb);        if (sch_direct_xmit(skb, q, dev, txq, root_lock)) {                if (unlikely(contended)) {                        spin_unlock(&q->busylock);                        contended = false;                }                __qdisc_run(q);        } else                qdisc_run_end(q);        rc = NET_XMIT_SUCCESS;

这个 if 语句有点棘手。如果以下所有条件均为 true，则整个语句的计算结果为真：

q->flags & TCQ_F_CAN_BYPASS：qdisc 允许数据包绕过排队系统。这对于“工作节省”的 qdisc 是 true；即，出于流量整形目的而不延迟数据包传输的 qdisc 被认为是 “工作节省” 的，并且允许数据包绕过。 pfifo_fast qdisc 允许数据包绕过排队系统。
！qdisc_qlen（q）：qdisc 的队列中没有等待传输的数据。
qdisc_run_begin(p)：此函数调用设置 qdisc 的状态为 “running” 并返回 true，如果 qdisc 已经在运行则返回 false。

如果上述所有值均为 true，则：

检查 IFF_XMIT_DST_RELEASE 标志。如果启用，此标志表示允许内核释放 skb 的目标缓存结构。此函数中的代码检查标志是否被禁用，并强制对该结构进行引用计数。
qdisc_bstats_update 增加 qdisc 发送的字节数和数据包数。
sch_direct_xmit 尝试发送数据包。我们将很快深入研究 sch_direct_xmit，因为它也用于较慢的代码路径中。

在两种情况下检查 sch_direct_xmit 的返回值：

队列不为空（返回 > 0 ）。在这种情况下，会释放防止其他程序争用的锁，并调用__qdisc_run 重新启动 qdisc 处理。
队列为空（返回 0）。在这种情况下，调用 qdisc_run_end 关闭 qdisc 处理。

在这两种情况下，返回值 NET_XMIT_SUCCESS 都被设置为返回码。还不算太糟。让我们看看最后一个分支，即捕获所有情况：

} else {        skb_dst_force(skb);        rc = q->enqueue(skb, q) & NET_XMIT_MASK;        if (qdisc_run_begin(q)) {                if (unlikely(contended)) {                        spin_unlock(&q->busylock);                        contended = false;                }                __qdisc_run(q);        }}

在所有其他情况下：

调用 skb_dst_force 强制增加 skb 的目标缓存引用计数。
调用 qdisc 的 enqueue 函数排队数据到 qdisc。存储返回码。
调用 qdisc_run_begin(p) 标记 qdisc 为正在运行。如果尚未运行，则释放 busylock 并调用 __qdisc_run(p) 来启动 qdisc 处理。

然后，该函数释放一些锁，并返回返回码：

spin_unlock(root_lock);if (unlikely(contended))        spin_unlock(&q->busylock);return rc;

调优：Transmit Packet Steering(XPS)

要使 XPS 工作，必须在内核配置中启用它（在 Ubuntu 的内核 3.13.0 上是启用的），并且需要一个位掩码来描述哪些 CPU 应该处理给定接口和传输队列的数据包。

这些位掩码类似于 RPS 位掩码，您可以在内核文档中找到关于这些位掩码的一些文档。

简而言之，要修改的位掩码位于：

/sys/class/net/DEVICE_NAME/queues/QUEUE/xps_cpus

因此，对于 eth0 和传输队列 0，您需要修改文件：/sys/class/net/eth0/queues/tx-0/xps_cpus，其中十六进制数指示哪些 CPU 应处理来自 eth0 的传输队列 0 的传输完成。正如文档所指出的，XPS 在某些配置中可能是不必要的。

排队规则！

要了解网络数据的路径，我们需要稍微了解一下 qdisc 代码。本文不打算涵盖每个不同传输队列选项的具体细节。如果你对此感兴趣，请查看这本优秀的指南。

在这篇博客文章中，我们将继续代码路径，研究通用包调度器代码是如何工作的。特别是，我们将探索 qdisc_run_begin、qdisc_run_end、__qdisc_run 和 sch_direct_xmit 如何移动网络数据到更靠近传输驱动程序的位置。

让我们先看看 qdisc_run_begin 是如何工作的，并从那里开始。

`qdisc_run_begin` 和 `qdisc_run_end`

qdisc_run_begin 函数可以在 ./include/net/sch_generic.h 中找到：

static inline bool qdisc_run_begin(struct Qdisc *qdisc){        if (qdisc_is_running(qdisc))                return false;        qdisc->__state |= __QDISC___STATE_RUNNING;        return true;}

这个函数很简单：检查 qdisc 的 __state 标志。如果它已经在运行，则返回 false。否则，更新 __state 以启用 __QDISC___STATE_RUNNING 位。

同样，qdisc_run_end 也是寡淡的：

static inline void qdisc_run_end(struct Qdisc *qdisc){        qdisc->__state &= ~__QDISC___STATE_RUNNING;}

它只是禁用 qdisc __state 字段中的 __QDISC__STATE_RUNNING 位。需要注意的是，这两个函数都只是翻转位；自己既不实际开始，也不停止处理。另一方面，函数 __qdisc_run 实际上开始处理。

`__qdisc_run`

__qdisc_run 看起来很简短：

void __qdisc_run(struct Qdisc *q){        int quota = weight_p;        while (qdisc_restart(q)) {                /*                 * Ordered by possible occurrence: Postpone processing if                 * 1. we've exceeded packet quota                 * 2. another process needs the CPU;                 */                if (--quota <= 0 || need_resched()) {                        __netif_schedule(q);                        break;                }        }        qdisc_run_end(q);}

该函数首先获取 weight_p 值。该值通常是 sysctl 设置的，也会在接收路径中使用。我们稍后会看到如何调整这个值。这个循环做两件事：

它在一个繁忙的循环中调用 qdisc_restart，直到返回 false（或者触发下面的 break）。
确定配额是否降至零以下或 need_resched() 返回 true。如果其中一个为 true，则调用 __netif_schedule 并中断循环。

记住：到现在为止，内核仍然在执行代表用户程序对 sendmsg 的原始调用；用户程序当前正在累积系统时间。如果用户程序已经用完了内核中的时间配额，那么 need_resched 将返回 true。如果仍然有可用的配额，并且用户程序尚未使用完其时间片，qdisc_restart 将再次被调用。

让我们看看 qdisc_restart(q) 是如何工作的，然后我们将深入研究 __netif_schedule(q)。

`qdisc_restart`

让我们跳到 qdisc_restart 的代码中：

/* * NOTE: Called under qdisc_lock(q) with locally disabled BH. * * __QDISC_STATE_RUNNING guarantees only one CPU can process * this qdisc at a time. qdisc_lock(q) serializes queue accesses for * this queue. * *  netif_tx_lock serializes accesses to device driver. * *  qdisc_lock(q) and netif_tx_lock are mutually exclusive, *  if one is grabbed, another must be free. * * Note, that this procedure can be called by a watchdog timer * * Returns to the caller: *                                0  - queue is empty or throttled. *                                >0 - queue is not empty. * */static inline int qdisc_restart(struct Qdisc *q){        struct netdev_queue *txq;        struct net_device *dev;        spinlock_t *root_lock;        struct sk_buff *skb;        /* Dequeue packet */        skb = dequeue_skb(q);        if (unlikely(!skb))                return 0;        WARN_ON_ONCE(skb_dst_is_noref(skb));        root_lock = qdisc_lock(q);        dev = qdisc_dev(q);        txq = netdev_get_tx_queue(dev, skb_get_queue_mapping(skb));        return sch_direct_xmit(skb, q, dev, txq, root_lock);}

qdisc_restart 函数以一个有用的注释开始，该注释描述了调用此函数的一些加锁约束。此函数执行的第一个操作是尝试从 qdisc 出队 skb。

函数 dequeue_skb 尝试获得下一个要传输的数据包。如果队列为空 qdisc_restart 将返回 false（导致 __qdisc_run 退出）。

假设存在要传输的数据，则代码继续获取 qdisc 队列锁、qdisc 的关联设备和传输队列的引用。

所有这些都会传递到 sch_direct_xmit。让我们先看一下 dequeue_skb，然后再看 sch_direct_xmit。

`dequeue_skb`

让我们看一下 ./net/sched/sch_generic.c 中的 dequeue_skb。此函数处理两种主要情况：

将之前无法发送而重新排队的数据出队，或
将要处理的新数据从 qdisc 出队。

我们来看一下第一个案例：

static inline struct sk_buff *dequeue_skb(struct Qdisc *q){        struct sk_buff *skb = q->gso_skb;        const struct netdev_queue *txq = q->dev_queue;        if (unlikely(skb)) {                /* check the reason of requeuing without tx lock first */                txq = netdev_get_tx_queue(txq->dev, skb_get_queue_mapping(skb));                if (!netif_xmit_frozen_or_stopped(txq)) {                        q->gso_skb = NULL;                        q->q.qlen--;                } else                        skb = NULL;

请注意，该代码首先引用 qdisc 的 gso_skb 字段。此字段保存重新排队的数据的引用。如果未重新排队数据，则此字段将为 NULL。如果该字段不为 NULL，则代码继续获取数据的传输队列并检查队列是否停止。如果队列没有停止，则清除 gso_skb 字段，并且减少队列长度计数器。如果队列停止，数据仍然关联到 gso_skb，但此函数将返回 NULL。

让我们检查下一个案例，其中没有重新排队的数据：

        } else {                if (!(q->flags & TCQ_F_ONETXQUEUE) || !netif_xmit_frozen_or_stopped(txq))                        skb = q->dequeue(q);        }        return skb;}

在没有数据被重新排队的情况下，另一个复杂的复合 if 语句被求值。如果：

qdisc 没有单个传输队列，或者
传输队列未停止

然后，调用 qdisc 的 dequeue 函数以获取新数据。 dequeue 的内部实现根据 qdisc 的实现和特性而有所不同。

该函数以返回待处理的数据结束。

`sch_direct_xmit`

现在我们来看看 sch_direct_xmit（在 ./net/sched/sch_generic.c 中），它是向下移动数据到网络设备的重要参与者。让我们一点一点地来看看：

/* * Transmit one skb, and handle the return status as required. Holding the * __QDISC_STATE_RUNNING bit guarantees that only one CPU can execute this * function. * * Returns to the caller: *                                0  - queue is empty or throttled. *                                >0 - queue is not empty. */int sch_direct_xmit(struct sk_buff *skb, struct Qdisc *q,                    struct net_device *dev, struct netdev_queue *txq,                    spinlock_t *root_lock){        int ret = NETDEV_TX_BUSY;        /* And release qdisc */        spin_unlock(root_lock);        HARD_TX_LOCK(dev, txq, smp_processor_id());        if (!netif_xmit_frozen_or_stopped(txq))                ret = dev_hard_start_xmit(skb, dev, txq);        HARD_TX_UNLOCK(dev, txq);

该代码首先释放 qdisc 锁，然后锁定传输锁。注意，HARD_TX_LOCK 是一个宏：

#define HARD_TX_LOCK(dev, txq, cpu) {                   \        if ((dev->features & NETIF_F_LLTX) == 0) {      \                __netif_tx_lock(txq, cpu);              \        }                                               \}

此宏检查设备功能标志中是否设置了 NETIF_F_LLTX 标志。此标志已弃用，新设备驱动程序不应使用此标志。此内核版本中的大多数驱动程序都不使用此标志，因此此检查将评估为 true，并将获得此数据的传输队列的锁。

接下来，检查传输队列以确保它没有停止，然后调用 dev_hard_start_xmit。我们将在后面看到，dev_hard_start_xmit 从 Linux 内核的网络设备子系统转换网络数据到设备驱动程序本身以进行传输。存储此函数的返回码，然后检查该返回码以确定传输是否成功。

一旦这已经运行（或者由于队列停止而被跳过），则释放队列的传输锁。让我们继续：

spin_lock(root_lock);if (dev_xmit_complete(ret)) {        /* Driver sent out skb successfully or skb was consumed */        ret = qdisc_qlen(q);} else if (ret == NETDEV_TX_LOCKED) {        /* Driver try lock failed */        ret = handle_dev_cpu_collision(skb, txq, q);

接下来，再次获取此 qdisc 的锁，然后检查 dev_hard_start_xmit。第一种情况是调用 dev_xmit_complete 检查，它只是检查返回值以确定数据是否成功发送。如果是，则设置 qdisc 队列长度为返回值。

如果 dev_xmit_complete 返回 false，则将检查返回值以查看 dev_hard_start_xmit 是否从设备驱动程序返回 NETDEV_TX_LOCKED。当驱动程序尝试自己锁定传输队列并失败时，具有不推荐使用的 NETIF_F_LLTX 功能标志的设备可以返回 NETDEV_TX_LOCKED。在这种情况下，调用 handle_dev_cpu_collision 来处理锁竞争。我们稍后会仔细研究 handle_dev_cpu_collision，但现在，让我们继续 sch_direct_xmit 并查看捕获所有的分支：

} else {        /* Driver returned NETDEV_TX_BUSY - requeue skb */        if (unlikely(ret != NETDEV_TX_BUSY))                net_warn_ratelimited("BUG %s code %d qlen %d\n",                                     dev->name, ret, q->q.qlen);        ret = dev_requeue_skb(skb, q);}

因此，如果驱动程序没有传输数据，并且传输锁未被持有，则可能是由于 NETDEV_TX_BUSY （如果没有打印警告）。NETDEV_TX_BUSY 可以由驱动程序返回，以指示设备或驱动程序“忙碌”并且现在不能传输数据。在本例中，调用 dev_requeue_skb 将要重试的数据重新入队。

该函数（可能）调整返回值来结束：

if (ret && netif_xmit_frozen_or_stopped(txq))        ret = 0;return ret;

让我们深入了解 handle_dev_cpu_collision 和 dev_requeue_skb。

`handle_dev_cpu_collision`

来自 ./net/sched/sch_generic.c 的代码 handle_dev_cpu_collision 处理两种情况：

传输锁由当前 CPU 持有。
传输锁由其他 CPU 持有。

在第一种情况下，这被作为配置问题处理，因此打印警告。在第二种情况下，增加统计计数器cpu_collision，并且数据经 dev_requeue_skb 发送，以便稍后重新排队传输。回想一下，我们在 dequeue_skb 中看到的专门处理重新排队的 skb 代码。

handle_dev_cpu_collision 的代码很短，值得快速阅读：

static inline int handle_dev_cpu_collision(struct sk_buff *skb,                                           struct netdev_queue *dev_queue,                                           struct Qdisc *q){        int ret;        if (unlikely(dev_queue->xmit_lock_owner == smp_processor_id())) {                /*                 * Same CPU holding the lock. It may be a transient                 * configuration error, when hard_start_xmit() recurses. We                 * detect it by checking xmit owner and drop the packet when                 * deadloop is detected. Return OK to try the next skb.                 */                kfree_skb(skb);                net_warn_ratelimited("Dead loop on netdevice %s, fix it urgently!\n",                                     dev_queue->dev->name);                ret = qdisc_qlen(q);        } else {                /*                 * Another cpu is holding lock, requeue & delay xmits for                 * some time.                 */                __this_cpu_inc(softnet_data.cpu_collision);                ret = dev_requeue_skb(skb, q);        }        return ret;}

让我们来看看 dev_requeue_skb 做了什么，因为我们将看到这个函数是从 sch_direct_xmit 调用的。

`dev_requeue_skb`

值得庆幸的是，dev_requeue_skb 的源代码很短，而且直截了当，来自 ./net/sched/sch_generic.c：

/* Modifications to data participating in scheduling must be protected with * qdisc_lock(qdisc) spinlock. * * The idea is the following: * - enqueue, dequeue are serialized via qdisc root lock * - ingress filtering is also serialized via qdisc root lock * - updates to tree and tree walking are only done under the rtnl mutex. */static inline int dev_requeue_skb(struct sk_buff *skb, struct Qdisc *q){        skb_dst_force(skb);        q->gso_skb = skb;        q->qstats.requeues++;        q->q.qlen++;        /* it's still part of the queue */        __netif_schedule(q);        return 0;}

这个函数做了几件事：

它强制增加 skb 引用计数。
它关联 skb 到 qdisc 的 gso_skb 字段。回想一下，我们之前看到，在从 qdisc 的队列中取出数据之前，会在 dequeue_skb 中检查此字段。
增加统计计数器。
增加队列的大小。
调用 __netif_schedule。

简单明了。让我们回顾一下我们是如何到达这里的，然后探讨 __netif_schedule。

提醒， `__qdisc_run` 中的 while 循环

回想一下，我们是检查函数 __qdisc_run 得出的这一点，该函数包含以下代码：

void __qdisc_run(struct Qdisc *q){        int quota = weight_p;        while (qdisc_restart(q)) {                /*                 * Ordered by possible occurrence: Postpone processing if                 * 1. we've exceeded packet quota                 * 2. another process needs the CPU;                 */                if (--quota <= 0 || need_resched()) {                        __netif_schedule(q);                        break;                }        }        qdisc_run_end(q);}

这段代码的工作原理是在一个循环中反复调用 qdisc_restart，在内部，它会使 skb 出队，并试图调用 sch_direct_xmit 来传输 skb，而 sch_direct_xmit 会调用 dev_hard_start_xmit 来执行实际的传输。任何不能传输的内容都将在 NET_TX 软中断中重新排队以进行传输。

传输过程中的下一步是检查 dev_hard_start_xmit，以了解如何调用驱动程序来发送数据。在此之前，我们应该研究 __netif_schedule 以完全理解 __qdisc_run 和 dev_requeue_skb 是如何工作的。

`__netif_schedule`

让我们从 ./net/core/dev.c 跳到 __netif_schedule：

void __netif_schedule(struct Qdisc *q){        if (!test_and_set_bit(__QDISC_STATE_SCHED, &q->state))                __netif_reschedule(q);}EXPORT_SYMBOL(__netif_schedule);

此代码检查并设置 qdisc 状态的 __QDISC_STATE_SCHED 位。如果该位被翻转（意味着它之前没有处于 __QDISC_STATE_SCHED 状态），代码将调用 __netif_reschedule，这并不长，但有非常有趣的附带作用。我们来看一下：

static inline void __netif_reschedule(struct Qdisc *q){        struct softnet_data *sd;        unsigned long flags;        local_irq_save(flags);        sd = &__get_cpu_var(softnet_data);        q->next_sched = NULL;        *sd->output_queue_tailp = q;        sd->output_queue_tailp = &q->next_sched;        raise_softirq_irqoff(NET_TX_SOFTIRQ);        local_irq_restore(flags);}

此函数执行以下操作：

保存当前的本地 IRQ 状态，并调用 local_irq_save 禁用 IRQ。
获取当前 CPU softnet_data 结构。
添加 qdisc 到 softnet_data 的输出队列。
触发 NET_TX_SOFTIRQ 软中断。
恢复 IRQ 状态并重新启用中断。

你可以阅读我们之前关于网络栈接收端的文章，来了解更多关于 softnet_data 数据结构初始化的信息。

上面函数中的重要代码是：raise_softirq_irqoff 触发 NET_TX_SOFTIRQ 软中断。softirq 及其注册也在我们的前一篇文章中介绍过。简单地说，您可以认为软中断是内核线程，它们以非常高的优先级执行，并代表内核处理数据。它们处理传入的网络数据，也处理传出的数据。

正如你在上一篇文章中看到的，NET_TX_SOFTIRQ 软中断注册了函数 net_tx_action。这意味着有一个内核线程在执行 net_tx_action。该线程偶尔会暂停，raise_softirq_irqoff 会恢复它。让我们来看看 net_tx_action 是做什么的，这样我们就可以理解内核是如何处理传输请求的。

`net_tx_action`

net_tx_action 函数位于 ./net/core/dev.c 文件中，它在运行时处理两个主要内容：

执行 CPU 的 softnet_data 结构的完成队列。
执行 CPU 的 softnet_data 结构的输出队列。

实际上，该函数的代码是两个大的 if 块。让我们一次查看一个，同时记住这段代码是作为一个独立的内核线程在软中断上下文中执行的。 net_tx_action 的目的是在整个网络对战的传输侧执行不能在热点路径中执行的代码；工作被延迟，稍后由执行 net_tx_action 的线程进行处理。

`net_tx_action` 完成队列

softnet_data 的完成队列只是一个等待释放的 skb 队列。函数 dev_kfree_skb_irq 添加 skb 到队列中以便稍后释放。设备驱动程序通常使用此选项来延迟释放已使用的 skb。驱动程序希望延迟释放 skb 而不是简单地释放 skb，原因是释放内存可能需要时间，在某些实例（如 hardirq 处理程序）中，代码需要尽可能快地执行并返回。

看一下 net_tx_action 代码，它处理在完成队列上释放 skb：

if (sd->completion_queue) {        struct sk_buff *clist;        local_irq_disable();        clist = sd->completion_queue;        sd->completion_queue = NULL;        local_irq_enable();        while (clist) {                struct sk_buff *skb = clist;                clist = clist->next;                WARN_ON(atomic_read(&skb->users));                trace_kfree_skb(skb, net_tx_action);                __kfree_skb(skb);        }}

如果完成队列有条目，while 循环将遍历 skb 的链表，并对每个 skb 调用 __kfree_skb 以释放它们的内存。请记住，这段代码是在一个单独的“线程”中运行的，该线程名为 softirq – 它并不代表任何特定的用户程序运行。

`net_tx_action` 输出队列

输出队列的用途完全不同。如前所述，调用 __netif_reschedule 添加数据到输出队列，该调用通常从 __netif_schedule 调用的。到目前为止，在我们在两个实例中看到过调用了 __netif_schedule 函数：

dev_requeue_skb：正如我们所看到的，如果驱动程序报告错误码 NETDEV_TX_BUSY 或 CPU 冲突，则可以调用此函数。
__qdisc_run：我们之前也看到过这个函数。一旦超过配额或需要重新调度进程，它还会调用 __netif_schedule。

在这两种情况下，都将调用 __netif_schedule 函数，该函数添加 qdisc 到 softnet_data 的输出队列中进行处理。我将输出队列处理代码分成了三个块。我们先来看看第一个：

if (sd->output_queue) {        struct Qdisc *head;        local_irq_disable();        head = sd->output_queue;        sd->output_queue = NULL;        sd->output_queue_tailp = &sd->output_queue;        local_irq_enable();

这个块只是确保输出队列上有 qdisc，如果有，它设置 head 为第一个条目，并移动队列的尾指针。

接下来，遍历 qdsics 列表的 while 循环开始：

while (head) {        struct Qdisc *q = head;        spinlock_t *root_lock;        head = head->next_sched;        root_lock = qdisc_lock(q);        if (spin_trylock(root_lock)) {                smp_mb__before_clear_bit();                clear_bit(__QDISC_STATE_SCHED,                          &q->state);                qdisc_run(q);                spin_unlock(root_lock);

上面的代码段向前移动头指针，并获得对 qdisc 锁的引用。spin_trylock 检查是否可以获得锁；注意，该调用是专门使用的，因为它不阻塞。如果锁已经被持有，spin_trylock 将立即返回，而不是等待获得锁。

如果 spin_trylock 成功获得锁，则返回一个非零值。在这种情况下，qdisc 的状态字段的__QDISC_STATE_SCHED 位翻转，qdisc_run 被调用，从而翻转 __QDISC___STATE_RUNNING位，并开始执行 __qdisc_run。

这很重要。这里发生的情况是，我们之前检查过的代表用户进行系统调用的处理循环，现在再次运行，但在 softirq 上下文中，因为此 qdisc 的 skb 传输无法传输。这种区别很重要，因为它会影响您如何监控发送大量数据的应用程序的 CPU 使用情况。让我换个方式说：

程序的系统时间包括调用驱动程序以尝试发送数据所花费的时间，无论发送是否完成或驱动程序是否返回错误。
如果在驱动程序层发送不成功（例如，因为设备忙于发送其他内容），则添加 qdisc 到输出队列并稍后由 softirq 线程处理。在这种情况下，将花费 softirq（si）时间来尝试传输您的数据。

因此，发送数据所花费的总时间是与发送相关的系统调用的系统时间和 NET_TX 软中断的软中断时间的组合。

无论如何，上面的代码释放 qdisc 锁来完成。如果上面获取锁的 spin_trylock 调用失败，则执行以下代码：

                } else {                        if (!test_bit(__QDISC_STATE_DEACTIVATED,                                      &q->state)) {                                __netif_reschedule(q);                        } else {                                smp_mb__before_clear_bit();                                clear_bit(__QDISC_STATE_SCHED,                                          &q->state);                        }                }        }}

这段代码只在无法获得 qdisc 锁时执行，它处理两种情况。两者之一：

未停用 qdisc，但无法获取执行 qdisc_run 的锁。所以，调用 __netif_reschedule。在这里调用 __netif_reschedule 会将 qdisc 放回该函数当前出列的队列中。这允许在以后可能已经放弃锁时再次检查 qdisc。
qdisc 被标记为停用，确保 __QDISC_STATE_SCHED 状态标志也被清除。

最后，我们来看看我们的朋友 `dev_hard_start_xmit`

因此，我们已经遍历了整个网络栈，直到 dev_hard_start_xmit。也许你是经 sendmsg 系统调用直接到达这里的，或者你是经 qdisc 上处理网络数据的 softirq 线程到达这里的。dev_hard_start_xmit 将向下调用设备驱动程序来实际执行传输操作。

dev_hard_start_xmit函数处理两种主要情况：

准备发送的网络数据，或
具有需要处理的分段卸载的网络数据。

我们将看到这两种情况是如何处理的，从准备发送的网络数据开始。让我们一起来看看（如下所示：./net/code/dev.c：

int dev_hard_start_xmit(struct sk_buff *skb, struct net_device *dev,                        struct netdev_queue *txq){        const struct net_device_ops *ops = dev->netdev_ops;        int rc = NETDEV_TX_OK;        unsigned int skb_len;        if (likely(!skb->next)) {                netdev_features_t features;                /*                 * If device doesn't need skb->dst, release it right now while                 * its hot in this cpu cache                 */                if (dev->priv_flags & IFF_XMIT_DST_RELEASE)                        skb_dst_drop(skb);                features = netif_skb_features(skb);

这段代码首先 ops 获取设备驱动程序暴露的操作的引用。当需要驱动程序执行一些工作来传输数据时，将使用它。代码检查 skb->next 以确保此数据不是数据链的一部分，该数据链已分段准备就绪，并继续执行两件事：

首先，它检查设备是否设置了 IFF_XMIT_DST_RELEASE 标志。此内核中的任何“真正的”以太网设备都不使用此标志。但是，它被环回设备和其他一些软件设备使用。如果启用此标志，则可以减少目标缓存条目的引用计数，因为驱动程序不需要它。
接下来，netif_skb_features 从设备获取特性标志，并根据数据的目的协议（dev->protocol）对它们进行一些修改。例如，如果协议是设备可以校验和的协议，则标记 skb 为这样的协议。 VLAN 标记（如果已设置）也会导致其他功能标志翻转。

接下来，将检查 VLAN 标记，如果设备无法卸载 VLAN 标记，则将在软件中__vlan_put_tag 来执行此操作：

if (vlan_tx_tag_present(skb) &&    !vlan_hw_offload_capable(features, skb->vlan_proto)) {        skb = __vlan_put_tag(skb, skb->vlan_proto,                             vlan_tx_tag_get(skb));        if (unlikely(!skb))                goto out;        skb->vlan_tci = 0;}

接下来，将检查数据是否是封装卸载请求，例如，可能是 GRE。在这种情况下，更新功能标志，以包括可用的任何特定于设备的硬件封装功能：

/* If encapsulation offload request, verify we are testing * hardware encapsulation features instead of standard * features for the netdev */if (skb->encapsulation)        features &= dev->hw_enc_features;

接下来，netif_needs_gso 来确定 skb 本身是否需要分段。如果 skb 需要分段，但设备不支持，则 netif_needs_gso 将返回 true 指示分段应在软件中进行。在本例中，调用dev_gso_segment 来执行分段，代码将跳转到 gso 来传输数据包。稍后我们将看到 GSO 路径。

if (netif_needs_gso(skb, features)) {        if (unlikely(dev_gso_segment(skb, features)))                goto out_kfree_skb;        if (skb->next)                goto gso;}

如果数据不需要分割，则处理一些其他情况。第一：数据是否需要线性化？也就是说，如果数据分布在多个缓冲区中，设备是否可以支持发送网络数据，或者是否需要首先组合所有数据到单个线性缓冲区中？绝大多数网卡不需要在传输之前对数据进行线性化，因此在几乎所有情况下，这将被计算为 false 并跳过。

else {              if (skb_needs_linearize(skb, features) &&                  __skb_linearize(skb))                      goto out_kfree_skb;

接下来提供了一个有用的注释，解释了下一个分支。检查数据包以确定它是否仍需要校验和。如果设备不支持校验和，则在软件中生成校验和：

        /* If packet is not checksummed and device does not         * support checksumming for this protocol, complete         * checksumming here.         */        if (skb->ip_summed == CHECKSUM_PARTIAL) {                if (skb->encapsulation)                        skb_set_inner_transport_header(skb,                                skb_checksum_start_offset(skb));                else                        skb_set_transport_header(skb,                                skb_checksum_start_offset(skb));                if (!(features & NETIF_F_ALL_CSUM) &&                     skb_checksum_help(skb))                        goto out_kfree_skb;        }}

现在我们继续讨论数据包抓取！回想一下，在接收端博客文章中，我们看到了如何传递数据包给数据包抓取（例如 PCAP）。此函数中的下一块代码将即将传输的数据包交给数据包抓取（如果有的话）。

if (!list_empty(&ptype_all))        dev_queue_xmit_nit(skb, dev);

最后，驱动程序的 ops 调用 ndo_start_xmit 向下传递数据到设备：

        skb_len = skb->len;        rc = ops->ndo_start_xmit(skb, dev);        trace_net_dev_xmit(skb, rc, dev, skb_len);        if (rc == NETDEV_TX_OK)                txq_trans_update(txq);        return rc;}

返回 ndo_start_xmit 的返回值，指示数据包是否被传输。我们看到了这个返回值将如何影响上层：由该函数调用方的 QDisc 重新排队数据，以便它可以稍后再次传输。

让我们来看看 GSO 的案例。如果 skb 已经由于在此函数中发生的分段，而被分离成一个数据包链，或者先前分段但未能发送并排队等待再次发送的数据包，则此代码将运行。

gso:        do {                struct sk_buff *nskb = skb->next;                skb->next = nskb->next;                nskb->next = NULL;                if (!list_empty(&ptype_all))                        dev_queue_xmit_nit(nskb, dev);                skb_len = nskb->len;                rc = ops->ndo_start_xmit(nskb, dev);                trace_net_dev_xmit(nskb, rc, dev, skb_len);                if (unlikely(rc != NETDEV_TX_OK)) {                        if (rc & ~NETDEV_TX_MASK)                                goto out_kfree_gso_skb;                        nskb->next = skb->next;                        skb->next = nskb;                        return rc;                }                txq_trans_update(txq);                if (unlikely(netif_xmit_stopped(txq) && skb->next))                        return NETDEV_TX_BUSY;        } while (skb->next);

您可能已经猜到了，这段代码是一个 while 循环，它遍历在数据分段时生成的 skb 列表。

每个数据包：

通过数据包抓取（如果有）。
通过 ndo_start_xmit 传递给驱动器进行传输。

传输数据包中的任何错误都会调整需要发送的 skb 列表来处理。错误将返回堆栈，未发送的 skb 可能会被重新排队，以便稍后再次发送。

此函数的最后一部分处理清理，并可能在出现上述错误时释放数据：

out_kfree_gso_skb:        if (likely(skb->next == NULL)) {                skb->destructor = DEV_GSO_CB(skb)->destructor;                consume_skb(skb);                return rc;        }out_kfree_skb:        kfree_skb(skb);out:        return rc;}EXPORT_SYMBOL_GPL(dev_hard_start_xmit);

在继续讨论设备驱动程序之前，让我们看一下可以对我们刚刚浏览的代码进行的一些监控和调优。

监控 qdiscs

使用 `tc` 命令行工具

使用 tc 监控您的 qdisc 统计数据

$ tc -s qdisc show dev eth1qdisc mq 0: root Sent 31973946891907 bytes 2298757402 pkt (dropped 0, overlimits 0 requeues 1776429) backlog 0b 0p requeues 1776429

为了监控系统的数据包传输状况，检查连接到网络设备的队列规则的统计信息至关重要。您可以运行命令行工具 tc 来检查状态。上面的示例显示了如何检查 eth1 接口的统计信息。

bytes：下推到驱动程序进行传输的字节数。
pkt：下推到驱动程序进行传输的数据包数量。
dropped：qdisc 丢弃的数据包数。如果传输队列长度不足以容纳排队的数据，则可能发生这种情况。
overlimits：取决于排队规则，但可以是由于达到限制而无法入队的数据包数量，和/或在出队时触发节流事件的数据包数量。
requeues：调用 dev_requeue_skb 重新排队 skb 的次数。请注意，多次重新排队的 skb 将在每次重新排队时增加此计数器。
backlog：当前在 qdisc 队列中的字节数。这个数字通常在每次数据包入队时增加。

某些 qdics 可能会导出其他统计信息。每个 qdisc 是不同的，并且可以在不同的时间增加这些计数器。您可能需要研究您正在使用的 qdisc 的源代码，以准确了解这些值何时可以在您的系统上增加，从而帮助了解对您的影响。

调优 qdiscs

增加 `__qdisc_run`

您可以调整前面看到 __qdisc_run 循环的权重（上面看到的quota变量），这将导致执行更多__netif_schedule 的调用。结果是当前 qdisc 更多次被添加到当前 CPU 的 output_queue 列表中，这应该会导致对传输数据包的额外处理。

示例：使用 sysctl 增加所有 qdisc 的 __qdisc_run 配额。

$ sudo sysctl -w net.core.dev_weight=600

增加传输队列长度

每个网络设备都有一个可以修改的 txqueuelen 调节旋钮。大多数 qdisc 在对最终应由 qdisc 传输的数据排队时，都会检查设备是否具有足够的 txqueuelen 字节。您可以调整此参数以增加 qdisc 可排队的字节数。

示例：增加 eth0 的 txqueuelen 到 10000。

$ sudo ifconfig eth0 txqueuelen 10000

以太网设备的默认值为 1000。您可以读取 ifconfig 的输出来检查网络设备的 txqueuelen。

网络设备驱动程序

我们的旅程就要结束了。关于数据包传输有一个重要的概念需要理解。大多数设备和驱动程序将数据包传输处理分为两步过程：

数据被正确地排列，并且触发设备从 RAM DMA 写入数据到网络
传输完成后，设备引发中断，以便驱动程序可以取消缓冲区映射、释放内存或以其他方式清除其状态。

第二阶段通常被称为“传输完成”阶段。我们将研究这两个阶段，但我们将从第一阶段开始：传输阶段。

我们看到 dev_hard_start_xmit 调用了 ndo_start_xmit（持有锁）来传输数据，所以让我们从检查驱动程序如何注册 ndo_start_xmit 开始，然后我们将深入研究该函数如何工作。

和上一篇博文一样，我们将研究 igb 驱动程序。

驱动操作注册

驱动程序为各种操作实现一系列功能，例如：

发送数据（ndo_start_xmit）
获取统计信息（ndo_get_stats64）
处理设备 ioctls（ndo_do_ioctl）
还有更多。

函数被导出为一系列排列在结构中的函数指针。让我们来看看 igb 驱动程序源代码中这些操作的结构定义：

static const struct net_device_ops igb_netdev_ops = {        .ndo_open               = igb_open,        .ndo_stop               = igb_close,        .ndo_start_xmit         = igb_xmit_frame,        .ndo_get_stats64        = igb_get_stats64,/* ... more fields ... */};

此结构在 igb_probe 函数中注册：

static int igb_probe(struct pci_dev *pdev, const struct pci_device_id *ent){/* ... lots of other stuff ... */        netdev->netdev_ops = &igb_netdev_ops;/* ... more code ... */}

正如我们在上一节中看到的，更高层的代码将获得对设备的 netdev_ops 结构的引用，并调用相应的函数。如果你想了解更多关于 PCI 设备是如何启动的，以及何时/何地调用 igb_probe 的信息，请查看我们的其他博客文章中的驱动程序初始化部分。

使用 `ndo_start_xmit` 传输数据

网络栈的较高层使用 net_device_ops 结构调用驱动程序来执行各种操作。正如我们前面看到的，qdisc 代码调用 ndo_start_xmit 传递数据给驱动程序进行传输。对于大多数硬件设备，ndo_start_xmit 函数在锁被持有时被调用，正如我们上面看到的。

在 igb 设备驱动程序中，注册到 ndo_start_xmit 称为 igb_xmit_frame，因此让我们从igb_xmit_frame 开始，了解此驱动程序如何传输数据。进入 ./drivers/net/ethernet/intel/igb/igb_main.c ，并记住，在执行以下代码的整个过程中，都会持有一个锁：

netdev_tx_t igb_xmit_frame_ring(struct sk_buff *skb,                                struct igb_ring *tx_ring){        struct igb_tx_buffer *first;        int tso;        u32 tx_flags = 0;        u16 count = TXD_USE_COUNT(skb_headlen(skb));        __be16 protocol = vlan_get_protocol(skb);        u8 hdr_len = 0;        /* need: 1 descriptor per page * PAGE_SIZE/IGB_MAX_DATA_PER_TXD,         *       + 1 desc for skb_headlen/IGB_MAX_DATA_PER_TXD,         *       + 2 desc gap to keep tail from touching head,         *       + 1 desc for context descriptor,         * otherwise try next time         */        if (NETDEV_FRAG_PAGE_MAX_SIZE > IGB_MAX_DATA_PER_TXD) {                unsigned short f;                for (f = 0; f < skb_shinfo(skb)->nr_frags; f++)                        count += TXD_USE_COUNT(skb_shinfo(skb)->frags[f].size);        } else {                count += skb_shinfo(skb)->nr_frags;        }

该函数开始使用 TXD_USER_COUNT 宏来确定需要多少个传输描述符来传输传入的数据。 count 值初始化为适合 skb 的描述符数量。然后考虑需要传输的任何附加片段，对其进行调整。

if (igb_maybe_stop_tx(tx_ring, count + 3)) {        /* this is a hard error */        return NETDEV_TX_BUSY;}

然后驱动程序调用一个内部函数 igb_maybe_stop_tx，该函数检查所需的描述符数量，以确保传输队列有足够的可用资源。如果没有，则在此处返回 NETDEV_TX_BUSY。正如我们前面在 qdisc 代码中看到的，这将导致 qdisc 重新排队数据以便稍后重试。

/* record the location of the first descriptor for this packet */first = &tx_ring->tx_buffer_info[tx_ring->next_to_use];first->skb = skb;first->bytecount = skb->len;first->gso_segs = 1;

然后，代码获得对传输队列中的下一个可用缓冲区信息的引用。此结构将跟踪稍后设置缓冲区描述符所需的信息。对数据包的引用及其大小被复制到缓冲区信息结构中。

skb_tx_timestamp(skb);

上面的代码调用 skb_tx_timestamp 获得基于软件的发送时间戳。应用程序可以使用发送时间戳来确定数据包通过网络栈的传输路径所花费的时间量。

一些设备还支持为在硬件中传输的数据包生成时间戳。这允许系统卸载时间戳到设备，并且它允许程序员获得更准确的时间戳，因为它将更接近硬件的实际传输发生的时间。现在我们来看看这段代码：

if (unlikely(skb_shinfo(skb)->tx_flags & SKBTX_HW_TSTAMP)) {        struct igb_adapter *adapter = netdev_priv(tx_ring->netdev);        if (!(adapter->ptp_tx_skb)) {                skb_shinfo(skb)->tx_flags |= SKBTX_IN_PROGRESS;                tx_flags |= IGB_TX_FLAGS_TSTAMP;                adapter->ptp_tx_skb = skb_get(skb);                adapter->ptp_tx_start = jiffies;                if (adapter->hw.mac.type == e1000_82576)                        schedule_work(&adapter->ptp_tx_work);        }}

一些网络设备可以使用精确时间协议在硬件中对数据包加时间戳。当用户请求硬件时间戳时，驱动程序代码将在此处处理此问题。

上面的 if 语句检查 SKBTX_HW_TSTAMP 标志。此标志指示用户请求了硬件时间戳。如果用户请求了硬件时间戳，代码接下来检查是否设置 ptp_tx_skb。一次可以对一个数据包加时间戳，，因此在此处获取正在进行时间戳的数据包的引用，并在 skb 上设置 SKBTX_IN_PROGRESS 标志。更新 tx_flags 以标记 IGB_TX_FLAGS_TSTAMP 标志。变量稍后复制 tx_flags 到 buffer info 结构中。

获取 skb 的引用，复制当前 jiffies 计数到 ptp_tx_start。驱动程序中的其他代码将使用此值来确保 TX 硬件时间戳不会挂起。最后，如果这是一个 82576 以太网硬件适配器，则使用 schedule_work 函数来启动工作队列。

if (vlan_tx_tag_present(skb)) {        tx_flags |= IGB_TX_FLAGS_VLAN;        tx_flags |= (vlan_tx_tag_get(skb) << IGB_TX_FLAGS_VLAN_SHIFT);}

上面的代码检查是否设置了 skb 的 vlan_tci 字段。如果已设置，则启用IGB_TX_FLAGS_VLAN 标志并存储 vlan ID。

/* record initial flags and protocol */first->tx_flags = tx_flags;first->protocol = protocol;

标志和协议被记录到缓冲区信息结构。

tso = igb_tso(tx_ring, first, &hdr_len);if (tso < 0)        goto out_drop;else if (!tso)        igb_tx_csum(tx_ring, first);

接下来，驱动程序调用其内部函数 igb_tso。此函数确定 skb 是否需要分段。如果是，则缓冲器信息引用（first）更新其标志以向硬件指示需要 TSO。

如果 tso 不必要，igb_tso 将返回 0，否则返回 1。如果返回 0，igb_tx_csum 来处理启用校验和卸载（如果需要并且该协议支持）。 igb_tx_csum 函数检查 skb 的属性，并首先翻转缓冲区 first 中的一些标志位，以指示需要卸载校验和。

igb_tx_map(tx_ring, first, hdr_len);

调用 igb_tx_map 函数来准备设备要消耗的数据以进行传输。接下来我们将详细研究这个函数。

/* Make sure there is space in the ring for the next send. */igb_maybe_stop_tx(tx_ring, DESC_NEEDED);return NETDEV_TX_OK;

传输完成后，驱动程序进行检查，以确保有足够的空间可用于另一次传输。如果没有，则关闭队列。在任何一种情况下，NETDEV_TX_OK 都会返回到更高层（qdisc 代码）。

out_drop:        igb_unmap_and_free_tx_resource(tx_ring, first);        return NETDEV_TX_OK;}

最后是一些错误处理代码。这段代码只在 igb_tso 遇到某种错误时才被命中。 igb_unmap_and_free_tx_resource 清理数据。在这种情况下也返回 NETDEV_TX_OK。传输不成功，但驱动程序释放了关联的资源，没有什么可做的了。请注意，在这种情况下，此驱动程序不会增加数据包丢弃，但它可能应该这样做。

`igb_tx_map`

igb_tx_map函数处理映射 skb 数据到 RAM 的可 DMA 区域的细节。它还更新设备上的传输队列的尾指针，这是触发设备“唤醒”、从 RAM 获取数据，并开始传输数据。

让我们简单地看看这个函数是如何工作的：

static void igb_tx_map(struct igb_ring *tx_ring,                       struct igb_tx_buffer *first,                       const u8 hdr_len){        struct sk_buff *skb = first->skb;/* ... other variables ... */        u32 tx_flags = first->tx_flags;        u32 cmd_type = igb_tx_cmd_type(skb, tx_flags);        u16 i = tx_ring->next_to_use;        tx_desc = IGB_TX_DESC(tx_ring, i);        igb_tx_olinfo_status(tx_ring, tx_desc, tx_flags, skb->len - hdr_len);        size = skb_headlen(skb);        data_len = skb->data_len;        dma = dma_map_single(tx_ring->dev, skb->data, size, DMA_TO_DEVICE);

上面的代码做了几件事：

声明一组变量并初始化它们。
使用 IGB_TX_DESC宏确定获取下一个可用描述符的引用。
igb_tx_olinfo_status 更新 tx_flags 并复制其到描述符（tx_desc）中。
捕获大小和数据长度，以便稍后使用。
dma_map_single 构造获得 skb->data 数据的 DMA 可访问地址所需的任何内存映射。这样做使得设备可以从存储器读取数据包数据。

接下来是驱动程序中的一个非常密集的循环，为 skb 的每个片段生成有效的映射。具体如何发生这种情况的细节并不特别重要，但值得一提：

驱动程序遍历数据包片段的集合。
当前描述符中填入数据的 DMA 地址。
如果片段的大小大于单个IGB描述符可以传输的大小，则构造多个描述符以指向可DMA区域的块，直到描述符指向整个片段。
增加描述符迭代器。
减少剩余长度。
当出现以下情况时，循环终止：没有剩余片段或者整个数据长度已经被消耗。

以下提供循环的代码，以供参考以上描述。这应该进一步向读者说明，如果可能的话，避免碎片化是一个好主意。需要在堆栈的每一层运行大量额外的代码来处理它，包括驱动程序。

tx_buffer = first;for (frag = &skb_shinfo(skb)->frags[0];; frag++) {        if (dma_mapping_error(tx_ring->dev, dma))                goto dma_error;        /* record length, and DMA address */        dma_unmap_len_set(tx_buffer, len, size);        dma_unmap_addr_set(tx_buffer, dma, dma);        tx_desc->read.buffer_addr = cpu_to_le64(dma);        while (unlikely(size > IGB_MAX_DATA_PER_TXD)) {                tx_desc->read.cmd_type_len =                        cpu_to_le32(cmd_type ^ IGB_MAX_DATA_PER_TXD);                i++;                tx_desc++;                if (i == tx_ring->count) {                        tx_desc = IGB_TX_DESC(tx_ring, 0);                        i = 0;                }                tx_desc->read.olinfo_status = 0;                dma += IGB_MAX_DATA_PER_TXD;                size -= IGB_MAX_DATA_PER_TXD;                tx_desc->read.buffer_addr = cpu_to_le64(dma);        }        if (likely(!data_len))                break;        tx_desc->read.cmd_type_len = cpu_to_le32(cmd_type ^ size);        i++;        tx_desc++;        if (i == tx_ring->count) {                tx_desc = IGB_TX_DESC(tx_ring, 0);                i = 0;        }        tx_desc->read.olinfo_status = 0;        size = skb_frag_size(frag);        data_len -= size;        dma = skb_frag_dma_map(tx_ring->dev, frag, 0,                               size, DMA_TO_DEVICE);        tx_buffer = &tx_ring->tx_buffer_info[i];}

一旦所有必要的描述符都已构建，并且所有 skb 的数据都已映射到 DMA 地址，驱动程序将继续执行其最后步骤以触发传输：

/* write last descriptor with RS and EOP bits */cmd_type |= size | IGB_TXD_DCMD;tx_desc->read.cmd_type_len = cpu_to_le32(cmd_type);

写入终止描述符以向设备指示它是最后一个描述符。

netdev_tx_sent_queue(txring_txq(tx_ring), first->bytecount);/* set the timestamp */first->time_stamp = jiffies;

调用 netdev_tx_sent_queue 函数时，会添加字节数到此传输队列。这个函数是字节查询限制特性的一部分，我们稍后会详细介绍。当前 jiffies 被存储在第一缓冲器信息结构中。

接下来，有一点棘手：

/* Force memory writes to complete before letting h/w know there * are new descriptors to fetch.  (Only applicable for weak-ordered * memory model archs, such as IA-64). * * We also need this memory barrier to make certain all of the * status bits have been updated before next_to_watch is written. */wmb();/* set next_to_watch value indicating a packet is present */first->next_to_watch = tx_desc;i++;if (i == tx_ring->count)        i = 0;tx_ring->next_to_use = i;writel(i, tx_ring->tail);/* we need this if more than one processor can write to our tail * at a time, it synchronizes IO on IA64/Altix systems */mmiowb();return;

上面的代码正在执行一些重要的操作：

首先调用 wmb 函数强制完成内存写入。这将作为适用于 CPU 平台的特殊指令执行，通常称为“写屏障”。这在某些 CPU 架构上很重要，因为如果我们在没有确保所有更新内部状态的内存写入都已完成之前触发设备启动 DMA，则设备可能会从 RAM 中读取不一致状态的数据。这篇文章和这个讲座深入探讨了有关内存排序的细节。
设置 next_to_watch 字段。它将在完成阶段后使用。
增加计数器，并更新传输队列的 next_to_use 字段为下一个可用描述符。
使用 writel 函数更新传输队列的尾部。writel 将一个 “long” 写入内存映射 I/O 地址。在这种情况下，地址是 tx_ring->tail（这是一个硬件地址），要写入的值是 i。此写入会触发设备，让它知道有更多数据准备好从 RAM 进行 DMA 并写入网络。
最后，调用 mmiowb 函数。此函数将执行适用于 CPU 架构的指令，使内存映射写入操作有序。它也是一个写屏障，但用于内存映射 I/O 写入。

如果您想了解更多关于 wmb、mmiowb 以及何时使用它们，可以阅读 Linux 内核中包含的一些出色的关于内存屏障的文档。

最后，只有当从 DMA API 返回错误时（当尝试映射 skb 数据地址到可 DMA 地址时），才会执行此代码。

dma_error:        dev_err(tx_ring->dev, "TX DMA map failed\n");        /* clear dma mappings for failed tx_buffer_info map */        for (;;) {                tx_buffer = &tx_ring->tx_buffer_info[i];                igb_unmap_and_free_tx_resource(tx_ring, tx_buffer);                if (tx_buffer == first)                        break;                if (i == 0)                        i = tx_ring->count;                i--;        }        tx_ring->next_to_use = i;

在继续传输完成之前，让我们检查一下上面传递的内容：动态队列限制。

动态队列限制（DQL）

正如你在这篇文章中看到的那样，随着网络数据越来越靠近传输设备，它会在不同阶段花费大量时间排队。随着队列大小的增加，数据包在未传输的队列中停留的时间更长，即数据包传输延迟随着队列大小增加而增加。

对抗这种情况的一种方法是背压。动态队列限制（DQL）系统是一种机制，设备驱动程序可以使用该机制向网络系统施加背压，

要使用此系统，网络设备驱动程序需要在其传输和完成例程期间进行一些简单的 API 调用。 DQL 系统内部使用一种算法来确定何时有足够的数据传输。一旦达到此限制，传输队列将暂时禁用。这种队列禁用是对网络系统产生背压的原因。当DQL系统确定有足够的数据完成传输时，队列将自动重新启用。

查看这组关于 DQL 系统的优秀幻灯片，了解一些性能数据和 DQL 内部算法的解释。

我们刚才看到的代码中调用的函数 netdev_tx_sent_queue 是 DQL API 的一部分。当数据排队到设备进行传输时，会调用此函数。传输完成后，驱动程序调用就会调用 netdev_tx_completed_queue。在内部，这两个函数都将调用 DQL 库（位于 ./lib/dynamic_queue_limits.c 和 ./include/linux/dynamic_queue_limits.h 中），以确定传输队列是否应该被禁用、重新启用或保持原样。

DQL 在 sysfs 中导出统计信息和调优旋钮。调优 DQL 应该是不必要的；该算法将随时间调整其参数。不过，为了完整起见，我们将在后面看到如何监控和调优 DQL。

传输完成

一旦设备传输了数据，它将产生一个中断信号，表示传输完成。然后设备驱动程序可以安排一些长时间运行的工作来完成，比如取消映射内存区域和释放数据。具体如何工作取决于设备。在 igb 驱动程序（及其相关设备）的情况下，发射相同的 IRQ 以完成传输和接收数据包。这意味着对于 igb 驱动程序，NET_RX 处理发送完成和传入数据包接收。

让我重申这一点，以强调其重要性：您的设备可能会在接收数据包时发出与发送数据包完成信号相同的中断。如果是，NET_RX 软中断将运行处理传入数据包和传输完成。

由于两个操作共享同一个 IRQ，因此只能注册一个 IRQ 处理函数，并且它必须处理两种可能的情况。当接收到网络数据时，调用以下流程：

接收网络数据。
网络设备引发 IRQ。
设备驱动程序的 IRQ 处理程序执行，清除 IRQ 并确保 softIRQ 被调度运行（如果尚未运行）。这里触发的软中断是 NET_RX 软中断。
软中断本质上是作为一个单独的内核线程执行的。它运行并实现 NAPI 轮询循环。
NAPI 轮询循环只是一段代码，只要有足够的预算，它就在循环中执行，收集数据包。
每次处理数据包时，预算都会减少，直到没有更多的数据包要处理，预算达到 0，或者时间片到期为止。

igb 驱动程序（和 ixgbe 驱动程序[greetings，tyler]）中的上述步骤 5 在处理传入数据之前处理传输完成。请记住，根据驱动程序的实现，传输完成和传入数据的处理功能可能共享相同的处理预算。 igb 和 ixgbe 驱动器分别跟踪传输完成和传入数据包预算，因此处理传输完成将不一定耗尽传入预算。

也就是说，整个 NAPI 轮询循环在硬编码的时间片内运行。这意味着，如果要处理大量的传输完成处理，传输完成可能会比处理传入数据占用更多的时间片。对于那些在非常高的负载环境中运行网络硬件的人来说，这可能是一个重要的考虑因素。

让我们看看 igb 驱动程序在实践中是如何做到这一点的。

传输完成 IRQ

这篇文章将不再重复Linux 内核接收端网络博客文章中已经涵盖的信息，而是按顺序列出步骤，并链接到接收端博客文章中的相应部分，直到传输完成。

所以，让我们从头开始：

网络设备启动。
IRQ 处理程序已注册。
用户程序发送数据到网络套接字。数据在网络栈中传输，直到设备从内存中获取数据并将其传输。
设备完成数据传输并引发 IRQ 以通知传输完成。
驱动程序的IRQ 处理程序执行以处理中断。
IRQ 处理程序调用 napi_schedule 来响应 IRQ。
NAPI 代码触发 NET_RX 软中断执行。
NET_RX 软中断函数 net_rx_action 开始执行。
net_rx_action 函数调用驱动程序注册的 NAPI 轮询函数。
执行 NAPI 轮询函数 igb_poll。

轮询函数 igb_poll 是代码分离并处理传入数据包和传输完成的地方。让我们深入研究这个函数的代码，看看它在哪里发生的。

`igb_poll`

让我们来看看 igb_poll（来自 ./drivers/net/ethernet/intel/igb/igb_main.c）：

/** *  igb_poll - NAPI Rx polling callback *  @napi: napi polling structure *  @budget: count of how many packets we should handle **/static int igb_poll(struct napi_struct *napi, int budget){        struct igb_q_vector *q_vector = container_of(napi,                                                     struct igb_q_vector,                                                     napi);        bool clean_complete = true;#ifdef CONFIG_IGB_DCA        if (q_vector->adapter->flags & IGB_FLAG_DCA_ENABLED)                igb_update_dca(q_vector);#endif        if (q_vector->tx.ring)                clean_complete = igb_clean_tx_irq(q_vector);        if (q_vector->rx.ring)                clean_complete &= igb_clean_rx_irq(q_vector, budget);        /* If all work not completed, return budget and keep polling */        if (!clean_complete)                return budget;        /* If not enough Rx work done, exit the polling mode */        napi_complete(napi);        igb_ring_irq_enable(q_vector);        return 0;}

此函数执行几个操作，顺序如下：

如果在内核中启用了直接缓存访问（DCA）支持，则 CPU 缓存将预热，以便对 RX 环的访问将命中 CPU 缓存。您可以在接收端网络帖子的附加部分阅读有关 DCA 的更多信息。
调用 igb_clean_tx_irq，执行发送完成操作。
接下来调用 igb_clean_rx_irq，其执行传入数据包处理。
最后，检查 clean_complete 以确定是否还有更多的工作可以完成。如果是，则返回budget。如果发生这种情况，net_rx_action 移动这个 NAPI 结构到轮询列表的末尾，以便稍后再次处理。

要了解更多关于 igb_clean_rx_irq 工作原理，请阅读上一篇博客文章的这一部分。

这篇博客文章主要关注发送端，所以我们将继续研究上面的 igb_clean_tx_irq 是如何工作的。

`igb_clean_tx_irq`

请查看 ./drivers/net/ethernet/intel/igb/igb_main.c 中此函数的源代码。

它有点长，所以我们把它分成块并研究它：

static bool igb_clean_tx_irq(struct igb_q_vector *q_vector){        struct igb_adapter *adapter = q_vector->adapter;        struct igb_ring *tx_ring = q_vector->tx.ring;        struct igb_tx_buffer *tx_buffer;        union e1000_adv_tx_desc *tx_desc;        unsigned int total_bytes = 0, total_packets = 0;        unsigned int budget = q_vector->tx.work_limit;        unsigned int i = tx_ring->next_to_clean;        if (test_bit(__IGB_DOWN, &adapter->state))                return true;

该函数首先初始化一些有用的变量。一个重要的考虑因素是 budget。正如你在上面看到的budget 被初始化为这个队列的 tx.work_limit。在 igb 驱动程序中，tx.work_limit 被初始化为硬编码值 IGB_DEFAULT_TX_WORK（128）。

值得注意的是，虽然我们现在看到的传输完成代码与接收处理在相同的 NET_RX 软中断中运行，但 TX 和 RX 函数在 igb 驱动程序中并不共享处理预算。由于整个 poll 函数在相同的时间片内运行，因此单次运行 igb_poll 函数不可能使传入的数据包处理或传输完成饿死。只要调用igb_poll，两者都会被处理。

接下来，上面的代码片段以检查网络设备是否关闭结束。如果是，则返回 true 并退出igb_clean_tx_irq。

tx_buffer = &tx_ring->tx_buffer_info[i];tx_desc = IGB_TX_DESC(tx_ring, i);i -= tx_ring->count;

tx_buffer 变量被初始化为位于 tx_ring->next_to_clean（其本身被初始化为0）的传输缓冲区信息结构。
获得相关联的描述符的引用，并将其存储在 tx_desc。
计数器 i 减少发送队列的大小。这个值可以调整（正如我们将在调优部分看到的那样），但是被初始化为 IGB_DEFAULT_TXD（256）。

接下来，循环开始。它包括一些有用的注释，以解释每个步骤中发生的事情：

do {        union e1000_adv_tx_desc *eop_desc = tx_buffer->next_to_watch;        /* if next_to_watch is not set then there is no work pending */        if (!eop_desc)                break;        /* prevent any other reads prior to eop_desc */        read_barrier_depends();        /* if DD is not set pending work has not been completed */        if (!(eop_desc->wb.status & cpu_to_le32(E1000_TXD_STAT_DD)))                break;        /* clear next_to_watch to prevent false hangs */        tx_buffer->next_to_watch = NULL;        /* update the statistics for this packet */        total_bytes += tx_buffer->bytecount;        total_packets += tx_buffer->gso_segs;        /* free the skb */        dev_kfree_skb_any(tx_buffer->skb);        /* unmap skb header data */        dma_unmap_single(tx_ring->dev,                         dma_unmap_addr(tx_buffer, dma),                         dma_unmap_len(tx_buffer, len),                         DMA_TO_DEVICE);        /* clear tx_buffer data */        tx_buffer->skb = NULL;        dma_unmap_len_set(tx_buffer, len, 0);

首先，eop_desc 被设置为缓冲区的 next_to_watch 字段。这是在我们之前看到的传输代码中设置的。
如果 eop_desc（eop = 数据包结束）为 NULL，则没有工作待处理。
调用 read_barrier_depends 函数，该函数将为此 CPU 架构执行适当的 CPU 指令，以防止读取被重新排序到此屏障之前。
接下来，在数据包结束描述符 eop_desc 中检查一个状态位。如果未设置 E1000_TXD_STAT_DD 位，则传输尚未完成，因此从循环中退出。
清除 tx_buffer->next_to_watch。驱动程序中的看门狗定时器将监视此字段以确定传输是否挂起。清除此字段将防止看门狗触发。
更新发送的总字节数和数据包数的统计计数器。一旦处理完所有描述符，复制这些到驱动程序读取的统计计数器中。
释放 skb。
使用 dma_unmap_single 取消映射 skb 数据区域。
设置 tx_buffer->skb 为 NULL 并取消映射 tx_buffer。

接下来，在上面的循环内部开始另一个循环：

/* clear last DMA location and unmap remaining buffers */while (tx_desc != eop_desc) {        tx_buffer++;        tx_desc++;        i++;        if (unlikely(!i)) {                i -= tx_ring->count;                tx_buffer = tx_ring->tx_buffer_info;                tx_desc = IGB_TX_DESC(tx_ring, 0);        }        /* unmap any remaining paged data */        if (dma_unmap_len(tx_buffer, len)) {                dma_unmap_page(tx_ring->dev,                               dma_unmap_addr(tx_buffer, dma),                               dma_unmap_len(tx_buffer, len),                               DMA_TO_DEVICE);                dma_unmap_len_set(tx_buffer, len, 0);        }}

该内部循环将在每个传输描述符上循环，直到 tx_desc 到达 eop_desc。这段代码取消映射任何附加描述符引用的数据。

外部循环继续：

        /* move us one more past the eop_desc for start of next pkt */        tx_buffer++;        tx_desc++;        i++;        if (unlikely(!i)) {                i -= tx_ring->count;                tx_buffer = tx_ring->tx_buffer_info;                tx_desc = IGB_TX_DESC(tx_ring, 0);        }        /* issue prefetch for next Tx descriptor */        prefetch(tx_desc);        /* update budget accounting */        budget--;} while (likely(budget));

外部循环增加迭代器并减少 budget 值。检查循环不变量以确定循环是否应继续。

netdev_tx_completed_queue(txring_txq(tx_ring),                          total_packets, total_bytes);i += tx_ring->count;tx_ring->next_to_clean = i;u64_stats_update_begin(&tx_ring->tx_syncp);tx_ring->tx_stats.bytes += total_bytes;tx_ring->tx_stats.packets += total_packets;u64_stats_update_end(&tx_ring->tx_syncp);q_vector->tx.total_bytes += total_bytes;q_vector->tx.total_packets += total_packets;

此代码：

调用 netdev_tx_completed_queue，它是上面解释的 DQL API 的一部分。如果处理了足够的传输完成，这将潜在地重新启用传输队列。
统计数据被添加到适当位置，以便用户可以访问它们，我们将在后面看到。

代码继续执行，首先检查是否设置了 IGBIGB_RING_FLAG_TX_DETECT_HANG 标志。看门狗定时器在每次运行定时器回调时设置此标志，以强制执行传输队列的定期检查。如果该标志现在恰好打开，代码将继续并检查传输队列是否挂起：

if (test_bit(IGB_RING_FLAG_TX_DETECT_HANG, &tx_ring->flags)) {        struct e1000_hw *hw = &adapter->hw;        /* Detect a transmit hang in hardware, this serializes the         * check with the clearing of time_stamp and movement of i         */        clear_bit(IGB_RING_FLAG_TX_DETECT_HANG, &tx_ring->flags);        if (tx_buffer->next_to_watch &&            time_after(jiffies, tx_buffer->time_stamp +                       (adapter->tx_timeout_factor * HZ)) &&            !(rd32(E1000_STATUS) & E1000_STATUS_TXOFF)) {                /* detected Tx unit hang */                dev_err(tx_ring->dev,                        "Detected Tx Unit Hang\n"                        "  Tx Queue             <%d>\n"                        "  TDH                  <%x>\n"                        "  TDT                  <%x>\n"                        "  next_to_use          <%x>\n"                        "  next_to_clean        <%x>\n"                        "buffer_info[next_to_clean]\n"                        "  time_stamp           <%lx>\n"                        "  next_to_watch        <%p>\n"                        "  jiffies              <%lx>\n"                        "  desc.status          <%x>\n",                        tx_ring->queue_index,                        rd32(E1000_TDH(tx_ring->reg_idx)),                        readl(tx_ring->tail),                        tx_ring->next_to_use,                        tx_ring->next_to_clean,                        tx_buffer->time_stamp,                        tx_buffer->next_to_watch,                        jiffies,                        tx_buffer->next_to_watch->wb.status);                netif_stop_subqueue(tx_ring->netdev,                                    tx_ring->queue_index);                /* we are about to reset, no point in enabling stuff */                return true;        }

上面的 if 语句检查：

设置了 tx_buffer->next_to_watch，并且
当前 jiffies 大于在传输路径上记录到 tx_buffer 的 time_stamp，其中添加了超时因子，以及
设备的传输状态寄存器未设置为 E1000_STATUS_TXOFF。

如果这三个测试都为真，则打印一个错误，表明检测到挂起。使用 netif_stop_subqueue 关闭队列，并返回 true。

让我们继续阅读代码，看看如果没有传输挂起检查，或者如果有，但没有检测到挂起，会发生什么：

#define TX_WAKE_THRESHOLD (DESC_NEEDED * 2)        if (unlikely(total_packets &&            netif_carrier_ok(tx_ring->netdev) &&            igb_desc_unused(tx_ring) >= TX_WAKE_THRESHOLD)) {                /* Make sure that anybody stopping the queue after this                 * sees the new next_to_clean.                 */                smp_mb();                if (__netif_subqueue_stopped(tx_ring->netdev,                                             tx_ring->queue_index) &&                    !(test_bit(__IGB_DOWN, &adapter->state))) {                        netif_wake_subqueue(tx_ring->netdev,                                            tx_ring->queue_index);                        u64_stats_update_begin(&tx_ring->tx_syncp);                        tx_ring->tx_stats.restart_queue++;                        u64_stats_update_end(&tx_ring->tx_syncp);                }        }        return !!budget;

在上面的代码中，驱动程序重新启动传输队列（如果先前已禁用）。它首先检查是否：

某些数据包已经处理完成（total_packets 非零），并且
netif_carrier_ok 以确保设备未被关闭，以及
传输队列中未使用的描述符数量大于或等于 TX_WAKE_THRESHOLD。在我的 x86_64 系统上，此阈值似乎为 42。

如果所有条件都满足，则使用写屏障（smp_mb）。接下来检查另一组条件：

如果队列已停止，并且
设备未关闭

然后调用 netif_wake_subqueue 唤醒传输队列并向更高层次发出信号，表示它们可以再次排队数据。增加 restart_queue 统计计数器。接下来我们将看到如何读取此值。

最后，返回一个布尔值。如果有任何剩余的未使用预算，则返回 true，否则返回 false。在 igb_poll 中检查此值以确定返回给 net_rx_action 的内容。

`igb_poll` 返回值

igbigb_poll 函数有以下代码来确定返回给 net_rx_action：

if (q_vector->tx.ring)        clean_complete = igb_clean_tx_irq(q_vector);if (q_vector->rx.ring)        clean_complete &= igb_clean_rx_irq(q_vector, budget);/* If all work not completed, return budget and keep polling */if (!clean_complete)        return budget;

换句话说，如果：

igb_clean_tx_irq 清除了所有传输完成，而没有耗尽其传输完成预算，以及
igb_clean_rx_irq 清除了所有传入数据包，而没有耗尽其数据包处理预算

然后，将返回整个预算数量（对于大多数驱动程序，它被硬编码为 64，包括 igb）。如果传输或传入处理中的任何一个不能完成（因为还有更多的工作要做），则调用 napi_complete 并返回 0：

        /* If not enough Rx work done, exit the polling mode */        napi_complete(napi);        igb_ring_irq_enable(q_vector);        return 0;}

监控网络设备

有几种不同的方法可以监控网络设备，提供不同级别的粒度和复杂性。让我们从最细粒度开始，然后转到最细粒度。

使用 `ethtool -S`

你可以运行以下命令在 Ubuntu 系统上安装 ethtool：sudo apt-get install ethtool.

安装后，您可以传递 -S 标志以及需要统计信息的网络设备的名称来访问统计信息。

使用 ethtool -S 监控详细的 NIC 设备统计信息（例如，传输错误）。

$ sudo ethtool -S eth0NIC statistics:     rx_packets: 597028087     tx_packets: 5924278060     rx_bytes: 112643393747     tx_bytes: 990080156714     rx_broadcast: 96     tx_broadcast: 116     rx_multicast: 20294528     ....

监测这些数据可能很困难。它很容易获得，但字段值没有标准化。不同的驱动程序，甚至不同版本的同一驱动可能会产生具有相同含义的不同字段名称。

你应该在标签中寻找带有“drop”、“buffer”、“miss”、“errors”等的值。接下来，您将不得不阅读驱动程序源代码。您将能够确定哪些值完全在软件中计算（例如，在没有内存时增加）以及哪些值直接通过寄存器从硬件读取获得。对于寄存器值，您应该查阅硬件的数据表以确定计数器的真实含义； ethtool 给出的许多标签可能会产生误导。

使用 sysfs

sysfs 也提供了许多统计值，但它们比直接提供的 NIC 级别统计值略高一些。

您可以使用 cat 在文件上查找丢弃的传入网络数据帧的数量，例如 eth0。

使用 sysfs 监控更高级别的 NIC 统计信息。

$ cat /sys/class/net/eth0/statistics/tx_aborted_errors2

计数器值将被拆分为 tx_aborted_errors、tx_carrier_errors、tx_compressed、tx_dropped 等文件。

不幸的是，由驱动程序来决定每个字段的含义，以及何时增加它们以及值来自何处。您可能会注意到，一些驱动程序将某种类型的错误情况视为丢弃，但其他驱动程序可能会将其视为未命中。

如果这些值对您很重要，您需要阅读驱动程序源代码和设备数据表，以准确了解驱动程序认为的每个值的含义。

使用 `/proc/net/dev`

更高级的文件是 /proc/net/dev，它为系统上的每个网络适配器提供高级摘要式信息。

读取 /proc/net/dev 来监视高级 NIC 统计信息。

$ cat /proc/net/devInter-|   Receive                                                |  Transmit face |bytes    packets errs drop fifo frame compressed multicast|bytes    packets errs drop fifo colls carrier compressed  eth0: 110346752214 597737500    0    2    0     0          0  20963860 990024805984 6066582604    0    0    0     0       0          0    lo: 428349463836 1579868535    0    0    0     0          0         0 428349463836 1579868535    0    0    0     0       0          0

这个文件显示了您在上面提到的 sysfs 文件中找到的值的子集，但它可能作为一个有用的一般参考。

上面提到的警告也适用于这里：如果这些值对您很重要，您仍然需要阅读驱动程序源代码，以准确了解何时、何地以及为什么它们会增加，以确保您对 error、drop 或 fifo 的理解与驱动程序相同。

监控动态队列限制

您可以读取位于以下位置的文件来监控网络设备的动态队列限制：

/sys/class/net/NIC/queues/tx-QUEUE_NUMBER/byte_queue_limits/。

替换 NIC 为您的设备名称（eth0、eth1 等），替换 tx-QUEUE_NUMBER 为传输队列号（tx-0、tx-1、tx-2 等）。

其中一些文件是：

hold_time：初始化为 HZ（单个赫兹）。如果队列在 hold_time 内已满，则减小最大大小。
inflight：它是尚未处理完成的正在传输的数据包的当前数量。该值等于（排队的数据包数量-完成的数据包数量）。
limit_max：硬编码值，设置为 DQL_MAX_LIMIT（在我的 x86_64 系统上为 1879048192）。
limit_min：硬编码值，设置为 0。
limit：一个介于 limit_min 和 limit_max 之间的值，表示当前可以排队的对象的最大数量。

在修改任何这些值之前，强烈建议阅读这些演示幻灯片，以深入了解算法。

读取 /sys/class/net/eth0/queues/tx-0/byte_queue_limits/inflight 监控在传输过程中的数据包情况。

$ cat /sys/class/net/eth0/queues/tx-0/byte_queue_limits/inflight350

调优网络设备

检查正在使用的传输队列数

如果您的 NIC 和系统上加载的设备驱动程序支持多个传输队列，则通常可以使用 ethtool 调整 TX 队列（也称为 TX 通道）的数量 ethtool。

使用 ethtool 检查 NIC 传输队列的数量 ethtool

$ sudo ethtool -l eth0Channel parameters for eth0:Pre-set maximums:RX:   0TX:   0Other:    0Combined: 8Current hardware settings:RX:   0TX:   0Other:    0Combined: 4

此输出显示预设的最大值（由驱动程序和硬件强制执行）和当前设置。

注意： 并非所有设备驱动程序都支持此操作。

如果您的 NIC 不支持此操作，则会出现错误。

$ sudo ethtool -l eth0Channel parameters for eth0:Cannot get device channel parameters: Operation not supported

这意味着您的驱动程序尚未实现 ethtool get_channels 操作。这可能是因为 NIC 不支持调整队列数量，不支持多个传输队列，或者您的驱动程序尚未更新以处理此功能。

调整使用的传输队列数

找到当前和最大队列计数后，可以使用 sudo ethtool -L 调整这些值。

注意： 某些设备及其驱动程序仅支持为发送和接收配对的组合队列，如上一节中的示例所示。

使用 ethtool -L 设置组合 NIC 传输和接收队列为 8

$ sudo ethtool -L eth0 combined 8

如果您的设备和驱动程序支持 RX 和 TX 的单独设置，并且您只想更改 TX 队列计数为 8，则可以运行：

使用 ethtool -L 设置 NIC 传输队列的数量为 8。

$ sudo ethtool -L eth0 tx 8

注意： 对于大多数驱动程序来说，进行这些更改将关闭接口，然后再重新打开; 与该接口的连接将被中断。不过，这对于一次性的改变来说可能并不重要。

调整传输队列的大小

某些 NIC 及其驱动程序还支持调整 TX 队列的大小。具体的工作原理是硬件相关的，但幸运的是，ethtool 为用户提供了一种通用的方法来调整大小。由于使用了 DQL 来防止更高层次的网络代码在某些时候排队更多数据，因此增加发送队列的大小可能不会产生巨大的差异。尽管如此，您可能仍然希望增加发送队列到最大大小，并让 DQL 为您处理其他所有事情：

使用 ethtool -g 检查当前网卡队列大小。

$ sudo ethtool -g eth0Ring parameters for eth0:Pre-set maximums:RX:   4096RX Mini:  0RX Jumbo: 0TX:   4096Current hardware settings:RX:   512RX Mini:  0RX Jumbo: 0TX:   512

上面的输出指示硬件支持多达 4096 个接收和发送描述符，但是它当前仅使用 512 个。

使用 ethtool -G 增加每个 TX 队列的大小到 4096

$ sudo ethtool -G eth0 tx 4096

注意： 对于大多数驱动程序来说，进行这些更改将关闭接口，然后再重新打开；与该接口的连接将被中断。不过，这对于一次性的改变来说可能并不重要。

结束

结束了！现在你已经知道了 Linux 上数据包传输的工作原理：从用户程序到设备驱动程序再返回。

其他

有一些额外的事情值得一提，值得一提的是，似乎不太正确的其他任何地方。

减少 ARP 流量（`MSG_CONFIRM`）

send、sendto 和 sendmsg 系统调用都采用 flags 参数。如果您传递 MSG_CONFIRM 标志给应用程序中的这些系统调用，它将导致内核中发送路径上的 dst_neigh_output 函数更新邻居结构的时间戳。这样做的结果是相邻结构将不会被垃圾收集。这可以防止产生额外的 ARP 流量，因为邻居缓存条目将保持更热、更长时间。

UDP Corking

我们在整个 UDP 协议栈中广泛地研究了 UDP corking。如果要在应用程序中使用它，可以调用 setsockopt 启用 UDP corking，设置 level 为 IPPROTO_UDP，optname 设置为 UDP_CORK，optval 设置为 1。

时间戳

正如上面的博客文章中提到的，网络栈可以收集传出数据的时间戳。请参阅上面的网络栈演练，了解软件中的传输时间戳发生的位置。一些 NIC 甚至还支持硬件中的时间戳。

如果您想尝试确定内核网络栈在发送数据包时增加了多少延迟，这是一个有用的特性。

关于时间戳的内核文档非常好，甚至还有一个包含的示例程序和 Makefile，你可以查看！

使用 ethtool -T 确定您的驱动程序和设备支持的时间戳模式。

$ sudo ethtool -T eth0Time stamping parameters for eth0:Capabilities:  software-transmit     (SOF_TIMESTAMPING_TX_SOFTWARE)  software-receive      (SOF_TIMESTAMPING_RX_SOFTWARE)  software-system-clock (SOF_TIMESTAMPING_SOFTWARE)PTP Hardware Clock: noneHardware Transmit Timestamp Modes: noneHardware Receive Filter Modes: none

不幸的是，这个网卡不支持硬件传输时间戳，但是软件时间戳仍然可以在这个系统上使用，以帮助我确定内核给我的数据包传输路径增加了多少延迟。

结论

Linux 网络栈很复杂。

正如我们上面看到的，即使像 NET_RX 这样简单的东西也不能保证像我们期望的那样工作。即使RX 在名称中，传输完成仍在此 softIRQ 中处理。

这突出了我认为是问题的核心：除非您仔细阅读并理解网络栈的工作原理，否则无法优化和监控网络栈。您无法监控您不深入了解的代码。

原文： Monitoring and Tuning the Linux Networking Stack: Sending Data

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/04-25-2023/monitoring-and-tuning-the-linux-networking-stack-sent-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

译｜Monitoring and Tuning the Linux Networking Stack: Receiving Data

2023-04-23T16:00:00.000Z

TL;DR

本文解释了 Linux 内核的计算机如何接收数据包，以及当数据包从网络流向用户程序时，如何监视和调优网络栈的每个组件。

更新我们已经发布了本文的姊妹篇：监控和调优 Linux 网络栈：发送数据。

更新查看监控和调优 Linux 网络栈图解指南：接收数据，它为下面的内容添加了一些图表。

如果不阅读内核的源代码，不深入了解到底发生了什么，就不可能调优或监控 Linux 网络栈。

希望本文能给想做这方面工作的人提供参考。

特别感谢

特别感谢 Private Internet Access 的工作人员雇用我们，结合其他网络研究进行进一步研究，并慷慨地允许以研究为基础发布这些信息。

本文基于为 Private Internet Access 所做的工作，最初以 5 部分的系列文章的形式发表。

监控和调优 Linux 网络栈的一般建议

Linux 网络栈是复杂的，没有一刀切的监控或调优解决方案。如果您真的想调优网络栈，您别无选择，只能投入大量的时间、精力和金钱来了解网络系统的各个部分是如何交互的。

理想情况下，您应该考虑在网络栈的每一层测量数据包丢弃。这样您就可以确定并缩小需要调优的组件的范围。

这就是我认为许多运营商偏离轨道的地方：假设一组 sysctl 设置或 /proc 值可以简单地被大规模重用。在某些情况下，也许可以，但事实证明，整个系统是如此微妙和交织在一起，如果您希望有意义的监控或调优，您必须努力深入了解系统如何运作。否则，您可以直接使用默认设置，在必要的进一步优化（以及推导这些设置所需的投资）之前，已经足够好。

通过网络连接到计算机时调整网络设置是危险的；你很容易地把自己锁在外面，或者完全关闭你的网络。不要在生产机器上调整这些设置；相反，如果可能的话，在新机器上进行调整，再投入生产中。

概览

数据包从到达到套接字接收缓冲区的流程概览：

驱动程序已加载并初始化。
数据包从网络到达 NIC。
数据包被复制（通过 DMA）到内核内存中的环形缓冲区。
产生硬件中断通知系统知道数据包到达内存。
驱动程序调用 NAPI 启动轮询循环（如果尚未运行轮询循环）。
ksoftirqd 进程运行在系统的每个 CPU 上。它们在启动时注册。 ksoftirqd 进程调用设备驱动程序在初始化期间注册的 NAPI poll 函数，从环形缓冲区收取数据包。
环形缓冲区中已写入网络数据的内存区域被取消映射。
DMA 到内存的数据以 “skb” 向上传递到网络层，以进行更多处理。
如果 packet steering 启用或 NIC 具有多个接收队列，则传入的网络数据帧将分布在多个CPU 中。
网络数据帧从队列传递到协议层。
协议层处理数据。
协议层添加数据到套接字关联的接收缓冲区。

整个流程将在以下各节中详细介绍。

下面检查的协议层是IP和UDP协议层。本文提供的许多信息也将作为其他协议层的参考。

详细探讨

本文将探讨 Linux 3.13.0 版本内核，贯穿全文提供了 GitHub 代码链接和代码片段。

准确理解 Linux 内核如何接收数据包是非常复杂的。我们需要仔细检查和理解网络驱动程序是如何工作的，以便更加清晰理解后面的网络栈部分。

本文将介绍 igb 网络驱动程序。此驱动程序用于相对常见的服务器 NIC，即 Intel Ethernet Controller I350。那么，让我们从理解 igb 网络驱动程序的工作原理开始。

网络设备驱动程序

初始化

驱动程序注册一个初始化函数，当驱动程序被加载时，内核会调用该函数。此函数使用module_init 宏注册。

igb 初始化函数（igb_init_module）及其与 module_init 的注册可以在 drivers/net/ethernet/intel/igb/igb_main.c 中找到。

两者都非常简单明了：

/** *  igb_init_module - Driver Registration Routine * *  igb_init_module is the first routine called when the driver is *  loaded. All it does is register with the PCI subsystem. **/static int __init igb_init_module(void){  int ret;  pr_info("%s - version %s\n", igb_driver_string, igb_driver_version);  pr_info("%s\n", igb_copyright);  /* ... */  ret = pci_register_driver(&igb_driver);  return ret;}module_init(igb_init_module);

初始化设备的大部分工作都是调用 pci_register_driver 完成的，我们将在下面看到。

PCI 初始化

英特尔 I350 网卡是一种 PCI express 设备。

PCI 设备通过 PCI 配置空间中的一系列寄存器标识自己。

当设备驱动程序被编译时，会使用一个名为 MODULE_DEVICE_TABLE 的宏（来自 include/module.h）来导出一个 PCI 设备 ID 表，标识设备驱动程序可以控制的设备。该表注册为一个结构的一部分，我们稍后将看到。

内核使用此表来确定要加载哪个设备驱动程序来控制设备。

这就是操作系统如何确定哪些设备连接到系统，以及应该使用哪个驱动程序与设备通信。

此表和 igb 驱动程序的 PCI 设备 ID 位于 drivers/net/ethernet/intel/igb/igb_main.c 和 drivers/net/ethernet/intel/igb/e1000_hw.h：

static DEFINE_PCI_DEVICE_TABLE(igb_pci_tbl) = {  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I354_BACKPLANE_1GBPS) },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I354_SGMII) },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I354_BACKPLANE_2_5GBPS) },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I211_COPPER), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_COPPER), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_FIBER), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_SERDES), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_SGMII), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_COPPER_FLASHLESS), board_82575 },  { PCI_VDEVICE(INTEL, E1000_DEV_ID_I210_SERDES_FLASHLESS), board_82575 },  /* ... */};MODULE_DEVICE_TABLE(pci, igb_pci_tbl);

如上一节所示，驱动程序的初始化函数会调用 pci_register_driver。

这个函数注册一个指针结构。大多数指针是函数指针，但 PCI 设备 ID 表也被注册。内核使用驱动程序注册的函数启动 PCI 设备。

来自 drivers/net/ethernet/intel/igb/igb_main.c：

static struct pci_driver igb_driver = {  .name     = igb_driver_name,  .id_table = igb_pci_tbl,  .probe    = igb_probe,  .remove   = igb_remove,  /* ... */};

PCI 探测

一旦通过 PCI ID 识别了设备，内核就可以选择适当的驱动程序来控制该设备。每个 PCI 驱动程序都在内核的 PCI 系统中注册了一个探测函数。内核为尚未被设备驱动程序认领的设备调用此函数。一旦设备被认领，不会再就该设备询问其他驱动程序。大多数驱动程序都有大量的代码运行，以使设备做好使用准备。所做的确切事情因驱动程序而异。

要执行的一些典型操作包括：

启用 PCI 设备。
请求内存范围和 IO 端口。
设置 DMA 掩码。
注册驱动程序支持的 ethtool 函数（下面将详细描述）。
启动看门狗任务（例如，e1000e 有一个看门狗任务来检查硬件是否挂起）。
其他设备相关的内容，如替代方法或处理硬件特定的状况之类。
创建、初始化和注册 struct net_device_ops 结构。此结构包含指向打开设备、发送数据到网络、设置 MAC 地址等各种函数的函数指针。
创建、初始化和注册抽象 struct net_device，表示网络设备。

让我们快速看一下 igb 驱动程序中 igb_probe 函数的一些操作。

PCI 初始化一瞥

下面的 igb_probe 函数代码执行一些基本的 PCI 配置。来自drivers/net/ethernet/intel/igb/igb_main.c：

err = pci_enable_device_mem(pdev);/* ... */err = dma_set_mask_and_coherent(&pdev->dev, DMA_BIT_MASK(64));/* ... */err = pci_request_selected_regions(pdev, pci_select_bars(pdev,           IORESOURCE_MEM),           igb_driver_name);pci_enable_pcie_error_reporting(pdev);pci_set_master(pdev);pci_save_state(pdev);

首先，设备使用 pci_enable_device_mem 进行初始化。这将唤醒设备（如果它处于挂起状态），启用内存资源等。

接下来，将设置 DMA 掩码。此设备可以读写 64 位内存地址，因此使用 DMA_BIT_MASK(64) 调用 dma_set_mask_and_coherent。

调用 pci_request_selected_regions 保留内存区域，启用 PCI Express 高级错误报告（如果加载了 PCI AER 驱动程序），调用 pci_set_master 启用 DMA，并调用 pci_save_state 保存 PCI 配置空间。

网络设备初始化

igb_probe 函数执行一些重要的网络设备初始化。除了 PCI 特定的工作外，它还执行更多通用的网络和网络设备工作：

注册 struct net_device_ops。
注册 ethtool 操作。
从 NIC 获取默认 MAC 地址。
设置 net_device 特性标志。
还有更多。

让我们逐个来看看，它们很有趣。

`struct net_device_ops`

struct net_device_ops 包含指向许多重要操作的函数指针，网络子系统需要这些操作来控制设备。在本文的其余部分，我们将多次提到这个结构。

net_device_ops 结构被关联到 igb_probe 中的 struct net_device 上。来自 drivers/net/ethernet/intel/igb/igb_main.c

static int igb_probe(struct pci_dev *pdev, const struct pci_device_id *ent){  /* ... */  netdev->netdev_ops = &igb_netdev_ops;

并且此 net_device_ops 结构保存的指针指向的函数也在同一个文件中设置。来自 drivers/net/ethernet/intel/igb/igb_main.c：

static const struct net_device_ops igb_netdev_ops = {  .ndo_open               = igb_open,  .ndo_stop               = igb_close,  .ndo_start_xmit         = igb_xmit_frame,  .ndo_get_stats64        = igb_get_stats64,  .ndo_set_rx_mode        = igb_set_rx_mode,  .ndo_set_mac_address    = igb_set_mac,  .ndo_change_mtu         = igb_change_mtu,  .ndo_do_ioctl           = igb_ioctl,  /* ... */

如您所见，该 struct 有几个有趣的字段，如 ndo_open、ndo_stop、ndo_start_xmit 和 ndo_get_stats64，它们保存了 igb 驱动程序实现的函数地址。

稍后我们将更详细地了解其中的一些内容。

`ethtool` 注册

ethtool 是一个命令行程序，您可以使用它来获取和设置各种驱动程序和硬件选项。在 Ubuntu 上，您可以运行 apt-get install ethtool 安装它。

ethtool 的一个常见用途是从网络设备收集详细统计信息。其他有趣的 ethtool 设置将在后面描述。

ethtool 程序使用 ioctl 系统调用与设备驱动程序通信。设备驱动程序注册一系列 ethtool 操作的函数，内核负责粘合。

当从 ethtool 发出 ioctl 调用时，内核找到驱动程序注册的 ethtool 结构，并执行已注册的函数。驱动程序的 ethtool 函数实现可以做任何事情，从更改驱动程序中的简单软件标志到向设备写入寄存器值来调整实际 NIC 硬件的工作方式。

igb 驱动程序调用 igb_set_ethtool_ops 在 igb_probe 中注册其 ethtool 操作：

static int igb_probe(struct pci_dev *pdev, const struct pci_device_id *ent){  /* ... */  igb_set_ethtool_ops(netdev);

igb 驱动程序的 ethtool 代码可以在文件 drivers/net/ethernet/intel/igb/igb_ethtool.c 中找到，同时还有 igb_set_ethtool_ops 函数。

来自 drivers/net/ethernet/intel/igb/igb_ethtool.c：

void igb_set_ethtool_ops(struct net_device *netdev){  SET_ETHTOOL_OPS(netdev, &igb_ethtool_ops);}

在上面，您可以找到 igb_ethtool_ops 结构，其中 igb 驱动程序支持的 ethtool 函数设置为适当的字段。

来自 drivers/net/ethernet/intel/igb/igb_ethtool.c：

static const struct ethtool_ops igb_ethtool_ops = {  .get_settings           = igb_get_settings,  .set_settings           = igb_set_settings,  .get_drvinfo            = igb_get_drvinfo,  .get_regs_len           = igb_get_regs_len,  .get_regs               = igb_get_regs,  /* ... */

各个驱动程序决定哪些 ethtool 函数是相关的，哪些应该实现。不幸的是，并非所有驱动程序都实现了所有 ethtool 函数。

一个有趣的 ethtool 函数是 get_ethtool_stats，它（如果实现）会产生详细的统计计数器，这些计数器要么在驱动程序中的软件中跟踪，要么通过设备本身跟踪。

下面的监控部分将展示如何使用 ethtool 访问这些详细统计信息。

硬中断

当数据帧通过 DMA 写入 RAM 时，NIC 如何告诉系统其余部分数据已准备好处理？

传统上，NIC 会生成一个硬中断请求 (IRQ)，指示数据已到达。有三种常见类型的 IRQ：MSI-X、MSI 和legacy IRQ。这些将在稍后提及。当数据通过 DMA 写入 RAM 时，设备生成 IRQ 是很简单的，但如果大量数据帧到达，则会生成大量 IRQ。生成的 IRQ 越多，更高级任务（如用户进程）的 CPU 时间就越少。

新 API (NAPI) 被创建为一种减少网络设备在数据包到达时生成的 IRQ 数量的机制。虽然 NAPI 减少了 IRQ 的数量，但不能完全消除它们。

我们将在后面的部分看到为什么会这样。

NAPI

NAPI 与传统的收集数据方法在几个重要方面有所不同。NAPI 允许设备驱动程序注册一个 poll 函数，NAPI 子系统将调用该函数来收集数据帧。

在网络设备驱动程序中，NAPI 的预期用法如下：

驱动程序启用 NAPI，但最初处于关闭状态。
数据包到达，并由 NIC 通过 DMA 写入内存。
NIC 生成 IRQ，触发驱动程序中的 IRQ 处理程序。
驱动程序使用 softirq（稍后将详细介绍）唤醒 NAPI 子系统。开始在单独的执行线程中调用驱动程序注册的 poll 函数来收集数据包。
驱动程序应禁用来自 NIC 的进一步 IRQ。这样做是为了让 NAPI 子系统在没有设备中断的情况下处理数据包。
一旦没有更多工作要做，NAPI 子系统被禁用，设备的 IRQ 被重新启用。
过程从第 2 步重新开始。

与传统方法相比，这种收集数据帧的方法减少了开销，因为可以一次处理多个数据帧，而无需处理每个数据帧一次 IRQ。

设备驱动程序实现一个 poll 函数并调用 netif_napi_add 将其注册到 NAPI。当使用 netif_napi_add 注册 NAPI poll 函数时，驱动程序还将指定 weight。大多数驱动程序硬编码一个为 64 的值。这个值及其含义将在下面更详细地描述。

通常，驱动程序在驱动程序初始化期间注册它们的 NAPI poll 函数。

`igb` 驱动程序的 NAPI 初始化

igb 驱动程序通过一个长调用链来实现：

igb_probe 调用 igb_sw_init。
igb_sw_init 调用 igb_init_interrupt_scheme。
igb_init_interrupt_scheme 调用 igb_alloc_q_vectors。
igb_alloc_q_vectors 调用 igb_alloc_q_vector。
igb_alloc_q_vector 调用 netif_napi_add。

该调用跟踪发生了一些高级的事情：

如果支持 MSI-X，则调用 pci_enable_msix 启用它。
计算并初始化各种设置；最值得注意的是设备和驱动程序发送和接收数据包的传输和接收队列的数量。
为每个创建的传输和接收队列调用一次 igb_alloc_q_vector。
每次调用 igb_alloc_q_vector 都会调用 netif_napi_add 为该队列注册一个 poll 函数，当调用以收集数据包时，将传递一个 struct napi_struct 实例给 poll。

让我们看一下 igb_alloc_q_vector，看看如何注册 poll 回调及其私有数据。

来自 drivers/net/ethernet/intel/igb/igb_main.c：

static int igb_alloc_q_vector(struct igb_adapter *adapter,                              int v_count, int v_idx,                              int txr_count, int txr_idx,                              int rxr_count, int rxr_idx){  /* ... */  /* allocate q_vector and rings */  q_vector = kzalloc(size, GFP_KERNEL);  if (!q_vector)          return -ENOMEM;  /* initialize NAPI */  netif_napi_add(adapter->netdev, &q_vector->napi, igb_poll, 64);  /* ... */

上面的代码为接收队列分配内存，并注册函数 igb_poll 到 NAPI 子系统。它提供了一个指向与此新创建的接收队列关联的 struct napi_struct 的引用（上面的 &q_vector->napi）。当 NAPI 子系统调用它来从此接收队列收集数据包时，将传递给 igb_poll。

当我们探讨数据从驱动程序到网络栈的流动时，这一点很重要。

启动网络设备

我们之前看到的 net_device_ops 结构体注册了一组函数，用于启动网络设备、传输数据包、设置 MAC 地址等。

当网络设备启动时（例如，使用 ifconfig eth0 up），net_device_ops 结构体中的 ndo_open 字段所关联的函数会被调用。

ndo_open 函数通常会执行以下操作：

分配接收队列和传输队列内存
启用 NAPI
注册中断处理程序
启用硬件中断
等等。

在 igb 驱动程序的情况下，net_device_ops 结构体中 ndo_open 字段所关联的函数被称为 igb_open。

准备从网络接收数据

现在大多数网卡都使用 DMA 直接将数据写入 RAM，操作系统可以从中获取数据进行处理。大多数网卡用于此目的的数据结构类似于基于循环缓冲区（或环形缓冲区）构建的队列。

为了做到这一点，设备驱动程序必须与操作系统协作，保留一块网卡硬件可以使用的内存区域。一旦保留了这个区域，就会告知硬件其位置，传入的数据将被写入 RAM，在 RAM 中稍后将被网络子系统拾取并处理。

这看起来很简单，但如果数据包速率足够高，以至于单个 CPU 无法正确处理所有传入的数据包呢？数据结构建立在固定长度的内存区域上，因此传入的数据包将被丢弃。

这就是接收端扩展 (RSS) 或多队列能够改善的点。

有些设备能够同时将传入的数据包写入几个不同的 RAM 区域；每个区域都是一个单独的队列。这允许操作系统从硬件层面开始，使用多个 CPU 并行处理传入的数据。并非所有网卡都支持此功能。

Intel I350 网卡支持多队列。我们可以在 igb 驱动程序中看到这一点。当 igb 驱动程序启动时，它首先调用一个名为 igb_setup_all_rx_resources 的函数。这个函数为每个接收队列调用另一个函数 igb_setup_rx_resources，以安排设备将传入数据写入 DMA支持内存。

如果您想了解这是如何工作的，请参阅 Linux 内核的 DMA API HOWTO。

事实证明，可以使用 ethtool 调整接收队列的数量和大小。调整这些值会对处理的帧数与丢弃的帧数产生明显影响。

网卡使用数据包头字段（如源、目的地、端口等）上的哈希函数来确定数据应该发送到哪个接收队列。

有些网卡允许您调整接收队列的权重，因此您可以向特定队列发送更多流量。

少部分网卡允许您调整哈希函数本身。如果您可以调整哈希函数，您可以发送某些流量到特定的接收队列进行处理，甚至在硬件层面丢弃数据包（如果需要）。

我们稍后将看看如何调整这些设置。

启用NAPI

当网络设备启动时，驱动程序通常会启用 NAPI。

我们之前看到驱动程序如何向 NAPI 注册 poll 函数，但 NAPI 通常不会在设备启动之前启用。

启用 NAPI 相对简单。调用 napi_enable 翻转 struct napi_struct 的一个位，以指示它现在已启用。如上所述，虽然 NAPI 被启用，但它将处于关闭状态。

在 igb 驱动程序的情况下，当驱动程序加载或使用 ethtool 更改队列计数或大小时，会为每个已初始化的 q_vector 启用 NAPI。

来自 drivers/net/ethernet/intel/igb/igb_main.c：

for (i = 0; i < adapter->num_q_vectors; i++)  napi_enable(&(adapter->q_vector[i]->napi));

注册中断处理程序

启用 NAPI 后，下一步是注册中断处理程序。设备可以使用不同的方法来发出中断信号：MSI-X、MSI 和 legacy interrupt。因此，代码因设备而异，具体取决于特定硬件支持的中断方法。

驱动程序必须确定设备支持哪种方法，并注册适当的处理程序函数，在接收到中断时执行。

有些驱动程序，如 igb 驱动程序，会尝试使用每种方法注册中断处理程序，在失败时回退到下一个未测试的方法。

MSI-X 中断是首选方法，特别是对于支持多个接收队列的网卡。这是因为每个接收队列都可以分配自己的硬件中断，然后由特定的 CPU 处理（使用 irqbalance 或修改 /proc/irq/IRQ_NUMBER/smp_affinity）。我们稍后将看到，处理中断的 CPU 将是处理数据包的 CPU。通过这种方式，从硬件中断层次到网络栈，到达的数据包可以由单独的 CPU 处理。

如果 MSI-X 不可用，MSI 仍然比 legacy interrupt 具有优势。如果设备支持它，驱动程序将使用它。阅读这个有用的维基页面了解更多关于 MSI 和 MSI-X 的信息。

在 igb 驱动程序中，函数 igb_msix_ring、igb_intr_msi、igb_intr 分别是 MSI-X、MSI 和 legacy interrupt 模式的中断处理程序方法。

您可以在驱动程序中找到尝试每种中断方法的代码drivers/net/ethernet/intel/igb/igb_main.c:

static int igb_request_irq(struct igb_adapter *adapter){  struct net_device *netdev = adapter->netdev;  struct pci_dev *pdev = adapter->pdev;  int err = 0;  if (adapter->msix_entries) {    err = igb_request_msix(adapter);    if (!err)      goto request_done;    /* fall back to MSI */    /* ... */  }  /* ... */  if (adapter->flags & IGB_FLAG_HAS_MSI) {    err = request_irq(pdev->irq, igb_intr_msi, 0,          netdev->name, adapter);    if (!err)      goto request_done;    /* fall back to legacy interrupts */    /* ... */  }  err = request_irq(pdev->irq, igb_intr, IRQF_SHARED,        netdev->name, adapter);  if (err)    dev_err(&pdev->dev, "Error %d getting interrupt\n", err);request_done:  return err;}

如上面的简略代码所示，驱动程序首先尝试使用 igb_request_msix 设置 MSI-X 中断处理程序，在失败时回退到 MSI。接下来，使用 request_irq 注册 igb_intr_msi，即 MSI 中断处理程序。如果这失败了，驱动程序将回退到传统中断。再次使用 request_irq 注册 legacy interrupt 处理程序 igb_intr。

这就是 igb 驱动程序如何注册一个函数，在网卡引发中断信号表明数据已到达并准备好处理时执行。

启用中断

此时，几乎所有东西都已设置好。剩下的只是启用网卡的中断并等待数据到达。启用中断是硬件特定的，但 igb 驱动程序在 __igb_open 中调用名为 igb_irq_enable 的辅助函数来实现。

写入寄存器为此设备启用中断。

static void igb_irq_enable(struct igb_adapter *adapter){  /* ... */    wr32(E1000_IMS, IMS_ENABLE_MASK | E1000_IMS_DRSTA);    wr32(E1000_IAM, IMS_ENABLE_MASK | E1000_IMS_DRSTA);  /* ... */}

网络设备现已启动

驱动程序可能会做一些其他事情，如启动计时器、工作队列或其他硬件特定的设置。一旦完成，网络设备就已启动并准备好使用。

让我们看看如何监控和调优网络设备驱动程序的设置。

监控网络设备

有几种不同的方法可以监控您的网络设备，提供不同程度的粒度和复杂性。让我们从最精细的开始，逐渐过渡到最粗略的。

`ethtool -S` 使用

您可以运行 sudo apt-get install ethtool 在 Ubuntu 系统上安装 ethtool。

安装完成后，您可以传递 -S 标志以及您想要获取统计信息的网络设备名称来访问统计信息。

使用 ethtool -S 监控详细的网卡设备统计信息（例如，数据包丢弃）。

$ sudo ethtool -S eth0NIC statistics:     rx_packets: 597028087     tx_packets: 5924278060     rx_bytes: 112643393747     tx_bytes: 990080156714     rx_broadcast: 96     tx_broadcast: 116     rx_multicast: 20294528     ....

监控这些数据可能很困难。它很容易获得，但字段值没有标准化。不同的驱动程序，甚至不同版本的相同驱动程序可能会产生具有相同含义的不同字段名称。

您应该寻找带有 “drop”、“buffer”、“miss” 等标签的值。接下来，您将不得不阅读驱动程序源代码。您能够确定哪些值完全在软件中计算（例如，没有内存时增加），哪些值直接读取寄存器从硬件获得。对于寄存器值，您应该查阅硬件的数据表，以确定计数器的真实含义； ethtool 给出的许多标签都可能是误导性的。

sysfs 使用

sysfs 也提供了许多统计值，但它们的层级比直接提供的网卡级别统计值略高一些。

您可以使用 cat 在文件上查找丢弃的传入网络数据帧的数量，例如 eth0。

使用 sysfs 监控更高层级的网卡统计信息。

$ cat /sys/class/net/eth0/statistics/rx_dropped2

计数器值分为 collisions、rx_dropped、rx_errors、rx_missed_errors 等文件。

不幸的是，由驱动程序决定每个字段的含义，何时增加它们以及值来自哪里。您可能会注意到，有些驱动程序将某种类型的错误条件计为丢弃，但其他驱动程序可能将其计为错过。

如果这些值对您至关重要，您需要阅读驱动程序源代码，以准确了解您的驱动程序认为每个值的含义。

`/proc/net/dev` 使用

一个更高层级的文件是 /proc/net/dev，它为系统上的每个网络适配器提供高层级概要信息。

读取 /proc/net/dev 监控高层级网卡统计信息。

$ cat /proc/net/devInter-|   Receive                                                                                                               |  Transmit face |                   bytes         packets errs drop fifo frame compressed     multicast |                   bytes           packets errs drop fifo colls carrier compressed  eth0:    110346752214   597737500     0      2    0        0                    0  20963860   990024805984 6066582604     0       0    0      0         0                    0       lo: 428349463836 1579868535     0      0    0        0                    0                  0    428349463836  1579868535     0       0    0      0         0                    0

这个文件显示了上面提到的 sysfs 文件中找到的值的子集，但它可能作为一个有用的一般参考。

上面提到的警告在这里也适用：如果这些值对您很重要，您仍然需要阅读驱动程序源代码，以准确了解何时、何地以及为什么它们会增加，以确保您对 error、drop 或 fifo 的理解与你的驱动程序相同。

调优网络设备

检查正在使用的接收队列数量

如果您的网卡和系统上加载的设备驱动程序支持 RSS / 多队列，您通常可以使用 ethtool 调整接收队列（也称为接收通道）的数量。

使用 ethtool 检查网卡接收队列的数量。

$ sudo ethtool -l eth0Channel parameters for eth0:Pre-set maximums:RX:   0TX:   0Other:    0Combined: 8Current hardware settings:RX:   0TX:   0Other:    0Combined: 4

此输出显示预设的最大值（由驱动程序和硬件强制执行）和当前设置。

注意： 并非所有设备驱动程序都支持此操作。

如果您的 NIC 不支持此操作，则会出现错误。

$ sudo ethtool -l eth0Channel parameters for eth0:Cannot get device channel parameters: Operation not supported

这意味着您的驱动程序没有实现 ethtool 的 get_channels 操作。这可能是因为网卡不支持调整队列数量，不支持 RSS / 多队列，或者您的驱动程序尚未更新以处理此功能。

调整接收队列的数量

一旦您找到了当前和最大队列数，您可以使用 sudo ethtool -L 调整这些值。

注意： 一些设备及其驱动程序仅支持组合队列，用于传输和接收，如上一节中的示例。

使用 ethtool -L 设置组合网卡传输和接收队列为 8。

$ sudo ethtool -L eth0 combined 8

如果您的设备和驱动程序支持单独设置接收队列和传输队列，并且您只想更改接收队列数为 8，则可以运行：

使用 ethtool -L 设置 NIC 接收队列数为 8。

$ sudo ethtool -L eth0 rx 8

注意： 对于大多数驱动程序，这些更改将使接口下线，然后重新启动；与此接口的连接将中断。对于一次性更改，这可能并不重要。

调整接收队列的大小

一些网卡及其驱动程序也支持调整接收队列的大小。具体如何操作取决于硬件，但幸运的是，ethtool 为用户提供了一种通用的调整大小的方法。在接收大量数据帧的时期，增加接收队列的大小可以帮助防止网卡丢失网络数据。不过，数据仍然可能在软件中丢失，并且需要其他调整来减少或完全消除丢失。

使用 ethtool -g 检查当前网卡队列大小。

$ sudo ethtool -g eth0Ring parameters for eth0:Pre-set maximums:RX:   4096RX Mini:  0RX Jumbo: 0TX:   4096Current hardware settings:RX:   512RX Mini:  0RX Jumbo: 0TX:   512

上述输出表明硬件支持最多 4096 个接收和传输描述符，但目前仅使用 512 个。

使用 ethtool -G 增加每个接收队列的大小到 4096。

$ sudo ethtool -G eth0 rx 4096

注意： 对于大多数驱动程序，这些更改将使接口下线，然后重新启动；与此接口的连接将中断。对于一次性更改，这可能并不重要。

调整接收队列的处理权重

一些网卡支持设置权重来调整网络数据在接收队列之间的分配。

如果满足以下条件，您可以进行配置：

网卡支持流量引导。
驱动程序实现了 ethtool 函数 get_rxfh_indir_size 和 get_rxfh_indir。
运行的 ethtool 版本足够新，支持命令行选项 -x 和 -X 分别显示和设置引导表。

使用 ethtool -x 检查 RX 流量引导表。

$ sudo ethtool -x eth0RX flow hash indirection table for eth3 with 2 RX ring(s):0: 0 1 0 1 0 1 0 18: 0 1 0 1 0 1 0 116: 0 1 0 1 0 1 0 124: 0 1 0 1 0 1 0 1

此输出在左侧显示数据包哈希值，其中列出了接收队列 0 和 1。因此，散列到 2 的数据包将被递送到接收队列 0，而散列到 3 的数据包将被递送到接收队列 1。

示例：在前两个接收队列之间均匀扩散处理

$ sudo ethtool -X eth0 equal 2

如果你想设置自定义权重来改变命中特定接收队列（以及CPU）的数据包数量，你也可以在命令行中指定这些权重：

使用 ethtool -X 设置自定义收队队列权重

$ sudo ethtool -X eth0 weight 6 2

上述命令指定接收队列 0 的权重为 6，接收队列 1 权重为 2，使得推送更多的数据到队列 0 处理。

一些网卡还允许您调整哈希算法中使用的字段，我们接下来会看到。

调整网络流的接收哈希字段

您可以使用 ethtool 来调整计算 RSS 时使用的哈希字段。

使用 ethtool -n 检查 UDP 接收流哈希所用的字段。

$ sudo ethtool -n eth0 rx-flow-hash udp4UDP over IPV4 flows use these fields for computing Hash flow key:IP SAIP DA

对于 eth0，计算 UDP 流的哈希的字段是 IPv4 源地址和目标地址。让我们添加源端口和目标端口：

使用 ethtool -N 设置 UDP 接收流哈希字段。

$ sudo ethtool -N eth0 rx-flow-hash udp4 sdfn

sdfn 字符串有点神秘；请查看 ethtool 手册页获取每个字母的解释。

调整哈希的字段很有用，但是，对于更精细地控制哪些流将由哪个接收队列处理， ntuple 过滤更有用。

ntuple 过滤引导网络流

一些网卡支持一种称为 “ntuple 过滤” 的功能。此功能允许用户通过 ethtool 指定一组参数，在硬件中过滤传入的网络数据并将其排队到特定的接收队列。例如，用户可以指定目标为特定端口的 TCP 数据包应发送到接收队列 1。

在英特尔网卡上，此功能通常称为 Intel Ethernet Flow Director。其他网卡供应商可能为此功能提供其他营销名称。

正如我们稍后将看到的，ntuple 过滤是另一种称为加速接收流引导 (aRFS) 的功能的关键组成部分，如果您的网卡支持它，则使用 ntuple 更容易。aRFS 将在后面介绍。

如果系统的运行要求最大化数据局部性，以期在处理网络数据时提高 CPU 缓存命中率，那么此功能可能很有用。例如，考虑在端口 80 上运行的 Web 服务器的以下配置：

在端口 80 上运行的 Web 服务器被固定在 CPU 2 上运行。
接收队列的 IRQ 被分配给 CPU 2 处理。
目标为端口 80 的 TCP 流量使用 ntuple 过滤到 CPU 2。
所有传入端口 80 的流量都由 CPU 2 处理，从数据到达用户程序开始。
需要仔细监控系统，包括缓存命中率和网络堆栈延迟，以确定有效性。

如前所述，可以使用 ethtool 配置 ntuple 过滤，但首先，您需要确保在您的设备上启用了此功能。

使用 ethtool -k 检查是否启用了 ntuple 过滤。

$ sudo ethtool -k eth0Offload parameters for eth0:...ntuple-filters: offreceive-hashing: on

正如所见，在这个设备上 ntuple-filters 被禁用。

使用 ethtool -K 启用 ntuple 过滤

$ sudo ethtool -K eth0 ntuple on

一旦你启用了 ntuple 过滤，或者验证它已经启用，你可以使用 ethtool 检查现有的ntuple 规则：

使用 ethtool -u 检查现有的 ntuple 过滤

$ sudo ethtool -u eth040 RX rings availableTotal 0 rules

如您所见，此设备没有 ntuple 过滤规则。您可以在 ethtool 命令行上指定它来添加规则。让我们添加一个规则，定向目标端口为 80 的所有 TCP 流量到接收队列 2：

添加 ntuple 过滤器，发送目标端口为 80 的 TCP 流量到接收队列 2。

$ sudo ethtool -U eth0 flow-type tcp4 dst-port 80 action 2

您还可以使用 ntuple 过滤在硬件级别丢弃特定流的数据包。这对于缓解来自特定 IP 地址的大量传入流量很有用。有关配置 ntuple 过滤规则的更多信息，请参阅 ethtool 手册页。

您通常可以检查 ethtool -S [设备名称] 输出的值来获取有关 ntuple 规则成功（或失败）的统计信息。例如，在英特尔网卡上，统计信息 fdir_match 和 fdir_miss 计算您的 ntuple 过滤规则的匹配和未命中次数。请查阅您的设备驱动程序源代码和设备数据表以追查统计计数器（如果可用）。

软中断

在研究网络栈之前，我们需要稍微了解一下 Linux 内核名为软中断的东西。

什么是软中断？

Linux 内核中的软中断系统是一种在驱动程序中实现的中断处理程序上下文之外执行代码的机制。这个系统很重要，因为在中断处理程序的全部或部分执行期间，硬件中断可能被禁用。中断被禁用的时间越长，错过事件的机会就越大。因此，推迟任何长时间运行的操作到中断处理程序之外是很重要的，以便它能尽快完成并重新启用来自设备的中断。

内核中还有其他机制推迟工作，但对于网络栈，我们将探讨 softirq。

可以将 softirq 系统想象为一系列内核线程（每个 CPU 一个），它们运行已为不同 softirq 事件注册的处理程序函数。如果您曾经查看过 top 并在内核线程列表中看到 ksoftirqd/0，那么您正在查看在 CPU 0 上运行的 softirq 内核线程。

内核子系统（如网络）可以执行 open_softirq 函数来注册软中断处理程序。我们稍后将看到网络系统如何注册其软中断处理程序。现在，让我们了解更多关于软中断如何工作的信息。

`ksoftirqd`

既然软中断对于推迟设备驱动程序的工作非常重要，您可能会想象内核生命周期早期就会产生 ksoftirqd 进程，这是正确的。

查看 kernel/softirq.c 中的代码，可以发现 ksoftirqd 系统是如何初始化的。

static struct smp_hotplug_thread softirq_threads = {  .store              = &ksoftirqd,  .thread_should_run  = ksoftirqd_should_run,  .thread_fn          = run_ksoftirqd,  .thread_comm        = "ksoftirqd/%u",};static __init int spawn_ksoftirqd(void){  register_cpu_notifier(&cpu_nfb);  BUG_ON(smpboot_register_percpu_thread(&softirq_threads));  return 0;}early_initcall(spawn_ksoftirqd);

从上面的 struct smp_hotplug_thread 定义中可以看出，注册了两个函数指针：ksoftirqd_should_run 和 run_ksoftirqd。

作为类似于事件循环的一部分，这两个函数都是从 kernel/smpboot.c 中调用的。

kernel/smpboot.c 中的代码首先调用 ksoftirqd_should_run，确定是否有未决的软中断，如果有未决的软中断，则执行 run_ksoftirqd。run_ksoftirqd 在调用 __do_softirq 之前进行了一些小的簿记工作。

`__do_softirq`

__do_softirq 函数做了一些有趣的事情：

确定哪个软中断处于未决状态
出于统计目的，记录软中断时间
增加软中断执行统计
执行未决软中断的软中断处理程序（已调用 open_softirq 注册）。

因此，当您查看 CPU 使用率图表并看到 softirq 或 si 时，您现在知道这是在测量延迟工作上下文中的 CPU 使用量。

监控

`/proc/softirqs`

softirq 系统增加统计计数器，可以从 /proc/softirqs 读取。监控这些统计数据可以让您了解各种事件的软中断产生的速率。

读取 /proc/softirqs 检查软中断统计信息。

$ cat /proc/softirqs                    CPU0       CPU1       CPU2       CPU3          HI:          0          0          0          0       TIMER: 2831512516 1337085411 1103326083 1423923272      NET_TX:   15774435     779806     733217     749512      NET_RX: 1671622615 1257853535 2088429526 2674732223       BLOCK: 1800253852    1466177    1791366     634534BLOCK_IOPOLL:          0          0          0          0     TASKLET:         25          0          0          0       SCHED: 2642378225 1711756029  629040543  682215771     HRTIMER:    2547911    2046898    1558136    1521176         RCU: 2056528783 4231862865 3545088730  844379888

这个文件可以让您了解您的网络接收（NET_RX）处理当前如何分布在您的 CPU 上。如果分布不均匀，您会看到某些 CPU 的计数值比其他 CPU 大。这是一个指示器，表明您可能会从下面描述的 Receive Packet Steering / Receive Flow Steering 中受益。在监控性能时要小心使用这个文件：在网络活动高峰期，您可能会期望看到 NET_RX 增量率增加，但这并不一定是这样。事实证明，这有点微妙，因为网络栈中还有其他调节旋钮会影响 NET_RX 软中断触发的速率，我们很快就会看到。

但是，您应该注意到这一点，以便在调整其他调节旋钮时，您将知道检查 /proc/softirqs 并期望看到变化。

现在，让我们继续探讨网络栈，并从上到下追踪网络数据的接收方式。

Linux 网络设备子系统

现在我们已经了解了网络驱动程序和软中断是如何工作的，让我们看看 Linux 网络设备子系统是如何初始化的。然后，我们可以从数据包的到达开始跟踪数据包的路径。

网络设备子系统初始化

网络设备（netdev）子系统在函数 net_dev_init 中初始化。这个初始化函数中发生了很多有趣的事情。

`struct softnet_data` 结构初始化

net_dev_init 为系统的每个 CPU 创建一组 struct softnet_data 结构。这些结构将保存指向处理网络数据的几个重要内容的指针：

注册到此 CPU 的 NAPI 结构列表。
数据处理的积压。
处理 weight。
接收卸载结构列表。
Receive packet steering 设置。
更多。

随着我们在网络栈中向上移动，将更详细地探讨这些点。

软中断处理程序的初始化

net_dev_init 注册一个发送和接收软中断处理程序，它将处理传入或传出的网络数据。这段代码非常简单：

static int __init net_dev_init(void){  /* ... */  open_softirq(NET_TX_SOFTIRQ, net_tx_action);  open_softirq(NET_RX_SOFTIRQ, net_rx_action); /* ... */}

我们很快就会看到驱动程序的中断处理程序如何“引发”（或触发）注册到 NET_RX_SOFTIRQ 软中断的 net_rx_action 函数。

数据到达

终于，网络数据到达了！

假设接收队列有足够的可用描述符，数据包将通过 DMA 写入 RAM。然后设备引发分配给它的中断（或者在 MSI-X 的情况下，与数据包到达的接收队列绑定的中断）。

中断处理程序

通常，当中断被引发时，运行的中断处理程序应该尽量推迟尽可能多的处理到中断上下文之外发生。这至关重要，因为在处理中断时，其他中断可能会被阻塞。

让我们看一下 MSI-X 中断处理程序的源代码；它将真正有助于说明中断处理程序尽可能少地工作的理念。

来自 drivers/net/ethernet/intel/igb/igb_main.c：

static irqreturn_t igb_msix_ring(int irq, void *data){  struct igb_q_vector *q_vector = data;  /* Write the ITR value calculated from the previous interrupt. */  igb_write_itr(q_vector);  napi_schedule(&q_vector->napi);  return IRQ_HANDLED;}

这个中断处理程序非常短，执行 2 个非常快速的操作后返回。

首先，此函数调用 igb_write_itr，它只更新一个硬件特定的寄存器。在这种情况下，更新的寄存器是跟踪硬件中断到达速率的寄存器。

此寄存器与称为“中断节流”（也称为“中断合并”）的硬件功能结合使用，可控制中断传递到 CPU 的速度。我们很快就会看到 ethtool 如何提供一种调整 IRQ 触发速率的机制。

其次，调用 napi_schedule，如果 NAPI 处理循环尚未激活，则唤醒它。请注意，NAPI 处理循环在软中断中执行；NAPI 处理循环不从中断处理程序执行。中断处理程序只是使其开始执行（如果尚未执行）。

显示如何工作的实际代码非常重要；它将指导我们了解如何在多 CPU 系统上处理网络数据。

NAPI 和 `napi_schedule`

让我们弄清楚硬件中断处理程序中的 napi_schedule 调用是如何工作的。

请记住，NAPI 的存在是为了在不需要来自 NIC 的中断来信号数据准备好处理的情况下收集网络数据。如前所述，NAPI poll 循环是接收硬件中断引导的。换句话说：NAPI 已启用，但关闭，直到第一个数据包到达时，NIC 引发硬件中断并启动 NAPI。正如我们很快就会看到的那样，还有一些其他情况，其中 NAPI 可能被禁用，并且需要引发硬件中断才能再次启动。

当驱动程序中的中断处理程序调用 napi_schedule 时，将启动 NAPI 轮询循环。napi_schedule 实际上只是一个在头文件中定义的包装函数，它调用 __napi_schedule。

来自 net/core/dev.c：

/** * __napi_schedule - schedule for receive * @n: entry to schedule * * The entry's receive function will be scheduled to run */void __napi_schedule(struct napi_struct *n){  unsigned long flags;  local_irq_save(flags);  ____napi_schedule(&__get_cpu_var(softnet_data), n);  local_irq_restore(flags);}EXPORT_SYMBOL(__napi_schedule);

这段代码使用 __get_cpu_var 获取注册到当前 CPU 的 softnet_data 结构。这个 softnet_data 结构和从驱动程序传递上来的 struct napi_struct 结构被传递到 ____napi_schedule。哇，这是很多下划线 ;)

让我们看一下 ____napi_schedule，来自 net/core/dev.c：

/* Called with irq disabled */static inline void ____napi_schedule(struct softnet_data *sd,                                     struct napi_struct *napi){  list_add_tail(&napi->poll_list, &sd->poll_list);  __raise_softirq_irqoff(NET_RX_SOFTIRQ);}

这段代码做了两件重要的事情：

从设备驱动程序的中断处理程序代码传递上来的 struct napi_struct，被添加到与当前 CPU 关联的 softnet_data 结构的 poll_list 中。
使用 __raise_softirq_irqoff 来“引发”（或触发）NET_RX_SOFTIRQ 软中断。将执行（如果当前未执行）在网络设备子系统初始化期间注册的 net_rx_action。

正如我们很快就会看到的那样，软中断处理函数 net_rx_action 将调用 NAPI poll 函数来收集数据包。

关于 CPU 和网络数据处理的说明

请注意，我们迄今为止看到的所有推迟硬件中断处理程序中的工作到 softirq 的代码，都使用了与当前 CPU 相关联的结构。

虽然驱动程序的硬中断处理程序本身所做的工作非常少，但软中断处理程序在与驱动程序的硬中断处理程序相同的 CPU 上执行。

这就是为什么设置硬中断处理的 CPU 处理很重要：该 CPU 不仅执行驱动程序中的中断处理程序，而且在 NAPI 以软中断方式收集数据包时也将使用相同的 CPU。

正如我们稍后将看到的，像 Receive Packet Steering 的功能可以将一些工作分配给网络栈更高层级的其他 CPU。

监控网络数据到达

硬件中断请求

注意： 监视硬件中断并不能全面了解数据包处理的健康状况。许多驱动程序在 NAPI 运行时关闭硬件中断，我们将在后面看到。它是整个监控解决方案的重要组成部分。

读取 /proc/interrupts 检查硬件中断状态。

$ cat /proc/interrupts            CPU0       CPU1       CPU2       CPU3   0:         46          0          0          0 IR-IO-APIC-edge      timer   1:          3          0          0          0 IR-IO-APIC-edge      i8042  30: 3361234770          0          0          0 IR-IO-APIC-fasteoi   aacraid  64:          0          0          0          0 DMAR_MSI-edge      dmar0  65:          1          0          0          0 IR-PCI-MSI-edge      eth0  66:  863649703          0          0          0 IR-PCI-MSI-edge      eth0-TxRx-0  67:  986285573          0          0          0 IR-PCI-MSI-edge      eth0-TxRx-1  68:         45          0          0          0 IR-PCI-MSI-edge      eth0-TxRx-2  69:        394          0          0          0 IR-PCI-MSI-edge      eth0-TxRx-3 NMI:    9729927    4008190    3068645    3375402  Non-maskable interrupts LOC: 2913290785 1585321306 1495872829 1803524526  Local timer interrupts

您可以监控 /proc/interrupts 中的统计信息，以查看随着数据包到达而硬件中断的数量和速率如何变化，并确保您的 NIC 的每个接收队列都由适当的 CPU 处理。正如我们不久将看到的，这个数字只告诉我们发生了多少次硬件中断，但它并不一定是了解接收或处理了多少数据的好指标，因为许多驱动程序会作为与 NAPI 子系统协作的一部分禁用 NIC 硬中断。此外，使用中断合并也会影响从此文件收集的统计信息。监控此文件可以帮助您确定所选的中断合并设置是否真正起作用。

要获得更完整的网络处理健康状况图像，您需要监控 /proc/softirqs（如上所述）以及我们将在下面介绍的 /proc 中的其他文件。

调优网络数据到达

中断合并

中断合并是一种防止设备向 CPU 发出中断的方法，直到有特定数量的工作或事件处于挂起状态。

这可以帮助防止中断风暴，并可以根据使用的设置帮助提高吞吐量或延迟。产生的中断较少会导致吞吐量更高，延迟增加，CPU 使用率降低。产生的中断较多会导致相反的结果：延迟降低，吞吐量降低，但 CPU 使用率增加。

历史上，早期版本的 igb、e1000 和其他驱动程序都包含对名为 InterruptThrottleRate 的参数的支持。在较新的驱动程序中，此参数已替换为通用的 ethtool 函数。

使用 ethtool -c 获取当前的 IRQ 合并设置。

$ sudo ethtool -c eth0Coalesce parameters for eth0:Adaptive RX: off  TX: offstats-block-usecs: 0sample-interval: 0pkt-rate-low: 0pkt-rate-high: 0...

ethtool 提供了一个通用接口，设置各种合并设置。但是，请记住，并非每个设备或驱动程序都支持所有设置。您应该检查驱动程序文档或驱动程序源代码以确定支持或不支持的内容。根据 ethtool 文档：“驱动程序未实现的任何内容都会导致这些值被静默忽略。”

一些驱动程序支持的一个有趣选项是“自适应接收/传输硬中断合并”。此选项通常在硬件中实现。驱动程序通常需要做一些工作来通知 NIC 启用了此功能，并进行一些簿记（如上面的 igb 驱动程序代码所示）。

启用自适应接收/传输硬中断合并的结果是，在数据包速率低时调整中断传递以改善延迟，并在数据包速率高时提高吞吐量。

使用 ethtool -C 启用自适应接收硬中断合并。

$ sudo ethtool -C eth0 adaptive-rx on

你可以使用 ethtool -C 来设置多个选项。一些常见的选项包括：

rx-usecs：在数据包到达后，延迟多少微秒才触发接收中断。
rx-frames：在触发接收中断之前，最多接收多少个数据帧。
rx-usecs-irq：当主机正在处理中断时，延迟多少微秒才触发接收中断。
rx-frames-irq：当系统正在处理中断时，在触发接收中断之前，最多接收多少个数据帧。

还有更多选项。

提醒，你的硬件和驱动程序可能只支持上述选项的一个子集。你应该查阅驱动程序源代码和硬件数据表，以获取有关支持的合并选项的更多信息。

不幸的是，除了头文件之外，你可以设置的选项并没有在其他地方得到很好的记录。查看 include/uapi/linux/ethtool.h 的源代码，以找到 ethtool 支持的每个选项的解释（但不一定是你的驱动程序和 NIC）。

注意：虽然中断合并看起来是一个非常有用的优化，但在尝试优化时，网络栈的其他内部也会受到影响。在某些情况下，中断合并可能很有用，但你应该确保网络栈的其他部分也调整得当。仅仅修改合并设置本身可能带来的好处微不足道。

调整 IRQ 亲和性

如果你的网卡支持 RSS/多队列，或者你想优化数据本地性，你可能希望使用特定的 CPU 来处理网卡产生的中断。

设置特定的 CPU 可以让你划分哪些 CPU 处理哪些 IRQ。这些更改可能会影响上层操作，正如在网络栈中看到的那样。

如果你决定调整 IRQ 亲和性，你应该首先检查是否运行了 irqbalance 守护程序。这个守护程序试图自动平衡 IRQ 到 CPU 上，它可能会覆盖你的设置。如果你正在运行 irqbalance，你应该禁用 irqbalance 或使用 --banirq 与 IRQBALANCE_BANNED_CPUS 结合使用，让 irqbalance 知道它不应该触碰你想要自己分配的 IRQ 和 CPU 集合。

接下来，你应该检查文件 /proc/interrupts，查看网卡每个网络 RX 队列的 IRQ 编号列表。

最后，你可以修改每个 IRQ 编号的 /proc/irq/IRQ_NUMBER/smp_affinity 来调整每个 IRQ 将由哪些 CPU 处理。

你只需写入十六进制位掩码到此文件，以指示内核应使用哪些 CPU 来处理 IRQ。

示例：设置 IRQ 8 的 IRQ 亲和性为 CPU 0

$ sudo bash -c 'echo 1 > /proc/irq/8/smp_affinity'

网络数据处理开始

当软中断代码确定软中断（译者注：软中断信号）正在等待时，它开始处理并执行 net_rx_action，网络数据处理就开始了。

让我们来看看 net_rx_action 处理循环的部分内容，以了解它是如何工作的，哪些部分是可调的，以及可以监控什么。

`net_rx_action` 处理循环

net_rx_action 开始从设备通过 DMA 传输数据包到内存中的数据包进行处理。

该函数遍历当前 CPU 队列中的 NAPI 结构列表，对每个结构执行出队操作，并对其进行操作。

处理循环限制了注册的 NAPI poll 函数所能消耗的工作量和执行时间。它通过两种方式实现这一点：

跟踪工作 budget（可以调整），以及
检查运行时间

来自 net/core/dev.c：

while (!list_empty(&sd->poll_list)) {  struct napi_struct *n;  int work, weight;  /* If softirq window is exhausted then punt.   * Allow this to run for 2 jiffies since which will allow   * an average latency of 1.5/HZ.   */  if (unlikely(budget <= 0 || time_after_eq(jiffies, time_limit)))    goto softnet_break;

这就是内核如何防止数据包处理占用整个 CPU 的方法。上面提到的 budget 是在这个 CPU 上注册的所有可用 NAPI 结构花费的总预算。

这也是多队列网卡应该仔细调整 IRQ 亲和性的另一个原因。回想一下，处理设备的 IRQ 的 CPU 将是执行软中断处理程序的 CPU，因此也将是上述循环和预算计算运行的 CPU。

具有多个网卡，每个网卡都有多个队列的系统可能会出现多个 NAPI 结构注册到同一个 CPU 的情况。同一 CPU 上所有 NAPI 结构的数据处理都从同一个 budget 中扣减。

如果您没有足够的 CPU 来分布您的网卡的 IRQ，您可以考虑增加 net_rx_action 的 budget，以允许每个 CPU 处理更多的数据包。增加预算将增加 CPU 使用率（具体来说是 sitime 或 top 或其他程序中的 si），但减少延迟，因为数据处理更及时。

注意： 无论如何分配预算，CPU 仍然受到 2 个 jiffies 的时间限制。

NAPI `poll` 函数和 `权重`

回想一下，网络设备驱动程序使用 netif_napi_add 来注册 poll 函数。正如我们在本文前面看到的那样，igb 驱动程序有一段类似这样的代码：

/* initialize NAPI */netif_napi_add(adapter->netdev, &q_vector->napi, igb_poll, 64);

这行代码注册了具有硬编码权重 64 的 NAPI 结构。现在我们将看到如何在 net_rx_action 处理循环中使用它。

来自 net/core/dev.c：

weight = n->weight;work = 0;if (test_bit(NAPI_STATE_SCHED, &n->state)) {        work = n->poll(n, weight);        trace_napi_poll(n);}WARN_ON_ONCE(work > weight);budget -= work;

这段代码获取了注册到 NAPI 结构的权重（上面驱动程序代码中的 64）并传递其给也注册到 NAPI 结构的 poll 函数（上面代码中的 igb_poll）。

poll 函数返回处理的数据帧数。这个数量被保存为上面的 work，然后从总 budget 中扣减。

因此，假设：

您使用来自驱动程序的权重 64（在 Linux 3.13.0 中，所有驱动程序都使用这个值硬编码），并且
您设置 budget 为默认值 300

当满足以下任一条件时，您的系统将停止处理数据：

最多调用了 5 次 igb_poll 函数（如果没有数据要处理，我们接下来会看到次数更少），或者
至少经过了 2 个 jiffies 的时间。

NAPI / 网络设备驱动程序契约

关于 NAPI 子系统和设备驱动程序之间的契约，有一个重要的信息尚未提及，那就是关闭 NAPI 的要求。

这部分契约如下：

如果驱动程序的 poll 函数消耗了其全部权重（硬编码为 64），则它不得修改 NAPI 状态。net_rx_action 循环将接管。
如果驱动程序的 poll 函数未消耗其全部权重，则必须禁用 NAPI。下次收到 IRQ 并且驱动程序的 IRQ 处理程序调用 napi_schedule 时，NAPI 将重新启用。

我们现在将看到 net_rx_action 如何处理该契约的第一部分。接下来，我们检查 poll 函数，我们将看到如何处理该契约的第二部分。

完成 `net_rx_action` 循环

net_rx_action 处理循环以最后一段代码结束，该代码处理前一节中解释的 NAPI 合约的第一部分。来自 net/core/dev.c：

/* Drivers must not modify the NAPI state if they * consume the entire weight.  In such cases this code * still "owns" the NAPI instance and therefore can * move the instance around on the list at-will. */if (unlikely(work == weight)) {  if (unlikely(napi_disable_pending(n))) {    local_irq_enable();    napi_complete(n);    local_irq_disable();  } else {    if (n->gro_list) {      /* flush too old packets       * If HZ < 1000, flush all packets.       */      local_irq_enable();      napi_gro_flush(n, HZ >= 1000);      local_irq_disable();    }    list_move_tail(&n->poll_list, &sd->poll_list);  }}

如果整个工作都被消耗了，net_rx_action 会处理两种情况：

网络设备应该关闭（例如，因为用户运行了 ifconfig eth0 down），
如果设备未关闭，请检查是否存在 generic receive offload（GRO）清单。如果定时器滴答速率〉= 1000，则最近刷新更新的所有 GRO 网络流。稍后我们将详细讨论GRO。移动 NAPI 结构到该 CPU 的列表末尾，以便循环的下一次迭代获得注册的下一个 NAPI 结构。

这就是包处理循环调用驱动程序的注册 poll 函数处理包的方式。我们很快就会看到，poll 函数将收集网络数据，并发送其到栈上进行处理。

达到限制时退出循环

当以下任一条件满足时，net_rx_action 循环将退出：

此 CPU 注册的轮询列表中没有更多的 NAPI 结构 (!list_empty(&sd->poll_list))，或
剩余预算 <= 0，或
已达到 2 个 jiffies 的时间限制

这是我们之前看到的代码：

/* If softirq window is exhausted then punt. * Allow this to run for 2 jiffies since which will allow * an average latency of 1.5/HZ. */if (unlikely(budget <= 0 || time_after_eq(jiffies, time_limit)))  goto softnet_break;

如果跟随 softnet_break 标签，你会偶然发现一些有趣的东西。来自 net/core/dev.c：

softnet_break:  sd->time_squeeze++;  __raise_softirq_irqoff(NET_RX_SOFTIRQ);  goto out;

struct softnet_data 结构会增加一些统计数据，然后关闭 softirq NET_RX_SOFTIRQ。time_squeeze 字段是衡量 net_rx_action 有更多工作要做，但预算耗尽或时间限制到达之前无法完成的次数。这是一个极其有用的计数器，理解网络处理中的瓶颈。我们稍后将看到如何监控这个值。禁用 NET_RX_SOFTIRQ 以释放处理时间给其他任务。这是有道理的，因为这段小代码只在有更多工作可以完成时执行，但我们不希望垄断 CPU。

然后执行转移到 out 标签。如果没有更多的 NAPI 结构要处理，执行也可以到达 out 标签，换句话说，预算比网络活动多，所有驱动程序都关闭了 NAPI，而且 net_rx_action 没有剩下任何事情要做。

在从 net_rx_action 返回之前，out 部分做了一件重要的事情：它调用了 net_rps_action_and_irq_enable。如果启用了 Receive Packet Steering，此函数具有重要作用；它唤醒远程 CPU 开始处理网络数据。

我们稍后将了解更多关于 RPS 的工作原理。现在，让我们看看如何监控 net_rx_action 处理循环的健康状况，并继续深入了解 NAPI poll 函数的内部工作原理，以便我们能够沿着网络栈向上。

NAPI poll

在前面的章节中，我们提到设备驱动程序会为设备分配一块内存区域，用于对传入数据包进行 DMA。正如驱动程序负责分配这些区域一样，它也负责取消映射这些区域，收集数据并发送其到网络栈。

让我们看看 igb 驱动程序是如何做到这一点的，以便了解这在实践中是如何运作的。

`igb_poll`

最后，我们终于可以探讨我们的朋友 igb_poll。 igb_poll 看起来很简单。我们来看看。来自 drivers/net/ethernet/intel/igb/igb_main.c：

/** *  igb_poll - NAPI Rx polling callback *  @napi: napi polling structure *  @budget: count of how many packets we should handle **/static int igb_poll(struct napi_struct *napi, int budget){        struct igb_q_vector *q_vector = container_of(napi,                                                     struct igb_q_vector,                                                     napi);        bool clean_complete = true;#ifdef CONFIG_IGB_DCA        if (q_vector->adapter->flags & IGB_FLAG_DCA_ENABLED)                igb_update_dca(q_vector);#endif        /* ... */        if (q_vector->rx.ring)                clean_complete &= igb_clean_rx_irq(q_vector, budget);        /* If all work not completed, return budget and keep polling */        if (!clean_complete)                return budget;        /* If not enough Rx work done, exit the polling mode */        napi_complete(napi);        igb_ring_irq_enable(q_vector);        return 0;}

这段代码做了一些有趣的事情：

如果内核中启用了直接缓存访问 (DCA) 支持，则会预热 CPU 缓存，以便对接收环的访问能够命中 CPU 缓存。您可以在本博客文章末尾的额外部分中了解更多关于 DCA 的信息。
接下来，调用 igb_clean_rx_irq 进行繁重的工作，我们接下来会看到。
然后，检查 clean_complete 以确定是否还有更多的工作可以完成。如果是这样，返回 budget（记住，这是硬编码为 64 的）。正如我们前面看到的，net_rx_action 会移动此 NAPI 结构到轮询列表的末尾。
否则，驱动程序调用 napi_complete 关闭 NAPI，并调用 igb_ring_irq_enable 重新启用中断。下一个到达的中断将重新启用 NAPI。

让我们看看 igb_clean_rx_irq 如何发送网络数据到栈。

`igb_clean_rx_irq`

igb_clean_rx_irq 函数是一个循环，每次处理一个数据包，直到用尽 budget 或没有更多数据需要处理为止。

这个函数中的循环做了一些重要的事情：

在清理使用过的缓冲区时，为接收数据分配额外的缓冲区。每次添加 IGB_RX_BUFFER_WRITE（16）个额外的缓冲区。
从接收队列中获取一个缓冲区并存储在 skb 结构中。
检查缓冲区是否为“数据包结束”缓冲区。如果是，则继续处理。否则，继续从接收队列中获取额外的缓冲区，并添加到 skb 中。如果接收到的数据帧大于缓冲区大小，则需要这样做。
验证数据的布局和头部是否正确。
已处理字节数统计计数器增加 skb->len。
设置 skb 的哈希、校验和、时间戳、VLAN id 和协议字段。哈希、校验和、时间戳和 VLAN id 由硬件提供。如果硬件发出校验和错误信号，则增加 csum_error 统计量。如果校验和成功且数据为 UDP 或 TCP 数据，则标记 skb 为 CHECKSUM_UNNECESSARY。如果校验和失败，则协议栈负责处理此数据包。协议调用 eth_type_trans 计算并存储在 skb 结构中。
调用 napi_gro_receive 传递构建的 skb 到网络栈。
增加已处理数据包数量统计计数器。
循环继续，直到处理的数据包数量达到预算。

循环结束后，函数为接收数据包和已处理字节数分配统计计数器。

在继续上行网络栈之前，现在是时候先兵分两路了。首先，让我们看看如何监控和调整网络子系统的 softirqs。接下来，让我们谈谈通用接收卸载 (GRO)。之后，当我们进入 napi_gro_receive 时，网络栈的其余部分将更有意义。

监控网数据处理

`/proc/net/softnet_stat`

如前一节所述，在退出 net_rx_action 循环并且可以完成更多工作，但 softirq 的 budget 或时间限制被触发时，net_rx_action 会增加一个统计量。这个统计量作为与 CPU 关联的 struct softnet_data 的一部分进行跟踪。

这些统计数据输出到 proc 中的一个文件：/proc/net/softnet_stat，不幸的是，关于这个文件的文档非常少。proc 文件中的字段没有标记，并且可能在内核版本之间发生变化。

在 Linux 3.13.0 中，您可以阅读内核源代码来查找哪些值映射到 /proc/net/softnet_stat 中的哪个字段。从 net/core/net-procfs.c：

seq_printf(seq,     "%08x %08x %08x %08x %08x %08x %08x %08x %08x %08x %08x\n",     sd->processed, sd->dropped, sd->time_squeeze, 0,     0, 0, 0, 0, /* was fastroute */     sd->cpu_collision, sd->received_rps, flow_limit_count);

这些统计数据中包含许多令人困惑的名称，并且在您可能未预期的地方增加。在探讨网络栈时，将提供每个统计数据何时以及在哪里增加的解释。由于在 net_rx_action 中看到了 squeeze_time 统计量，我认为现在记录这个文件是有意义的。

读取 /proc/net/softnet_stat 监控网络数据处理统计信息。

$ cat /proc/net/softnet_stat6dcad223 00000000 00000001 00000000 00000000 00000000 00000000 00000000 00000000 000000006f0e1565 00000000 00000002 00000000 00000000 00000000 00000000 00000000 00000000 00000000660774ec 00000000 00000003 00000000 00000000 00000000 00000000 00000000 00000000 0000000061c99331 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 000000006794b1b3 00000000 00000005 00000000 00000000 00000000 00000000 00000000 00000000 000000006488cb92 00000000 00000001 00000000 00000000 00000000 00000000 00000000 00000000 00000000

关于 /proc/net/softnet_stat 的重要细节：

每一行 /proc/net/softnet_stat 对应一个 struct softnet_data 结构，每个 CPU 都有一个。
值之间用一个空格分隔，并以十六进制显示
第一个值，sd->processed，是处理的网络帧数。如果您使用以太网绑定，这可能会超过接收到的网络帧总数。有些情况下，以太网绑定驱动程序会触发网络数据重新处理，同一数据包将使 sd->processed 计数增加不止一次。
第二个值，sd->dropped，是因处理队列没有空间而丢弃的网络帧数。稍后再谈。
第三个值，sd->time_squeeze，（如我们所见）是 net_rx_action 循环因消耗预算或达到时间限制而终止的次数，但仍然可以完成更多工作。如前所述，增加 budget 可以帮助减少这种情况。
接下来的 5 个值始终为 0。
第九个值，sd->cpu_collision，是在发送数据包尝试获取设备锁时发生冲突的次数。本文讨论的是接收，因此下面不会看到这个统计量。
第十个值，sd->received_rps，是唤醒此 CPU 通过处理器间中断处理数据包的次数。
最后一个值，flow_limit_count，是达到流量限制的次数。流量限制是可选的 Receive Packet Steering 功能，稍后会探讨到该特性。

如果您决定监控此文件并绘制结果图表，则必须非常小心这些字段的顺序是否发生了变化，并且每个字段的含义是否得到了保留。您需要阅读内核源代码来验证这一点。

调整网络数据处理

调整 `net_rx_action` 预算

您可以调整 net_rx_action 预算，设置名为 net.core.netdev_budget 的 sysctl 值来确定注册到 CPU 的所有 NAPI 结构数据包处理可以消耗多少。

示例：设置总体数据包处理预算为 600。

$ sudo sysctl -w net.core.netdev_budget=600

您可能还希望写入此设置到 /etc/sysctl.conf 文件，以便在重启前后保持更改。

Linux 3.13.0上的默认值是 300。

Generic Receive Offloading (GRO)

Generic Receive Offloading (GRO) 是 Large Receive Offloading (LRO) 硬件优化的软件实现。

这两种方法的主要思想是，将“足够相似”的数据包组合在一起，减少传递到网络栈的数据包数量，从而减少 CPU 使用率。例如，想象一种情况，正在进行大文件传输，大多数数据包都包含文件中的数据块。与其一次发送一个小数据包到栈，不如将传入的数据包组合成一个具有巨大有效负载的数据包。然后传递该数据包到栈。这样可以让协议层处理单个数据包的头部，同时传递更大的数据块给用户程序。

当然，这种优化的问题是信息丢失。如果一个数据包设置了某些重要选项或标志，则如果该数据包与另一个数据包合并，则该选项或标志可能会丢失。这正是为什么大多数人不使用或鼓励使用 LRO 的原因。一般来说，对于合并数据包，LRO 实现的规则非常宽松。

GRO 作为 LRO 的软件实现被引入，但对于哪些数据包可以合并有更严格的规则。

顺便说一句：如果您曾经使用过 tcpdump 并看到过不切实际的大型传入数据包大小，那么很可能是因为您的系统启用了 GRO。正如您很快就会看到的那样，在 GRO 已经发生之后，数据包抓取被插入栈中。

调优：使用 `ethtool` 调整 GRO 设置

您可以使用 ethtool 检查是否启用了 GRO，也可以调整设置。

使用 ethtool -k 检查您的 GRO 设置。

$ ethtool -k eth0 | grep generic-receive-offloadgeneric-receive-offload: on

如您所见，在这个系统上，我设置 generic-receive-offload 为启用。

使用 ethtool -K 启用（或禁用）GRO。

$ sudo ethtool -K eth0 gro on

注意： 对于大多数驱动程序来说，进行这些更改将使接口关闭，然后再将其重新打开；到该接口的连接将被中断。不过，这对于一次性的改变来说可能并不重要。

`napi_gro_receive`

函数 napi_gro_receive 处理 GRO 的网络数据（如果系统启用了GRO），并向上发送数据到协议层。这个逻辑的大部分是在一个名为 dev_gro_receive 的函数中。

`dev_gro_receive`

这个函数首先检查是否启用了 GRO，如果是，则准备进行 GRO。在启用 GRO 的情况下，遍历 GRO 卸载过滤器列表，以便高层协议栈对正在考虑进行 GRO 的数据进行操作。这样做是为了使得协议层让网络设备层知道此数据包是否属于当前正在接收卸载的网络流，并处理应该为 GRO 发生的任何协议相关内容。例如，TCP 协议需要决定是否/何时对正在合并到现有数据包中的数据包进行 ACK。

下面是来自 net/core/dev.c 的代码，它执行此操作：

list_for_each_entry_rcu(ptype, head, list) {  if (ptype->type != type || !ptype->callbacks.gro_receive)    continue;  skb_set_network_header(skb, skb_gro_offset(skb));  skb_reset_mac_len(skb);  NAPI_GRO_CB(skb)->same_flow = 0;  NAPI_GRO_CB(skb)->flush = 0;  NAPI_GRO_CB(skb)->free = 0;  pp = ptype->callbacks.gro_receive(&napi->gro_list, skb);  break;}

如果协议层指示是时候刷新 GRO 的数据包，则接下来进行处理。这是调用napi_gro_complete 来实现的，它调用协议层的 gro_complete 回调，然后调用 netif_receive_skb 向上传递数据包到网络栈。

下面是 net/core/dev.c 中的代码，它可以做到这一点：

if (pp) {  struct sk_buff *nskb = *pp;  *pp = nskb->next;  nskb->next = NULL;  napi_gro_complete(nskb);  napi->gro_count--;}

接下来，如果协议层合并此数据包到现有流中，napi_gro_receive 将简单地返回，因为没有其他事情要做。

如果数据包未合并，并且系统上的 GRO 流少于MAX_GRO_SKBS（8），则会向该CPU的NAPI结构上的 gro_list 添加一个新条目。

下面是 net/core/dev.c 中的代码，它可以做到这一点：

if (NAPI_GRO_CB(skb)->flush || napi->gro_count >= MAX_GRO_SKBS)  goto normal;napi->gro_count++;NAPI_GRO_CB(skb)->count = 1;NAPI_GRO_CB(skb)->age = jiffies;skb_shinfo(skb)->gso_size = skb_gro_len(skb);skb->next = napi->gro_list;napi->gro_list = skb;ret = GRO_HELD;

这就是 Linux 网络栈中 GRO 系统的工作方式。

`napi_skb_finish`

一旦 dev_gro_receive 执行完毕，就会调用 napi_skb_finish，它要么释放不需要的数据结构（因为数据包已经被合并），要么调用 netif_receive_skb 向上传递数据到网络栈（因为已经有 MAX_GRO_SKBS 流被 GRO）。

接下来，是时候让 netif_receive_skb 看看数据是如何传递到协议层的了。在对此进行探讨之前，我们首先需要了解一下 Receive Packet Steering (RPS)。

Receive Packet Steering (RPS)

回想一下我们之前讨论的网络设备驱动程序注册 NAPI poll 函数的过程。每个 NAPI 轮询器实例在软中断的上下文中执行，每个 CPU 有一个软中断。进一步回想一下，驱动程序的 IRQ 处理程序运行的 CPU 将唤醒其 softirq 处理循环来处理数据包。

换句话说：单个 CPU 处理硬件中断并轮询数据包以处理输入数据。

某些 NIC（如Intel I350）在硬件级别支持多个队列。这意味着传入的数据包可以被 DMA 到每个队列的单独的内存区域，并且还具有单独的 NAPI 结构来管理轮询该区域。因此，多个 CPU 将处理来自设备的中断，并且还处理数据包。

该特征通常被称为 Receive Side Scaling (RSS)。

Receive Packet Steering (RPS) 是 RSS 的软件实现。由于它是在软件中实现的，这意味着它可以为任何 NIC 启用，即使是只有单个接收队列的 NIC。然而，由于它是在软件中，这意味着 RPS 只能在已经从 DMA 存储器区域收取数据包之后进入流。

这意味着您不会注意到处理 IRQ 或 NAPI poll 循环所花费的 CPU 时间减少，但您可以在收集数据包后分布处理数据包的负载，并减少网络栈上的 CPU 时间。

RPS 的工作原理是为传入数据生成一个散列，以确定哪个 CPU 应该处理数据。然后排队数据到每 CPU 接收网络积压中以进行处理。处理器间中断（IPI）被传送到拥有积压的 CPU。如果当前没有处理积压工作中的数据，这有助于启动积压工作处理。 /proc/net/softnet_stat 包含每个 softnet_data 结构体接收 IPI（received_rps字段）的次数计数。

因此，netif_receive_skb 将继续向网络栈发送网络数据，或者将其移交给 RPS 以在不同的 CPU 上进行处理。

调优：启用 RPS

要使 RPS 工作，必须在内核配置中启用它（Ubuntu 内核 3.13.0 是启用的），并使用位掩码描述哪些 CPU 应该处理给定接口和接收队列的数据包。

您可以在内核文档中找到有关这些位掩码的一些文档。

简而言之，要修改的位掩码位于：

/sys/class/net/DEVICE_NAME/queues/QUEUE/rps_cpus

因此，对于 eth0 和接收队列 0，你将修改 /sys/class/net/eth0/queues/rx-0/rps_cpus 文件，其中十六进制数指示哪些 CPU 应处理来自 eth0 的接收队列 0 的数据包。正如文档指出的，在某些配置中可能不需要 RPS。

注：启用 RPS 将数据包处理分配给以前未处理数据包的 CPU，将导致该 CPU 的 NET_RX 软中断数增加，以及 CPU 使用率图中的 si 或 sitime 增加。您可以比较软中断和 CPU 使用率图表的前后对比，以确认 RPS 配置是否符合您的喜好。

Receive Flow Steering (RFS)

Receive flow steering (RFS) 与 RPS 配合使用。 RPS 尝试在多个 CPU 之间分配传入数据包负载，但不考虑任何数据局部性问题以最大化 CPU 缓存命中率。您可以使用 RFS 定向同一个流的数据包到同一个 CPU 进行处理，从而帮助提高缓存命中率。

调优：启用 RFS

要使 RFS 工作，您必须启用并配置 RPS。

RFS 跟踪所有流的全局哈希表，并且可以设置 net.core.rps_sock_flow_entries sysctl 来调整该哈希表的大小。

设置 sysctl 增加 RFS 套接字流哈希的大小。

$ sudo sysctl -w net.core.rps_sock_flow_entries=32768

接下来，您还可以设置每个接收队列的流数，方法是写入此值每个接收队列的名为rps_flow_cnt 的 sysfs 文件。

示例：增加 eth0 上接收队列 0 的流数到 2048。

$ sudo bash -c 'echo 2048 > /sys/class/net/eth0/queues/rx-0/rps_flow_cnt'

硬件加速 Receive Flow Steering (aRFS)

RFS 可以使用硬件加速来加速；NIC 和内核可以一起工作以确定哪些流应该在哪些 CPU 上被处理。要使用此功能，NIC 和驱动程序必须支持此功能。

请参阅您的网卡数据手册以确定是否支持此功能。如果您的 NIC 驱动程序公开了一个名为 ndo_rx_flow_steer 的函数，则该驱动程序支持加速 RFS。

调优：启用加速 RFS（aRFS）

假设您的 NIC 和驱动程序支持它，您可以启用和配置一组内容来启用加速 RFS：

启用并配置 RPS。
启用并配置 RFS。
x在编译内核时启用 CONFIG_RFS_ACCEL。 Ubuntu kernel 3.13.0 启用
如前所述，为设备启用 ntuple 支持。您可以使用 ethtool 来验证是否为设备启用了ntuple 支持。
配置 IRQ 设置以确保每个接收队列由所需的网络处理 CPU 之一处理。

一旦配置了上述内容，加速 RFS 自动移动数据到与处理该流数据的CPU核心绑定的接收队列，并且您不需要为每个流手动指定 ntuple 过滤规则。

使用 `netif_receive_skb` 向上移动网络栈。

接着我们上次讲到的 netif_receive_skb，它从几个地方调用。最常见的两个（也是我们已经看过的两个）：

如果数据包不会合并到现有的 GRO 流中，则为 napi_skb_finish，或者
如果协议层指示现在是刷新流的时候，则为 napi_gro_complete，或者

提醒： netif_receive_skb 及其后代在 softirq 处理循环的上下文中运行，使用像 top 这样的工具，您将看到这里花费的时间计入 sitime 或 si。

netif_receive_skb 首先检查一个 sysctl 值，以确定用户是否在数据包进入积压队列之前或之后请求接收时间戳。如果启用了此设置，则在数据进入 RPS（和 CPU 的关联积压队列）之前对数据进行时间戳。如果禁用了此设置，则在进入队列后进行时间戳。如果启用了 RPS，则可以使用此功能在多个 CPU 之间分配时间戳的负载，但会因此引入一些延迟。

调优：接收数据包时间戳

您可以调整一个名为 net.core.netdev_tstamp_prequeue 的 sysctl 来调优接收到数据包后的时间戳：

调整 sysctl 禁用接收数据包的时间戳

$ sudo sysctl -w net.core.netdev_tstamp_prequeue=0

默认值为 1。请参阅上一节的解释，以了解此设置的确切含义。

`netif_receive_skb`

处理完时间戳后，netif_receive_skb 的操作方式会因 RPS 是否启用而不同。让我们先从更简单的路径开始：RPS 已禁用。

RPS 禁用（默认设置）

如果未启用 RPS，则调用 __netif_receive_skb，它执行一些簿记工作，然后调用 __netif_receive_skb_core 移动数据到协议栈附近。

我们将看到 __netif_receive_skb_core 的工作原理，但首先让我们看看启用 RPS 的代码路径如何工作，因为该代码也将调用 __netif_receive_skb_core。

RPS 启用

如果启用了 RPS，在处理上述提到的时间戳选项之后，netif_receive_skb 将执行一些计算，以确定应使用哪个 CPU 的积压队列。这是使用 get_rps_cpu 函数完成的。来自 net/core/dev.c：

cpu = get_rps_cpu(skb->dev, skb, &rflow);if (cpu >= 0) {  ret = enqueue_to_backlog(skb, cpu, &rflow->last_qtail);  rcu_read_unlock();  return ret;}

get_rps_cpu 将考虑上述 RFS 和 aRFS 设置，以确保调用 enqueue_to_backlog 排队数据到所需的 CPU 的 backlog。

`enqueue_to_backlog`

此函数首先获取指向远程 CPU 的 softnet_data 结构指针，该结构包含指向input_pkt_queue 的指针。接下来，检查远程 CPU 的 input_pkt_queue。来自 net/core/dev.c：

qlen = skb_queue_len(&sd->input_pkt_queue);if (qlen <= netdev_max_backlog && !skb_flow_limit(skb, qlen)) {

首先比较 input_pkt_queue 的长度与 netdev_max_backlog 。如果队列长度大于此值，则丢弃数据。同样，检查流量限制，如果超过了流量限制，则丢弃数据。在这两种情况下，都会增加 softnet_data 结构的丢弃计数。请注意，这是数据将要排队到的 CPU 的 softnet_data 结构。阅读上面关于 /proc/net/softnet_stat 的部分，基于监控的目的了解如何获取丢弃计数。

enqueue_to_backlog 在很少地方调用。它用于已启用 RPS 的数据包处理，也从 netif_rx 调用。大多数驱动程序都不应使用 netif_rx，而应使用 netif_receive_skb。如果您没有使用 RPS 并且您的驱动程序没有使用 netif_rx，则增加积压不会对您的系统产生任何明显影响，因为它不会被使用。

注意：您需要检查正在使用的驱动程序。如果它调用了 netif_receive_skb 并且您没有使用 RPS，则增加 netdev_max_backlog 将不会产生任何性能改进，因为没有任何数据会进入 input_pkt_queue。

假设 input_pkt_queue 足够小且未达到流量限制（接下来会详细介绍），则可以排队数据。这里的逻辑有点奇怪，但可以总结为：

如果队列为空：检查远程 CPU 上是否已启动 NAPI。如果没有，则检查是否已排队发送 IPI。如果没有，则排队一个并调用 ____napi_schedule 启动 NAPI 处理循环。继续排队数据。
如果队列不为空，或者前面描述的操作已完成，则将数据入队。

这段代码使用了 goto，所以要仔细阅读。来自 net/core/dev.c：

  if (skb_queue_len(&sd->input_pkt_queue)) {enqueue:         __skb_queue_tail(&sd->input_pkt_queue, skb);         input_queue_tail_incr_save(sd, qtail);         rps_unlock(sd);         local_irq_restore(flags);         return NET_RX_SUCCESS; } /* Schedule NAPI for backlog device  * We can use non atomic operation since we own the queue lock  */ if (!__test_and_set_bit(NAPI_STATE_SCHED, &sd->backlog.state)) {         if (!rps_ipi_queued(sd))                 ____napi_schedule(sd, &sd->backlog); } goto enqueue;

流量限制

RPS 可以在多个 CPU 之间分配数据包处理负载，但是单个大流量可能会垄断 CPU 处理时间并使较小的流量饥饿。流量限制是一种功能，限制每个流量排队到积压的数据包数量为一定数量。这有助于确保即使大流量推送数据包，也能处理较小的流量。

上面来自 net/core/dev.c 的 if 语句调用 skb_flow_limit 检查流量限制：

if (qlen <= netdev_max_backlog && !skb_flow_limit(skb, qlen)) {

这段代码检查队列中是否还有空间，以及是否尚未达到流量限制。默认情况下，禁用流量限制。要启用流量限制，必须指定位图（类似于 RPS 的位图）。

监控：监控 `input_pkt_queue` 已满或流量限制导致的丢弃

请参阅上面有关监视/proc/net/softnet_stat。 dropped字段是一个计数器，每次数据被丢弃而不是排队到CPU的 input_pkt_queue 时，它都会递增。

调优

调优：调优 `netdev_max_backlog` 防止丢弃

在调整此调优值之前，请参阅上一节中的注释。

如果使用 RPS 或驱动程序调用 netif_rx，则可以增加 netdev_max_backlog 来帮助防止 enqueue_to_backlog 的丢弃。

示例：使用 sysctl 增加 backlog 到 3000。

$ sudo sysctl -w net.core.netdev_max_backlog=3000

默认值为 1000。

调优：调优 backlog 的 NAPI `poll` 权重

您可以设置 net.core.dev_weight sysctl 来调整积压的 NAPI 轮询器的权重。调整此值可以确定积压 poll 循环可以消耗的总预算的多少（请参阅上面调整 net.core.netdev_budget 的部分）：

示例：使用 sysctl 增加 NAPI poll 积压处理循环。

$ sudo sysctl -w net.core.dev_weight=600

默认值为 64。

记住，backlog 处理运行在 softirq 上下文，类似于设备驱动程序注册的 poll 函数，并且将受到总 budget 和时间的限制，如前几节所述。

调优：启用流量限制并调优流量限制哈希表大小

使用 sysctl 设置流量限制表的大小。

$ sudo sysctl -w net.core.flow_limit_table_len=8192

默认值为 4096。

此更改仅影响新分配的流哈希表。因此，如果您想增加表的大小，应该在启用流量限制之前进行。

要启用流量限制，您应该在 /proc/sys/net/core/flow_limit_cpu_bitmap 中指定一个位掩码，该位掩码类似于 RPS 位掩码，指示哪些 CPU 启用了流量限制。

backlog 队列 NAPI 轮询器

每个 CPU 的 backlog 队列插入 NAPI 的方式与设备驱动程序相同。提供了一个 poll 函数，从 softirq 上下文处理数据包。就像设备驱动程序一样，还提供了一个 weight。

这个 NAPI 结构在初始化网络系统时提供。来自 net/core/dev.c 中的 net_dev_init：

sd->backlog.poll = process_backlog;sd->backlog.weight = weight_p;sd->backlog.gro_list = NULL;sd->backlog.gro_count = 0;

backlog NAPI 结构与设备驱动程序 NAPI 结构的不同之处在于 weight 参数是可调整的，其中驱动程序编码其 NAPI 权重硬为 64。我们将在下面的调优部分看到如何使用 sysctl 调整权重。

`process_backlog`

process_backlog 函数是一个循环，直到其权重（如前一节所述）被消耗完或 backlog 中没有更多数据为止。

backlog 队列中的每个数据都从 backlog 队列中移除，并传递给 __netif_receive_skb。一旦数据进入 __netif_receive_skb，代码路径与上面解释的 RPS 禁用情况相同。也就是说，在调用 __netif_receive_skb_core 传递网络数据到协议层之前，__netif_receive_skb 会进行一些簿记工作。

process_backlog 遵循与设备驱动程序相同的 NAPI 契约，即：如果不使用总权重，则禁用 NAPI。通过上面描述的 enqueue_to_backlog 中对 ____napi_schedule 的调用，轮询器重新启动。

该函数返回完成的工作量，net_rx_action（上面描述）将从预算中扣减该工作量（使用上面描述的 net.core.netdev_budget 进行调整）。

`__netif_receive_skb_core` 传送数据到数据包抓取和协议层

__netif_receive_skb_core 执行传递数据到协议栈的繁重工作。在此之前，它检查是否安装了捕获传入数据包的数据包抓取。 AF_PACKET 地址族就是一个这样的例子，它通常通过 libpcap库使用。

如果存在这样的抓取，则首先传送数据到那里，然后传送到下一个协议层。

数据包抓取传送

如果安装了一个数据包抓取（通常通过 libpcap），数据包将通过来自 net/core/dev.c 的代码发送到那里：

list_for_each_entry_rcu(ptype, &ptype_all, list) {  if (!ptype->dev || ptype->dev == skb->dev) {    if (pt_prev)      ret = deliver_skb(skb, pt_prev, orig_dev);    pt_prev = ptype;  }}

如果你对数据如何通过 pcap 的路径感到好奇，请阅读 net/packet/af_packet.c。

协议层交付

一旦满足抓取，__netif_receive_skb_core 发送数据到协议层。它从数据中获取协议字段并遍历为该协议类型注册的传递函数列表来实现这一点。

这可以在 net/core/dev.c 中的 __netif_receive_skb_core 中看到：

type = skb->protocol;list_for_each_entry_rcu(ptype,                &ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {        if (ptype->type == type &&            (ptype->dev == null_or_dev || ptype->dev == skb->dev ||             ptype->dev == orig_dev)) {                if (pt_prev)                        ret = deliver_skb(skb, pt_prev, orig_dev);                pt_prev = ptype;        }}

上面的 ptype_base 标识符被定义为 net/core/dev.c 中链表组成的散列表：

struct list_head ptype_base[PTYPE_HASH_SIZE] __read_mostly;

每个协议层在哈希表中的给定槽处向链表添加过滤器，使用称为 ptype_head 的辅助函数计算：

static inline struct list_head *ptype_head(const struct packet_type *pt){        if (pt->type == htons(ETH_P_ALL))                return &ptype_all;        else                return &ptype_base[ntohs(pt->type) & PTYPE_HASH_MASK];}

调用 dev_add_pack 向链表中添加筛选器。这就是协议层如何为它们的协议类型的网络数据传送，注册它们自己的。

现在您知道了网络数据是如何从 NIC 传输到协议层的。

协议层注册

现在我们知道了数据是如何从网络设备子系统传递到协议栈的，让我们看看协议层是如何注册自己的。

本文将探讨 IP 协议栈，因为它是一种常用的协议，并且与大多数读者相关。

IP 协议层

IP 协议层将自身插入 ptype_base 哈希表，以便从前面部分描述的网络设备层传递数据到它。

这发生在 net/ipv4/af_inet.c 的 inet_init 函数中：

dev_add_pack(&ip_packet_type);

这将注册在 net/ipv4/af_inet.c 中定义的 IP 数据包类型结构：

static struct packet_type ip_packet_type __read_mostly = {        .type = cpu_to_be16(ETH_P_IP),        .func = ip_rcv,};

__netif_receive_skb_core 调用 deliver_skb（如上一节所示），deliver_skb 调用func（在本例中为 ip_rcv）。

`ip_rcv`

从高层次来看，ip_rcv 函数非常简单。有几个完整性检查以确保数据有效。统计计数器也会增加。

ip_rcv 通过 netfilter 传递数据包给 ip_rcv_finish 结束。这样做是为了让任何应该在 IP 协议层匹配的 iptables 规则在数据包继续之前查看数据包。

我们可以在 net/ipv4/ip_input.c 中的 ip_rcv 结尾处看到将数据交给 netfilter 的代码：

return NF_HOOK(NFPROTO_IPV4, NF_INET_PRE_ROUTING, skb, dev, NULL, ip_rcv_finish);

netfilter 和 iptables

为了简洁（和我的 RSI），我决定跳过对 netfilter、iptables 和 conntrack 的深入研究。

简而言之，NF_HOOK_THRESH 会检查是否安装了过滤器，并尝试返回执行到 IP 协议层，以避免深入到 netfilter 和 iptables 和 conntrack 等下面的任何钩子。

请记住：如果您有许多或非常复杂的 netfilter 或 iptables 规则，那么这些规则将在 softirq 上下文中执行，并可能产生网络堆栈中的延迟。不过，如果您需要安装特定的规则集，这可能是不可避免的。

`ip_rcv_finish`

一旦 net filter 有机会查看数据并决定如何处理它，就会调用 ip_rcv_finish。当然，只有当数据没有被 netfilter 丢弃时才会发生这种情况。

ip_rcv_finish 以一个优化开始。为了传递数据包到适当的位置，来自路由系统的dst_entry 需要到位。为了获得一个 dst_entry，代码最初尝试从该数据的目的地的更高级别协议调用 early_demux 函数。

early_demux 流程是一种优化，它试图检查 dst_entry 是否缓存在套接字结构上，来找到传递数据包所需的 dst_entry。

下面是 net/ipv4/ip_input.c 中的内容：

if (sysctl_ip_early_demux && !skb_dst(skb) && skb->sk == NULL) {  const struct net_protocol *ipprot;  int protocol = iph->protocol;  ipprot = rcu_dereference(inet_protos[protocol]);  if (ipprot && ipprot->early_demux) {    ipprot->early_demux(skb);    /* must reload iph, skb->head might have changed */    iph = ip_hdr(skb);  }}

如您所见，上述代码受到 sysctl_ip_early_demux 的保护。默认情况下，early_demux 是启用的。下一节将介绍如何禁用它以及为什么要禁用它。

如果启用了优化并且没有缓存条目（因为这是第一个到达的数据包），则移交该数据包给内核中的路由系统，在那里将计算并分配 dst_entry。

路由层完成后，更新统计计数器，并调用 dst_input(skb) 结束函数，该函数又调用了由路由系统关联的数据包的 dst_entry 结构上的输入函数指针。

如果数据包的最终目的地是本地系统，则路由系统将在数据包的 dst_entry 结构上的输入函数指针中关联 ip_local_deliver 函数。

调优：调整 IP 协议 early demux

设置 sysctl 禁用 early_demux 优化。

$ sudo sysctl -w net.ipv4.ip_early_demux=0

默认值为1；启用 early_demux。

添加此 sysctl 是因为一些用户发现在某些情况下使用 early_demux 优化会使吞吐量降低约 5%。

`ip_local_deliver`

回想一下在 IP 协议层中看到的以下模式：

调用 ip_rcv 做一些初始簿记。
移交数据包给 netfilter 进行处理，并带有一个指针，指向处理完成时要执行的回调。
ip_rcv_finish 是该回调函数，它完成了数据包的处理，并继续推送数据包到网络栈。

ip_local_deliver 具有相同的模式。来自 net/ipv4/ip_input.c：

/* *      Deliver IP Packets to the higher protocol layers. */int ip_local_deliver(struct sk_buff *skb){        /*         *      Reassemble IP fragments.         */        if (ip_is_fragment(ip_hdr(skb))) {                if (ip_defrag(skb, IP_DEFRAG_LOCAL_DELIVER))                        return 0;        }        return NF_HOOK(NFPROTO_IPV4, NF_INET_LOCAL_IN, skb, skb->dev, NULL,                       ip_local_deliver_finish);}

假设数据没有首先被 netfilter 丢弃，一旦 netfilter 有机会查看数据，将调用 ip_local_deliver_finish。

`ip_local_deliver_finish`

ip_local_deliver_finish 从数据包中获取协议，查找为该协议注册的 net_protocol 结构，并调用 net_protocol 结构中 handler 指向的函数。

这向上传递数据包到更高级别的协议层。

监控：IP 协议层统计信息

读取 /proc/net/snmp 监控详细的 IP 协议统计信息。

$ cat /proc/net/snmpIp: Forwarding DefaultTTL InReceives InHdrErrors InAddrErrors ForwDatagrams InUnknownProtos InDiscards InDelivers OutRequests OutDiscards OutNoRoutes ReasmTimeout ReasmReqds ReasmOKs ReasmFails FragOKs FragFails FragCreatesIp:                   1           64 25922988125                0                    0             15771700                            0           0 25898327616 22789396404 12987882                    51                                 1       10129840     2196520                  1              0              0                    0...

此文件包含多个协议层的统计信息。首先显示 IP 协议层。第一行包含空格分隔的名称，每个名称对应下一行中的相应值。

enum{  IPSTATS_MIB_NUM = 0,/* frequently written fields in fast path, kept in same cache line */  IPSTATS_MIB_INPKTS,     /* InReceives */  IPSTATS_MIB_INOCTETS,     /* InOctets */  IPSTATS_MIB_INDELIVERS,     /* InDelivers */  IPSTATS_MIB_OUTFORWDATAGRAMS,   /* OutForwDatagrams */  IPSTATS_MIB_OUTPKTS,      /* OutRequests */  IPSTATS_MIB_OUTOCTETS,      /* OutOctets */  /* ... */

读取 /proc/net/netstat 监控扩展 IP 协议统计信息。

$ cat /proc/net/netstat | grep IpExtIpExt: InNoRoutes InTruncatedPkts InMcastPkts OutMcastPkts InBcastPkts OutBcastPkts InOctets OutOctets InMcastOctets OutMcastOctets InBcastOctets OutBcastOctets InCsumErrors InNoECTPkts InECT0Pktsu InCEPktsIpExt: 0 0 0 0 277959 0 14568040307695 32991309088496 0 0 58649349 0 0 0 0 0

格式类似于 /proc/net/snmp，不同之处在于行的前缀是 IpExt。

一些有趣的统计数据：

InReceives：到达 ip_rcv 的 IP 数据包总数，未进行任何数据完整性检查。
InHdrErrors：头部损坏的 IP 数据包总数。头部过短、过长、不存在、IP 协议版本号错误等。
InAddrErrors：主机不可达的 IP 数据包总数。
ForwDatagrams：已转发的 IP 数据包总数。
InUnknownProtos：头部中指定了未知或不支持协议的 IP 数据包总数。
InDiscards：由于内存分配失败而丢弃的 IP 数据包或校验和失败修剪的数据包总数。
InDelivers：成功传递到更高协议层的 IP 数据包总数。请注意，即使 IP 层没有丢弃数据，更高协议层也可能丢弃数据。
InCsumErrors：校验和错误的 IP 数据包总数。

更高级别协议注册

本文将研究 UDP，但 TCP 协议处理程序的注册方式和时间与 UDP 协议处理程序相同。

在 net/ipv4/af_inet.c 中，可以找到包含将 UDP、TCP 和 ICMP 协议连接到 IP 协议层的处理程序函数的结构定义。来自 net/ipv4/af_inet.c：

static const struct net_protocol tcp_protocol = {        .early_demux    =       tcp_v4_early_demux,        .handler        =       tcp_v4_rcv,        .err_handler    =       tcp_v4_err,        .no_policy      =       1,        .netns_ok       =       1,};static const struct net_protocol udp_protocol = {        .early_demux =  udp_v4_early_demux,        .handler =      udp_rcv,        .err_handler =  udp_err,        .no_policy =    1,        .netns_ok =     1,};static const struct net_protocol icmp_protocol = {        .handler =      icmp_rcv,        .err_handler =  icmp_err,        .no_policy =    1,        .netns_ok =     1,};

这些结构在 inet 地址族的初始化代码中注册。来自 net/ipv4/af_inet.c：

/* *      Add all the base protocols. */if (inet_add_protocol(&icmp_protocol, IPPROTO_ICMP) < 0)        pr_crit("%s: Cannot add ICMP protocol\n", __func__);if (inet_add_protocol(&udp_protocol, IPPROTO_UDP) < 0)        pr_crit("%s: Cannot add UDP protocol\n", __func__);if (inet_add_protocol(&tcp_protocol, IPPROTO_TCP) < 0)        pr_crit("%s: Cannot add TCP protocol\n", __func__);

我们将研究 UDP 协议层。如上所述，UDP 的 handler 函数称为 udp_rcv。

IP 层在此处理数据，这是进入 UDP 层的入口点。让我们继续旅程。

UDP协议层

UDP 协议层的代码可以在以下文件中找到：net/ipv4/udp. c.

`udp_rcv`

udp_rcv 函数的代码只有一行，它直接调用 __udp4_lib_rcv 来接收数据报。

`__udp4_lib_rcv`

__udp4_lib_rcv 函数检查以确保数据包有效，并获取 UDP 报头、UDP 数据报长度、源地址和目标地址。接下来，是一些附加的完整性检查和校验和验证。

回想一下，在前面的 IP 协议层，我们看到在将数据包交到上层协议（在我们的情况下是 UDP）之前执行了一个优化，以附加 dst_entry 到数据包。

如果找到一个套接字和相应的 dst_entry，__udp4_lib_rcv 将把数据包排队到套接字：

sk = skb_steal_sock(skb);if (sk) {  struct dst_entry *dst = skb_dst(skb);  int ret;  if (unlikely(sk->sk_rx_dst != dst))    udp_sk_rx_dst_set(sk, dst);  ret = udp_queue_rcv_skb(sk, skb);  sock_put(sk);  /* a return value > 0 means to resubmit the input, but   * it wants the return to be -protocol, or 0   */  if (ret > 0)    return -ret;  return 0;} else {

如果 early_demux 操作没有附加套接字，则现在将调用 __udp4_lib_lookup_skb 来查找接收套接字。

在上述两种情况下，数据报将排队到套接字：

ret = udp_queue_rcv_skb(sk, skb);sock_put(sk);

如果没有找到套接字，则丢弃数据报：

/* No socket. Drop packet silently, if checksum is wrong */if (udp_lib_checksum_complete(skb))        goto csum_error;UDP_INC_STATS_BH(net, UDP_MIB_NOPORTS, proto == IPPROTO_UDPLITE);icmp_send(skb, ICMP_DEST_UNREACH, ICMP_PORT_UNREACH, 0);/* * Hmm.  We got an UDP packet to a port to which we * don't wanna listen.  Ignore it. */kfree_skb(skb);return 0;

`udp_queue_rcv_skb`

此函数的初始部分如下所示：

确定与数据报关联的套接字是否是封装套接字。如果是，在继续之前传递数据包到该层的处理函数。
确定数据报是否为 UDP-Lite 数据报，并执行一些完整性检查。
验证数据报的 UDP 校验和，如果校验和失败，则丢弃数据报。

最后，我们到达接收队列逻辑，它首先检查套接字的接收队列是否已满。来自 net/ipv4/udp.c：

if (sk_rcvqueues_full(sk, skb, sk->sk_rcvbuf))  goto drop;

`sk_rcvqueues_full`

sk_rcvqueues_full 函数检查套接字的 backlog 长度和套接字的 sk_rmem_alloc，以确定总和是否大于套接字的 sk_rcvbuf（sk->sk_rcvbuf）：

/* * Take into account size of receive queue and backlog queue * Do not take into account this skb truesize, * to allow even a single big packet to come. */static inline bool sk_rcvqueues_full(const struct sock *sk, const struct sk_buff *skb,                                     unsigned int limit){        unsigned int qsize = sk->sk_backlog.len + atomic_read(&sk->sk_rmem_alloc);        return qsize > limit;}

调优这些值有点棘手，因为有很多东西可以调整。

调优：套接字接收队列内存

sksk->sk_rcvbuf（在上面的sk_rcvqueues_full中称为limit）值可以增加到 sysctlnet.core.rmem_max 设置的值。

设置 sysctl 增加最大接收缓冲区大小。

$ sudo sysctl -w net.core.rmem_max=8388608

sk->sk_rcvbuf 从 net.core.rmem_default 值开始，也可以设置 sysctl 来调整，如下所示：

设置 sysctl 来调整默认的初始接收缓冲区大小。

$ sudo sysctl -w net.core.rmem_default=8388608

您可以在应用程序中调用 setsockopt 并传递 SO_RCVBUF 来设置 sk->sk_rcvbuf 的大小。您可以使用 setsockopt 设置的最大值为 net.core.rmem_max。

但是，您可以调用 setsockopt 并传递 SO_RCVBUFFORCE 来覆盖 net.core.rmem_max 的限制，但运行应用程序的用户需要具有 CAP_NET_ADMIN 权限。

当调用 skb_set_owner_r 设置数据报的所有者套接字时，会增加 sk->sk_rmem_alloc 的值。我们稍后将在 UDP 层中看到这个调用。

当调用 sk_add_backlog 时，会增加 sk->sk_backlog.len 的值，我们接下来将看到这个调用。

`udp_queue_rcv_skb`

一旦验证队列未满，则可以继续对数据报进行排队。来自 net/ipv4/udp.c：

bh_lock_sock(sk);if (!sock_owned_by_user(sk))  rc = __udp_queue_rcv_skb(sk, skb);else if (sk_add_backlog(sk, skb, sk->sk_rcvbuf)) {  bh_unlock_sock(sk);  goto drop;}bh_unlock_sock(sk);return rc;

第一步是确定套接字当前是否有任何来自用户空间程序的系统调用。如果没有，则可以调用 __udp_queue_rcv_skb 添加数据报到接收队列。如果是，则调用 sk_add_backlog 排队数据报到 backlog。

当套接字系统调用调用内核中的 release_sock 释放套接字时，backlog 上的数据报被添加到接收队列。

`__udp_queue_rcv_skb`

__udp_queue_rcv_skb 函数调用 sock_queue_rcv_skb 添加数据报到接收队列，如果数据报无法添加到套接字的接收队列，则会增加统计计数器。

来自 net/ipv4/udp.c：

rc = sock_queue_rcv_skb(sk, skb);if (rc < 0) {  int is_udplite = IS_UDPLITE(sk);  /* Note that an ENOMEM error is charged twice */  if (rc == -ENOMEM)    UDP_INC_STATS_BH(sock_net(sk), UDP_MIB_RCVBUFERRORS,is_udplite);  UDP_INC_STATS_BH(sock_net(sk), UDP_MIB_INERRORS, is_udplite);  kfree_skb(skb);  trace_udp_fail_queue_rcv_skb(rc, sk);  return -1;}

监控：UDP 协议层统计信息

获取 UDP 协议统计信息的两个非常有用的文件是：

/proc/net/snmp
/proc/net/udp

`/proc/net/snmp`

读取 /proc/net/snmp 监控详细的 UDP 协议统计信息。

$ cat /proc/net/snmp | grep Udp\:Udp: InDatagrams NoPorts InErrors OutDatagrams RcvbufErrors SndbufErrorsUdp: 16314 0 0 17161 0 0

与此文件中 I P协议的详细统计信息非常相似，您需要阅读协议层源文件，以准确确定这些值在何时何地递增。

InDatagrams：当用户程序使用 recvmsg 读取数据报时递增。当 UDP 数据包被封装并发送回来进行处理时也会递增。
NoPorts：当 UDP 数据包到达目标端口，但没有程序在监听时递增。
InErrors：在几种情况下递增：接收队列中没有内存，检测到校验和错误，以及如果 sk_add_backlog 未能添加数据报。
OutDatagrams：当 UDP 数据包无错误地传递给 IP 协议层发送时递增。
RcvbufErrors：当 sock_queue_rcv_skb 报告没有可用内存时递增；如果 sk->sk_rmem_alloc 大于或等于 sk->sk_rcvbuf 时会发生这种情况。
SndbufErrors：如果 IP 协议层在尝试发送数据包时报告错误且未设置错误队列，则递增。如果没有可用的发送队列空间或内核内存也会递增。
InCsumErrors：当检测到 UDP 校验和失败时递增。请注意，在我能找到的所有情况中，InCsumErrors 都与 InErrors 同时递增。因此，InErrors - InCsumErros 应该得出接收端内存相关错误的计数。

`/proc/net/udp`

读取 /proc/net/udp 监控 UDP 套接字统计信息

$ cat /proc/net/udp  sl  local_address rem_address   st tx_queue rx_queue tr tm->when retrnsmt   uid  timeout inode ref pointer drops  515: 00000000:B346 00000000:0000 07 00000000:00000000 00:00000000 00000000   104        0 7518 2 0000000000000000 0  558: 00000000:0371 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7408 2 0000000000000000 0  588: 0100007F:038F 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7511 2 0000000000000000 0  769: 00000000:0044 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7673 2 0000000000000000 0  812: 00000000:006F 00000000:0000 07 00000000:00000000 00:00000000 00000000     0        0 7407 2 0000000000000000 0

第一行描述后续行中的每个字段：

sl：套接字的内核哈希槽
local_address：套接字的十六进制本地地址和端口号，用 : 分隔。
rem_address：套接字的十六进制远程地址和端口号，用 : 分隔。
st：套接字的状态。奇怪的是，UDP 协议层似乎使用了一些 TCP 套接字状态。在上面的示例中，7 是 TCP_CLOSE。
tx_queue：内核为传出 UDP 数据报分配的内存量。
rx_queue：内核为传入 UDP 数据报分配的内存量。
tr、tm->when、retrnsmt：这些字段未被 UDP 协议层使用。
uid：创建此套接字的用户的有效用户 ID。
timeout：未被 UDP 协议层使用。
inode：与此套接字对应的 inode 编号。您可以使用它来帮助您确定哪个用户进程打开了此套接字。检查 /proc/[pid]/fd，其中包含指向 socket[:inode] 的符号链接。
ref：套接字的当前引用计数。
pointer：内核中 struct sock 的内存地址。
drops：与此套接字关联的数据报丢弃数。请注意，这不包括任何与发送数据报有关的丢弃（在 corked 的 UDP 套接字上，或其他）；在本博客考察的内核版本中，只在接收路径中增加。

可以在 net/ipv4/udp.c 中找到输出此内容的代码。

排队数据到套接字

网络数据调用 sock_queue_rcv 排队到套接字。在添加数据报到队列之前，此函数会执行一些操作：

检查套接字的分配内存，以确定它是否超过了接收缓冲区大小。如果是，则增加套接字的丢弃计数。
接下来使用 sk_filter 处理已应用于套接字的 Berkeley Packet Filter 过滤器。
运行 sk_rmem_schedule，以确保有足够的接收缓冲区空间来接受此数据报。
接下来调用 skb_set_owner_r 将数据报的大小计入套接字。这会增加 sk->sk_rmem_alloc。
调用 __skb_queue_tail 添加数据到队列中。
最后，调用 sk_data_ready 通知处理程序函数通知任何等待套接字中数据到达的进程。

这就是数据如何到达系统并遍历网络堆栈，直到它到达套接字并准备好被用户程序读取。

其他

有一些额外的事情值得一提，值得一提的是，似乎不太正确的其他任何地方。

时间戳

如果您想尝试确定内核网络栈在发送数据包时增加了多少延迟，这是一个有用的特性。

关于时间戳的内核文档非常好，甚至还有一个包含的示例程序和 Makefile，你可以查看！

使用 ethtool -T 确定您的驱动程序和设备支持的时间戳模式。

$ sudo ethtool -T eth0Time stamping parameters for eth0:Capabilities:  software-transmit     (SOF_TIMESTAMPING_TX_SOFTWARE)  software-receive      (SOF_TIMESTAMPING_RX_SOFTWARE)  software-system-clock (SOF_TIMESTAMPING_SOFTWARE)PTP Hardware Clock: noneHardware Transmit Timestamp Modes: noneHardware Receive Filter Modes: none

不幸的是，这个网卡不支持硬件接收时间戳，但是软件时间戳仍然可以在这个系统上使用，以帮助我确定内核给我的数据包接收路径增加了多少延迟。

低延迟套接字的忙轮询

可以使用名为 SO_BUSY_POLL 的套接字选项，当执行阻塞接收且没有数据时，它会导致内核忙碌轮询新数据。

重要提示：要使此选项正常工作，您的设备驱动程序必须支持它。Linux 内核 3.13.0 的 igb 驱动程序不支持此选项。然而，ixgbe 驱动程序支持。如果您的驱动程序在其 struct net_device_ops 结构（在上面的博客文章中提到）的 ndo_busy_poll 字段中设置了一个函数，则它支持 SO_BUSY_POLL。

Intel 提供了一篇很棒的论文，解释了这是如何工作的以及如何使用它。

当为单个套接字使用此套接字选项时，您应该传递一个以微秒为单位的时间值，作为在设备驱动程序的接收队列中忙碌轮询新数据的时间。在设置此值后，当您对此套接字发出阻塞读取时，内核将忙碌轮询新数据。

您还可以设置 sysctl 值 net.core.busy_poll 为以微秒为单位的时间值，表示使用 poll 或 select 的调用应忙碌轮询等待新数据到达的时间。

此选项可以减少延迟，但会增加 CPU 使用率和功耗。

Netpoll：支持关键环境中的联网

Linux 内核提供了一种方法，可以在内核崩溃时使用设备驱动程序在 NIC 上发送和接收数据。这个 API 被称为 Netpoll，它被一些东西使用，但最值得注意的是：kgdb、netconsole。

大多数驱动程序都支持 Netpoll；您的驱动程序需要实现 ndo_poll_controller 函数，并将其关联到探测期间注册的 struct net_device_ops（如上所示）。

当网络设备子系统对传入或传出数据执行操作时，首先检查 netpoll 系统以确定数据包是否目标为 netpoll。

例如，我们可以在 __netif_receive_skb_core 中看到以下代码，来自 net/dev/core.c：

static int __netif_receive_skb_core(struct sk_buff *skb, bool pfmemalloc){  /* ... */  /* if we've gotten here through NAPI, check netpoll */  if (netpoll_receive_skb(skb))    goto out;  /* ... */}

Netpoll 检查发生在大多数处理传输或接收网络数据的 Linux 网络设备子系统代码之前。

Netpoll API 的使用者可以调用 netpoll_setup 来注册 struct netpoll 结构。struct netpoll 结构具有关联接收钩子的函数指针，API 导出了一个发送数据的函数。

如果您对使用 Netpoll API 感兴趣，您应该查看 netconsole 驱动程序、Netpoll API 头文件 include/linux/netpoll.h 和这个优秀的演讲。

`SO_INCOMING_CPU`

SO_INCOMING_CPU 标志直到 Linux 3.19 才被添加，但它非常有用，应该包含在此博客文章中。

您可以使用 getsockopt 和 SO_INCOMING_CPU 选项来确定哪个 CPU 处理特定套接字的网络数据包。然后，您的应用程序可以使用此信息将套接字交给在所需 CPU 上运行的线程，以帮助增加数据局部性和 CPU 缓存命中。

引入 SO_INCOMING_CPU 的邮件列表消息提供了一个简短的示例架构，其中此选项很有用。

DMA引擎

DMA 引擎是一种硬件，它允许 CPU 卸载大型复制操作。这使得 CPU 使用硬件完成内存复制时可以执行其他任务。启用 DMA 引擎并运行利用它的代码，应该会降低 CPU 使用率。

Linux 内核具有通用的 DMA 引擎接口，DMA 引擎驱动程序作者可以插入。您可以在内核源代码文档中了解更多关于 Linux DMA 引擎接口的信息。

尽管内核支持一些 DMA 引擎，但我们将讨论一种非常常见的特定 DMA 引擎：Intel IOAT DMA 引擎。

英特尔的 I/O 加速技术（IOAT）

许多服务器都包含 Intel I/O AT 组件包，它由一系列性能更改组成。

其中一个更改是包含硬件 DMA 引擎。您可以检查 dmesg 输出中的 ioatdma，以确定模块是否正在加载并且是否找到了支持的硬件。

DMA 卸载引擎在几个地方使用，最值得注意的是在 TCP 栈中。

对 Intel IOAT DMA 引擎的支持包含在 Linux 2.6.18 中，但由于一些不幸的数据损坏错误，它在 3.13.11.10 中被禁用。

在 3.13.11.10 之前的内核上的用户可能默认在其服务器上使用 ioatdma 模块。也许这将在未来的内核版本中得到修复。

直接缓存访问

与 Intel I/O AT 组件包一起包含的另一个有趣功能是直接缓存访问 (DCA)。

此功能允许网络设备（通过其驱动程序）直接放置网络数据到 CPU 缓存中。具体如何实现这一点是特定于驱动程序的。对于 igb 驱动程序，您可以检查函数 igb_update_dca 的代码，以及 igb_update_rx_dca 的代码。igb 驱动程序向 NIC 写入寄存器值来使用 DCA。

要使用 DCA，您需要确保在 BIOS 中启用了 DCA，加载了 dca 模块，并且您的网络卡和驱动程序都支持 DCA。

监控 IOAT DMA 引擎

如果您正在使用 ioatdma 模块，尽管有上面提到的数据损坏的风险，您可以检查 sysfs 中的一些条目监控它。

监控 DMA 通道的卸载 memcpy 操作总数。

$ cat /sys/class/dma/dma0chan0/memcpy_count123205655

类似地，要获取此 DMA 通道卸载的字节数，可以运行以下命令：

监控 DMA 通道传输的总字节数。

$ cat /sys/class/dma/dma0chan0/bytes_transferred131791916307

调优 IOAT DMA 引擎

IOAT DMA 引擎仅在数据包大小高于某个阈值时使用。这个阈值被称为 copybreak。之所以进行此检查，是因为对于小型副本，设置和使用 DMA 引擎的开销不值得加速传输。

使用 sysctl 调整 DMA 引擎 copybreak。

$ sudo sysctl -w net.ipv4.tcp_dma_copybreak=2048

默认值为 4096。

结论

Linux 网络堆栈非常复杂。

如果不深入了解究竟发生了什么，就不可能监控或调优它（或任何其他复杂的软件）。通常，在互联网的荒野中，您可能会偶然发现一个包含一组 sysctl 值的示例 sysctl.conf，复制并粘贴到您的计算机上。这可能不是优化您的网络堆栈的最佳方法。

监控网络堆栈需要在每一层仔细核算网络数据。从驱动程序开始，然后向上进行。这样您就可以确定丢弃和错误发生在哪里，然后调整设置以确定如何减少您看到的错误。

不幸的是，没有简单的出路。

原文： Monitoring and Tuning the Linux Networking Stack: Receiving Data

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/04-24-2023/monitoring-and-tuning-the-linux-networking-stack-recv-cn.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

TCP/IP 网络传输

2023-03-29T16:00:00.000Z

作者序
本文所谈的绝大部分内容在众多文章中都有讲到，再复述一遍并非本意。本文的目的是了解各种工具、定量分析网络状态；当遇到网络性能问题的时候，根据原理和出现的可能性，有的放矢。
MSS vs MTU 有什么区别？
发送窗口 vs 接收窗口 vs 拥塞窗口？
RTT & RTO 是什么含义
哪些常见的工具可以探查网络状态？
如何定量分析延迟、吞吐等性能问题？
其他说明：
文中 Wireshark 相关的使用，来源于《Wireshark 网络分析就这么简单》、《Wireshark 网络分析的艺术》

IP 协议与机制

MTU

应用程序发送到协议栈的数据长度是由应用程序本身决定的。不同的应用程序有不同的实现方式，有些应用程序一次性发送所有数据，而有些应用程序则会逐字节或逐行发送数据。最终，发送到协议栈的数据量由应用程序决定，协议栈无法控制这种行为。

如果协议栈一接收到数据就立即发送，可能会发送大量的小数据包，导致网络效率降低。因此，需要在累积一定数量的数据后再发送。但是，累积多少数据才能发送取决于操作系统的种类和版本。

现在，假设有一个需要写入的操作比较大，例如 4000 字节，那么 TCP 层会如何处理呢？是否只需添加 TCP 标头并将其发送到网络层呢？

答案是否定的。因为网络对数据包大小有限制，最大传输单元（MTU，Maximum transmission unit）指的是网络可以传输的最大数据包大小。大多数网络的 MTU 为 1500 字节，这意味着 4000 字节的数据包要么会被丢弃，要么会被分片。如果数据包被丢弃，传输将彻底失败。如果数据包被分片，将会导致传输效率降低。

那被切分的包又该怎么重组呢？

仍然以一个数据包大小为 4000 字节，MTU 为 1500 字节为例，当发送端的 IP 层将该数据包发送到网络层时，会检查数据包大小是否超过 MTU 限制。

如果超过了，IP 层会将该数据包分成三个分片，分别是：

第一个分片，偏移量为 0，大小为 1500 字节；
第二个分片，偏移量为 1480（前一个分片占去了 20 字节的 IP 头部空间），大小为 1500 字节；
第三个分片，偏移量为 2960（前两个分片占去了 2960 字节的空间），大小为 1020 字节。

分片的重组需要依据 IP Header 中的标识（Identification）和标志（Flags）字段来完成。标识字段用于标识分片属于哪个数据报，而标志字段用于标识分片是否允许再分片和是否为最后一片。具体而言，同一个数据报的所有分片都应该具有相同的标识字段值，而 DF（Don’t Fragment，不分片）和 MF（More Fragments，还有更多分片）标志则用于标识分片是否允许再分片和是否为最后一片。

在接收端，当接收到这些分片时，它们会根据标识字段进行分类。如果一个数据报的所有分片都到达了接收端，那么接收端就可以使用偏移量和分片大小将这些分片按正确的顺序重新组装成原始数据包。如果某个分片没有到达接收端，那么接收端会等待一段时间，如果超时后仍然没有收到该分片，那么接收端就会向发送端发送一个请求重传的消息。

假设客户端和服务器的 MTU 大小分别为 1500 和 1200 字节。在这种情况下，客户端最大能发出多少字节的包呢？

根据上面的结论，发包的大小是由 MTU 较小的一方决定的，因此客户端最大只能发送 1200 字节的包。如果客户端尝试发送 1500 字节的包，那么这个包将被分片成两个部分，每个部分的大小分别为 1200 字节和 300 字节。如果 DF 标志位设置为 1，表示不允许分片，因此这个数据包会则会被丢弃，传输失败。

TTL

每个 IP 包都有一个 TTL 字段，表示该包的生存时间。每当一个 IP 包经过一个路由器，TTL 字段就会减 1，当 TTL 为 0 时，该包就会被丢弃。根据 TTL 的特性，只需翻出网络拓扑图，就能大概知道该包是哪台设备发出。

除此之外，TTL 还可以用于检测网络劫持和请求延迟问题。如果我们怀疑网络连接被劫持，可以通过检查 TTL 值来确定是否存在额外的跳数。而如果请求延迟较高，也可以通过检查 TTL 值来确定是否存在较远的跳数，从而进一步分析网络瓶颈所在。

TCP 协议与机制

MSS

由于 IP 层 MTU 的存在，TCP 协议需要控制 MTU，从而避免数据过大而需要分包传输的问题，提高网络传输效率。

在 TCP 连接建立过程中，客户端和服务器会互相通告各自的 MSS（Maximum Segment Size，最大分段大小），MSS 是指 TCP 数据段中数据部分的最大长度。MSS 加上 TCP 头和 IP 头的长度，就是双方可以承载的最大 MTU。

RTT

RTT（往返时延）是指从发送方发送数据到发送方接收到来自接收方的确认消息所经过的时间。在网络通信中，RTT 时延不仅与链路的传播时间有关，还包括路由器等网络中间节点的缓存和排队时间，以及末端系统的处理时间。

尽管在同一条链路上，报文的传输时间和应用处理时间相对固定，但网络设备和末端系统的网络拥堵情况下，排队时间的增加会导致 RTT 时延波动。

此外，流量负载均衡的存在会导致选择的传输路径和经过的网络设备不同，即使是同一个上下游服务的请求，也会出现 RTT 时延的差异。

MTR（My Traceroute）是一种网络诊断工具，可以通过在连续的时间间隔内将网络节点的 traceroute（跟踪路由）操作的结果显示在同一屏幕上，从而提供更详细的网络信息。
使用 MTR 可以帮助我们了解数据包在网络中的路径和每个跃点的 RTT，从而更方便地定位网络问题。例如，如果我们发现某些数据包延迟较高，我们可以使用 MTR 查看这些数据包的路径和每个跃点的 RTT，以确定延迟出现的具体位置。此外，MTR 还可以通过连续的监测，提供有关网络稳定性和性能的有用信息，从而帮助我们优化网络性能

流量控制

在我们日常生活中，排队和拥挤现象时常发生，如医院看病、邮局等候服务等。除了实际排队之外，还有一种无形的排队，即网络拥堵导致的网速变慢。

为了减少排队现象，增加服务窗口是一个可行的解决方案，但这也会增加服务成本。反之，缩小服务窗口可以提高窗口的利用率，降低成本，但会增加用户排队等待的时间。这两者是相互矛盾的。

为了在保证用户满意度（响应时间）的前提下，最大限度地挖掘系统潜力、提高利用率（控制成本），TCP 通过窗口（发送窗口/拥塞窗口）大小来实现这一目标。

发送窗口

由于无法确认接收方是否能及时接收数据包，TCP 传输中不适合每发一个数据包就停下来等待确认，因为这样传输效率太低。最好的方式是一次性将所有数据包发送出去，然后一起等待确认。但是，实际情况存在一些限制：

接收方的缓存（接收窗口）可能无法一次性接收所有数据；
网络的带宽也不一定足够大，一次性发送过多的数据包可能导致数据丢失。

因此，在 TCP 传输中，发送窗口通过限制发送数据包的数量来平衡传输效率和数据可靠性。发送窗口的大小计算公式为 wnd = min(rwnd, cwnd * mss)，其中 rwnd 表示接收方告知的接收窗口大小，cwnd 表示发送方的拥塞窗口大小。在此限制范围内，尽可能多地发送数据包，一次可以发送的数据量即为 TCP 发送窗口。

发送窗口大小对传输性能的影响非常大。下图显示了发送窗口大小为 1 个 MSS（即每个 TCP 包所能携带的最大数据量）和 2 个 MSS 时的差别。在相同的往返时间内，发送窗口大小为 2 个 MSS 时，传输的数据量是发送窗口大小为 1 个 MSS 的两倍。

在实际应用中，发送窗口通常可以达到数十个 MSS 的大小，因此发送窗口的大小会对 TCP 传输的效率和可靠性产生巨大影响。

发送窗口 VS MSS
发送窗口决定了一口气能发多少字节，而 MSS 决定了这些字节要分多少个包发完。例如：
发送窗口为 16000 字节，MSS 为 1000 字节时，需要发送 16000/1000=16 个包；而如果 MSS 等于 8000，那要发送的包数就是 16000/8000=2。

接收窗口

在 TCP 协议中，接收窗口是一项非常重要的参数，它决定了发送方在一个确定时间内可以发送多少数据。

在 TCP 协议初期，网络带宽非常有限，因此 TCP 的最大接收窗口被定义为 65535 字节。但随着网络带宽的提高，这个值已经无法满足现代网络传输的需求了。

如果抓包时没有抓到三次握手，Wireshark 就不知道该如何计算，所以有时候会很莫名地看到一些极小的接收窗口值。
如果防火墙识别不了 Window Scale，因此对方无法获得 Shift count，最终导致严重的性能问题。

1992 年，RFC 1323 提出了一种解决方案，即在三次握手时向对方发送自己的 Window Scaling 信息，Window Scaling 是一个 2 的指数，通过它可以计算出实际的 TCP 接收窗口大小。这个方案的好处是可以不需要修改 TCP 头的设计。

# 查看 Linux 内核 TCP Window Scalingsysctl net.ipv4.tcp_window_scaling> net.ipv4.tcp_window_scaling = 1# 设置 Linux 内核 TCP Window Scalingsudo sysctl -w net.ipv4.tcp_window_scaling=0> net.ipv4.tcp_window_scaling = 0

拥塞窗口

拥塞控制的基本思想是发送方通过维护一个虚拟的拥塞窗口，控制数据包的发送速度，以防止网络拥塞。

在连接建立初期，发送方对网络状况一无所知。由于一次发送过多数据可能会遭遇拥塞，因此发送方需要将拥塞窗口的初始值设置得很小。根据 RFC（请求评论文档）的建议，初始值为 2 个、3 个或者 4 个 MSS（最大报文段长度），具体取决于 MSS 的大小。
在慢启动过程中，拥塞窗口大小随着时间的推移而逐渐增加。此时，传输速度比较快，触碰拥塞点的风险也增加。因此，不能继续采用翻倍的慢启动算法，而是要缓慢增加拥塞窗口大小。根据 RFC 的建议，在每个往返时间中增加 1 个 MSS。例如，如果发送了 16 个 MSS 并得到全部确认，则拥塞窗口大小增加到 16+1=17 个 MSS。随后，拥塞窗口大小会增加到 18、19 等，这个过程称为拥塞避免。
在慢启动过渡到拥塞避免的临界窗口值方面，需要根据之前是否发生过拥塞来确定。如果发生过拥塞，则应将该拥塞点作为参考。如果从未发生过拥塞，则可以选择一个较大的值，例如与最大接收窗口相等。

具体怎么知道窗口多大会触发拥塞呢？

假设我们要计算的是某个 TCP 连接的拥塞点，而在该连接中存在一连串重传包。首先，我们需要找到重传包序列中的第一个包，然后根据其 Seq 值找到其对应的原始包，进而计算出原始包发送时刻的在途字节数。因为网络拥塞发生在该原始包发送的时刻，因此该时刻的在途字节数大致代表了拥塞点的大小。

在途字节数的计算公式应该是：

在途字节数 = Seq + Len - Ack

其中，Seq 是指包的序列号，Len 是包的长度，Ack 是指确认号。

具体步骤：

Wireshark 上单击 Analyze 菜单，再单击 Expert Info 选项，得到重传统计表。
点击第一个重传包No.1225，可见它的 Seq=1012852。于是用“tcp.seq ==1012852”作为过滤条件
点击 Apply 过滤之后得到了原始包 No. 1053
选定 1053 号包，然后点击 Clear 清除过滤。可见上一个来自服务器端的包是 1051 号包
利用上述公式，可知当时的在途字节数为 1012852（No.1053 的 Seq）+816（No.1053 的 Len）-910546（No.1051 的 Ack）=103122 字节。

重传

在传输数据时，由于网络拥塞、硬件故障等原因导致数据包未能及时到达接收方，发送方会重新发送该数据包。

快速重传

在网络传输过程中，丢包是很常见的问题，不过有时候出现的丢包症状并不像严重拥塞时那么明显。一些因素如校验码不对可能导致单个包的丢失，或者只有少量的包丢失。当这些包的后续包能够正常到达接收方时，接收方会发现其 Seq 号比期望的大，为了提醒发送方重传这些包，接收方会每收到一个包就 Ack 一次期望的 Seq 号。当发送方接收到三个或以上的重复确认（Dup Ack）时，发送方便会意识到相应的包已经丢失，于是立即重传它。这个过程称为快速重传，与超时重传不同，它无需等待一段时间。

为什么要规定收到 3 个或以上的重复确认才会重传呢？这是因为网络包有时会乱序，乱序的包同样会触发重复的 Ack，但是为了乱序而重传却是不必要的。因为一般乱序的距离不会相差太大，比如 2 号包也许会跑到 4 号包后面，但不太可能跑到 6 号包后面。所以规定收到三个或以上的重复确认，可以在很大程度上避免因乱序而触发快速重传。

如下图所示，2 号包的丢失凑满了 3 个 Dup Ack，所以触发快速重传。而在右图中，2 号包跑到 4 号包后面，但因为凑不满 3 个 Ack，所以没有触发快速重传。

如果在拥塞避免阶段发生了快速重传，是否需要像发生超时重传一样处理拥塞窗口呢？

其实并没有必要。因为如果后续的包都能正常到达，那么说明网络并没有严重拥塞，只需要在接下来传输数据时减缓一些速度即可。

RFC 5681 规定，在发生拥塞时还没被确认的数据量的 1/2（但不能小于 2 个 MSS）设为临界窗口值。然后将拥塞窗口设置为临界窗口值加 3 个 MSS，继续保留在拥塞避免阶段。这个过程被称为快速恢复，其拥塞窗口的变化可以用下图表示：

超时重传

在网络中，发生拥塞后会影响到发送方，因为发送方发送的数据包可能无法像往常一样得到及时的确认。当无法收到确认时，发送方会等待一段时间来判断是否存在网络延迟。如果超过了一定时间仍然没有收到确认，发送方就会认为这些数据包已经丢失，只能通过重传来保证数据的正确性。这个过程被称为超时重传，而从发送原始数据包到重传该数据包的这段时间被称为 RTO。

在 Linux 内核编译时，RTO 的最小值就已被确定，默认值为：200 ms

#define TCP_RTO_MAX ((unsigned)(120*HZ))#define TCP_RTO_MIN ((unsigned)(HZ/5))

然而，超时重传对传输性能有严重的影响。

首先，发送方在等待 RTO 的过程中不能传输数据，相当于浪费了一段时间。
其次，拥塞窗口会急剧减小，这将导致接下来的传输速度变慢。

即使是一次万分之一的超时重传，也可能对传输性能产生不可忽视的影响。

如何检查重传情况呢？

Wireshark 单击 Analyze–>Expert Info Composite 菜单，就能在 Notes 标签看到它们了，如图所示。点开 + 号还能看到具体是哪些包发生了重传。

从 Notes 标签中看到 Seq 号为 1458613 的包发生了超时重传。于是用该 Seq 号过滤出原始包和重传包（只有在发送方抓的包才看得到原始包），发现 RTO 竟长达 1 秒钟以上。这对性能的影响实在太大了。找出瓶颈彻底消除重传之后：

SACK

SACK（Selective Acknowledgment 选择性确认）是一种重传机制，其可以向发送方发送接收状态信息。通过 SACK，发送方可以准确地知道哪些数据包已经被接收，哪些数据包还未接收到，从而只需要重传丢失的数据包。

在真实环境中，我们可以抓取到 SACK 的实例。结合“Ack = 991851”和“SACK = 992461-996175”这两个条件，发送方可以知道 992461-996175 的数据已经被接收，而 991851-992460 的数据则还未被接收。这为重传丢失的数据包提供了有力的指引。

总结

除了众所周知的算法外，Linux 内核还提供了多个 TCP 拥塞控制算法，这些算法具有不同的传输特性，可以在 TCP 传输的重要指标，如往返传输时延（RTT）和吞吐量方面表现出不同的效果，包括：Reno、Cubic、BIC、Westwood+、Highspeed、Hybla 等。

# 查询支持的TCP拥塞控制算法sysctl net.ipv4.tcp_available_congestion_control> net.ipv4.tcp_available_congestion_control = reno cubic bbr# 查询应用的TCP拥塞控制算法sysctl net.ipv4.tcp_congestion_control> sysctl net.ipv4.tcp_congestion_control

在实际应用中，我们可以根据具体需求和网络环境选择合适的 TCP 拥塞控制算法，以达到最佳的网络传输效果。

小包问题（Small packet problem）

为了保证数据的可靠性，它使用了流量控制、拥塞控制、确认机制等多种技术，这些技术都需要消耗网络带宽和处理资源。

当发送端发送的数据包大小过小时，就会导致网络中出现大量的TCP头部、IP头部等固定长度的协议头。因为一个 TCP 包的头部和 IP 头部至少会占用 40 个字节的空间，而携带的数据很小时就像快递员开着大货车去送小包裹一样浪费。

协议头会占用大量的网络带宽和处理资源，从而导致网络传输效率下降。为了避免TCP小包问题，发送端可以使用一些方法来增加数据包的大小，比如使用 Nagle算法、延迟确认。

Nagle 算法

Nagle 算法的原理是在发出去的数据还没有被确认之前，如果有小数据生成，就先把这些小数据收集起来，凑满一个最大报文段长度（MSS）再进行发送。这样可以减少网络中的小数据包，提高网络的利用率。

延迟确认

延迟确认的原理是这样的：如果接收方收到一个数据包后没有需要立即回复的数据要发送给发送方，那么它就会延迟一段时间再发送确认信息。如果在这段时间内有需要发送的数据，那么确认信息和数据就可以在同一个数据包中一起发送出去。

当与 Nagle 算法同时启用时，延迟确认可能会导致性能下降

问题排查

理解 TCP 协议的机制和字段含义，是为了当传输性能问题发生时，更好地应用它。

当出现延迟问题时：

延迟指标 = 新建连接耗时 + RTT           + （Retransmission + RTO）           + （Fast Retransmission + Dup ACK)           +  Retransmission（Out-Of-Order）           - SACK           + Delay ACK + Nagle Algorithm

首先，应查看连接状态（是否频繁新建连接）及 RTT 情况
其次，关注是否有重传，是那种类型的重传，以及 SACK 是否有开启
最后，确认延迟确认和 Nagle 算法对延迟的影响

类似的，当出现吞吐问题时：

吞吐指标 = （总耗时 - (新建连接耗时 + 重传耗时 + RTO 耗时））/ RTT * MSS * （Cwnd / MSS）           - Retransmission

首先，应查看连接状态（是否频繁新建连接）、RTT 情况
其次，关注是否有重传，是哪种类型的重传
最后，确认窗口大小、MSS 等值的状态

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/03-30-2023/network-transmission.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

TCP/IP 网络设备与基础概念

2023-03-18T16:00:00.000Z

作者序
本文目的在于按照自己的理解，解释清楚网络中的一些基本概念，以及支撑概念落地的网络设备的工作原理。从而解决网络联通性问题，以及为定量分析网络性能问题打基础。如有错漏，欢迎指正：
什么是 WAN vs LAN？
什么是子网、网关？
LAN vs 子网有什么区别？
路由器、交换机、集线器有什么区别？
LAN vs VLAN ？
L2 交换机 vs L3
交换机有什么区别？

背景

网络世界与现实世界在许多方面运作方式相似。就像现实世界中的地址一样，划分国家、省市、街道、小区。邮递员以此高效的将快递正确送达每家每户。在网络世界中，IP 地址是用于唯一标识网络中的设备的，但是当网络规模变得很大时，就需要将 IP 地址进行划分，划分为若干个子网。子网使网络更高效。通过子网划分，网络流量传播距离更短，无需通过不必要的路由器即可到达目的地。

子网划分的过程需要在网络层上进行，可以通过在 IP 地址中使用子网掩码（Subnet Mask）来划分子网。子网掩码是一个 32 位的二进制数，与 IP 地址进行逻辑运算，可以将网络号和主机号进行区分。

例如，如果将 IP 地址（192.168.1.0）分成 4 个子网，可以使用 255.255.255.192 的子网掩码进行划分，得到四个子网：
192.168.1.0/26
192.168.1.64/26
192.168.1.128/26
192.168.1.192/26

不难看出，网络世界的运作很类似“分治策略”，可以将以上网络模型简化为 “子问题”（广域网 WAN） + 初始值（局域网 LAN）

局域网（LAN, Local Area Network）是指在较小的地理范围内，由计算机、打印机、服务器等设备组成的局域网，它们可以通过物理链路或者无线信号相互连接，形成一个逻辑上的网络。在 LAN 中，所有设备可以直接通信，不需要经过路由器进行 IP 路由，因此都处于同一个广播域内。

广域网（WAN, Wide Area Network）是一种大型计算机网络，用于远距离连接不同的计算机组。大型企业通常使用 WAN 来连接其办公网络；每一办事处通常有自己的局域网（或 LAN），这些 LAN 通过 WAN 相连。

在此模型下，首先回顾下协议栈的分层；然后，再来认识网络设备是如何落地协议栈，并完成工作的。

协议栈

TCP/IP 包含如下两个头部。

MAC 头部（以太网协议）
IP 头部（IP 协议）

协议栈分层中 IP 和 Ethernet 分开的目的在于支撑除了以太网在内的各种通信技术，例如无线局域网、ADSL、FTTH 等。它们都可以替代以太网的角色帮助 IP 协议来传输网络包。

两个头部分别具有不同的作用。首先，发送方将包的目的地，也就是要访问的服务器的 IP 地址写入 IP 头部中。如此就知道这个包应该发往哪里，IP 协议就可以根据这一地址查找包的传输方向，从而找到下一个路由器的位置。接下来，IP 协议会委托以太网协议将包传输过去。IP 协议会查找下一个路由器的以太网地址（MAC 地址），将包将地址写入 MAC 头部中。如此，以太网协议就知道要将这个包发到哪一个路由器。

同时，也意味着，经过每一跳的网络设备都会经过“解包”和“封包”，最核心的变化是 MAC 地址会被更新为下一跳的网络设备的地址（IP 地址保持不变）

网络设备

现如今，网络设备的集成度越来越高，像上图这样使用独立设备的情况很少见。例如家用路由器，集成了集线器和交换机的功能。

不过，把每个功能独立出来更容易理解，而且理解了这种模式之后，也就能理解集成多种功能的设备，因此下面将所有功能独立出来，逐个来进行探索。

三层网络设备，支持物理层, 数据链路层及网络层协议，例如：路由器
二层网络设备，支持物理层和数据链路层协议，例如：以太网交换机
一层网络设备，只支持物理层协议，例如：HUB

路由器

路由器作为三层网络设备的代表，在其中扮演着非常重要的角色。路由器先构建路由表，以确定如何将数据包从一个网络转发到另外一个网络。

路由的核心功能可以分为两个部分，“路由选择”（确定通过网络的最佳路径的任务）和 “分组转发”（将数据包从一个接口移动到另一个接口的任务）。就像计算机一样，通过更换网卡（NIC），路由器不仅可以支持以太网，也可以支持无线局域网。

路由选择

路由表是路由器中的一个表格，包含着可用的路由信息，包括目标网络地址和下一跳路由器的地址。当路由器接收到一个数据包时，会将数据包的目标 IP 地址与每一条路由表项的目的 IP 地址进行匹配。如果有多条匹配的路由表项，则选择最长的前缀匹配，并将数据包转发到该前缀所对应的网络。

最长的前缀匹配指的是，路由表项中目的 IP 地址的子网掩码位数最长的项。例如，路由表中有以下三条路由表项：
10.0.0.0/8
10.1.0.0/16
0.0.0.0/0
当路由器收到一个目标 IP 地址为 10.1.2.3 的数据包时，会先与第二个路由表项（10.1.0.0/16）进行匹配，因为它的前缀长度更长（16 位）比第一个路由表项（8 位）更精确。因此，路由器会将数据包转发到与第二个路由表项对应的下一跳路由器。

路由器拥有内网的 IP 路由表，同时还拥有一条神奇的路由 0.0.0.0/0。0.0.0.0/0 路由是一种默认路由，也称为默认网关或缺省路由。它指示路由器在找不到更具体的路由表项来匹配目标 IP 地址时，将数据包发送到默认网关，最终到达核心网。

路由器有一个非常独立的控制体系。先有控制层面，再有数据层面。先有控制层面，才会知道一个一个网络怎么走，知道网络怎么走之后，再基于数据层面，接收数据，查读路由表，来进行数据转发。路由表的构建方式有以下几种方式：

直连路由：路由器会扫描每个接口，确定网络地址和掩码，并将其添加到路由表中。
静态路由：管理员可以手动配置静态路由信息，包括目标网络地址和下一跳路由器的地址。
动态路由协议：路由器可以使用动态路由协议来动态学习路由信息。常见的动态路由协议包括 OSPF、BGP、RIP 等。

分组转发

接收到的数据包由链路层协议控制器处理，该控制器处理物理链路（电缆）上使用的链路层协议，会检查接收到的帧的完整性（大小、校验和、地址等）。有效帧通过去除链路层报头（解封）转换为数据包，并在接收队列中排队。这通常是一个先进先出 (FIFO) 队列，通常采用内存缓冲区环的形式。

每个传出数据包都需要添加一个新的链路层协议报头（封装），并将目标地址设置为下一个接收数据包的系统。链路协议控制器还维护与接口相关的 硬件地址表。 通常涉及使用地址解析协议 ( ARP) 找出直接连接到同一电缆（或 LAN ）的其他计算机或路由器的硬件（MAC 地址). 数据包最终使用媒体接口发送，硬件地址设置为下一跳系统。

TTL

为了确保 IP 数据包在网络上具有有限的生存期，所有 IP 数据包都有一个 8 位的 TTL（IPv4）或 Hop Limit（IPv6）报头字段和值，当一个路由器接收到一个数据包时，它会将 TTL 或 Hop Limit 减 1，然后再将数据包转发到下一个路由器。如果 TTL 或 Hop Limit 的值减少到 0，路由器将丢弃数据包并向源主机发送 ICMP 错误消息，通知它数据包已经超时。

交换机

MAC 地址是硬件地址，与设备的网卡绑定，二层交换机通过学习连接的每个终端的 MAC 地址，将数据发送给对应的目的终端上，避免将数据发送到无关端口，提供了网络利用率。下次再遇到相同的 MAC 地址时，可以直接从缓存中获取对应的端口信息。

另外一种情况，由于广播域（二层互通）的存在，每个设备都能够直接访问到同一广播域内的所有其他设备。如果是没有学习到的 MAC 地址，或者想跟网段内所有终端进行通信，交换机会使用广播方式，将数据帧进行泛洪，无需对目标设备进行地址解析和寻址，可以更快速地定位和转发数据包。然后只有相应的接收者才接收包，而其他设备则会忽略这个包。

举例，有三台电脑连接同一台交换机，计算机的 MAC 地址简化为 AAA、BBB 和 CCC。现在，假设计算机 A 要向计算机 B 发送一些信息：
交换机将建立一个 MAC 地址表，并且只从源 MAC 地址中学习。此时，它刚刚得知计算机 A 的 MAC 地址在接口 1 上。它现在将在其 MAC 地址表中添加此信息。但交换机目前没有计算机 B 所在位置的信息。因此只能将此帧从其所有除来源之外的接口中洪泛出来。计算机 B 和计算机 C 将接收该以太网帧。
由于计算机 B 将其 MAC 地址视为该以太网帧的目的地，它知道它是为他准备的，计算机 C 将丢弃它。计算机 B 将响应计算机 A，构建一个以太网帧并将其发送给交换机。此时，交换机将学习计算机 B 的 MAC 地址。

VLAN

当同一个交换机下主机越来越多，网络规模越大，广播域就越大，泛洪流量也越来越大，降低通信效率。在一个广播域内的任意两台主机之间可以任意通信，通信数据有被窃取的风险。

有两种方案可以解决这个问题：

物理隔离：使用更多的交换机，配置为不同的子网
逻辑隔离：即，VLAN，使用交换机虚拟出来多个子网

对于分布在不同交换机之下同一个 VLAN 的主机如何互达呢？对于支持 VLAN 的交换机，有一种口叫作 Trunk 口。它可以转发属于任何 VLAN 的口。交换机之间可以通过这种口相互连接，即可保证同一个 VLAN 互达。

三层交换机

二层交换机通过使用 VLAN 分隔广播域，位于同一个 VLAN 下的终端才能进行数据帧交互。对于不同 VLAN 的终端有通信需求时，就必须使用路由功能，也就是需要额外添加路由器。二层交换机和路由器组合使用，才能完成跨 VLAN 的通信。基于类似的需求，三层交换机应运而生。使用三层交换机就不需要其它网络设备，能够直接完成不同 VLAN 之间的通信。

集线器

集线器工作在物理层，以太网 LAN 的一种中继器形式，具有多个端口（它们有时也称为“多端口中继器”或“活动星形网络”）。

每个端口（或接口）允许一台设备连接到集线器。通过端口 F 连接的系统正在向端口 C 连接的系统发送一帧数据。集线器由于工作于物理层，无法识别帧头中的地址，因此无法识别要发送到哪个端口到。因此，采用“广播模式”，每一帧都被发送到每个输出端口，然后让主机来判断是否需要。

简单测试

举例来源：《Wireshark 网络分析就这么简单》

两台服务器 A 和 B 的网络配置如下图，B 的子网掩码本应该是 255.255.255.0，被不小心配成了 255.255.255.224。它们还能正常通信吗？

答案 1：“A 和 B 不能通信，因为……如果这样都行的话，子网掩码还有什么用？”（这位的反证法听上去很有道理！）
答案 2：“A 和 B 能通信，因为它们可以通过 ARP 广播获得对方的 MAC 地址。”（那子网掩码还有什么用？楼上的反证法用来反驳这位正好。）
答案 3：“A 和 B 能通信，但所有包都要通过默认网关 192.168.26.2 转发。”（请问这么复杂的结果你是怎么想到的？）
答案 4：“A 和 B 不能通信，因为 ARP 不能跨子网。”（这个答案听上去真像是经过认真思考的。）

以上哪个答案是正确的？还是都不正确？如果这是你第一次听到这道题，不妨停下来思考一下。

答案揭晓：B 先把请求交给默认网关，默认网关再转发给 A。而 A 收到请求后直接回复给 B，形成如下所示的三角形环路。不知道你答对了吗？

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/03-19-2023/network-device-and-concept.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

如何使用 Redis 存储对象

2023-03-11T16:00:00.000Z

作者序
本文是一篇 AI 辅助创作的内容。作者的工作内容发生一些的变化，开始转变为不断提出问题、丰富和拓展内容、编辑校研内容。
毫无疑问，“AI 辅助” 将变革当前的工作方式，未来已来。

在如何设计 RPC 接口中讲到一个观点：

资源在用户侧以 hyper media 存在；资源流到服务中以对象来组织；资源落到存储里就变成了id + content。索引 content 的 id，一般又以 单个 和 集合 的形态存在，具体到数据库中，id 以聚簇索引存在，content 以聚簇索引叶节点存在
越来越多的产品按照先获取 id 再读取 content 来访问资源

Redis 是一个高效的键值存储数据库，可以用来存储对象(Content)。在 Redis 中，可以使用 String 和 Hash 来存储对象。在生产环境经常看到不少的误用，导致低效的空间利用率、存取性能、以及可靠性。怎么存就决定了怎么取，Redis 数据结构选择也能见方案设计者的设计功力。

在实际的应用场景中，常见的使用方式有以下三种：

JSON + String

JSON 是一种轻量级的数据交换格式，常用于前后端之间的数据传输。Redis 中可以存储 JSON 对象，通常使用字符串类型（string）来存储 JSON 数据。将 JSON 对象序列化成字符串并将其存储在 Redis 中，然后在需要时将其反序列化回 JSON 对象。

优点：

JSON 对象的结构清晰易读，易于维护和理解。
JSON 对象可跨多个语言和平台使用，具有很好的兼容性。
Redis 中的字符串类型是 Redis 支持的最基本的数据类型之一，具有高效的读写性能。

缺点：

JSON 对象存储为字符串类型可能会占用更多的存储空间（注：相比数值）。
JSON 对象存储为字符串类型需要手动进行序列化和反序列化，可能会增加代码复杂度和运行时间。

备注： JSON 也可以替换成 Protobuf，性能更好，成本更低，思路一致。

Multiple String

多个字符串（multiple string）是指将一个对象的多个属性分别存储在 Redis 中不同的字符串键值对中。例如，将一个用户对象的用户名、邮箱、密码等属性存储在不同的 Redis 字符串中。

优点：

可以根据需要轻松地读取或更新对象的某些属性，而无需读取或更新整个对象。
不同的属性可以使用不同的 Redis 命令（如 GET、SET、INCR 等）进行操作，具有更高的灵活性。

缺点：

对于包含多个属性的对象，可能会需要在 Redis 中存储大量的键值对，增加存储开销。
多个字符串可能存放在不同的分片，同时读取时可用性更差。
如果需要同时读取或更新对象的多个属性，可能需要进行多个 Redis 操作，增加网络延迟和代码复杂度。

Hash

哈希（hash）是 Redis 中的一种特殊数据类型，可以将一个对象存储为一个 Redis 哈希，其中对象的属性存储为哈希的字段，属性的值存储为哈希的值。例如，将一个用户对象存储为 Redis 哈希，其中用户名、邮箱和密码是哈希的字段，相应的值是哈希的值。

优点：

与多个字符串相比，使用哈希可以更轻松地管理对象的属性，因为所有属性都存储在单个 Redis 键值对中。
可以使用 Redis 提供的丰富的哈希命令（如 HSET、HGET、HINCRBY 等）对对象进行操作。

缺点：

对于包含大量属性的对象，Redis 中的哈希可能会占用更多的存储空间。
如果需要同时读取或更新对象的多个属性，可能需要进行多个 Redis 操作，增加网络延迟和代码复杂度。

空间与性能

除了需求，考虑存储空间和存取性能

对于存储空间而言，可以根据具体的数据结构来选择最合适的存储方式。如果数据结构比较简单，使用 JSON+String 可能是比较好的选择，因为 JSON 格式可以非常紧凑，而字符串类型也是 Redis 支持的最基本的数据类型之一，占用的空间比较小。如果数据结构比较复杂，可以考虑使用哈希来存储对象，因为哈希可以将多个属性存储在同一个键值对中，相比于多个字符串，可以减少存储空间的占用。

对于存取性能而言，可以根据具体的应用场景来选择最合适的存储方式。如果需要快速地读取或更新对象的某些属性，可以考虑使用多个字符串或哈希，因为这些方式可以通过对单个属性进行操作来实现，相比于读取或更新整个对象，可以减少网络延迟和代码复杂度。如果需要快速地读取或更新整个对象，可以考虑使用 JSON+String，因为这种方式可以将整个对象序列化成一个字符串，只需要一次读取或更新操作即可。具体来说，三者读取一个对象的性能数据基本等价于 “GET/SET key vs HMGET/HMSET key field [field …] vs Opt(Pipline GET/SET, MGET/MSET) key [key …]“。

总结

总体而言，JSON+String、Multiple String 和 Hash 都是在 Redis 中存储对象的有效方式，具体使用哪种方式取决于数据的结构和应用场景。如果数据结构简单，且需要跨多个语言和平台使用，那么使用 JSON+String 可能是比较好的选择。如果需要更灵活地管理对象的属性，或者需要根据需要读取或更新对象的某些属性，那么使用多个字符串或哈希可能更适合。在实际使用中，可以根据具体的数据结构和应用场景选择最适合的方式。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/03-12-2023/how-to-store-objects-in-redis.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

系统为何如此脆弱

2023-03-11T16:00:00.000Z

积木可以帮助儿童培养创造力和空间想象力，也可以被用来帮助人们理解系统稳定性的概念。

在系统稳定性中，积木可以被视为一个模型，代表系统的组成部分。每个组成部分都会相互影响，从而影响整个系统的稳定性。就像在积木塔中，每个积木都要与其它积木相互连接，以确保整个积木塔的稳定性。如果其中一个积木被移动或摇晃，可能会导致整个积木塔崩塌。

脆弱性来源

一个系统的脆弱性取决于其在面对外部压力或内部故障时能否维持其功能或性能，影响系统脆弱的因素包括：

单点故障：如果一个系统的某个关键部件出现故障，整个系统可能会受到影响。如果系统没有设计良好的冗余机制或备用部件，就可能会导致系统崩溃。
缺乏弹性：系统的弹性是指它在受到压力或负载变化时能否适应和调整。如果系统缺乏弹性，就可能会因为某个部分的失效或超负荷而崩溃。

当资源使用率都处在低位，或者请求量保持在处理能力之下，流量再大无非面多加水，水多加面；当机器全新或在保，硬件故障频率保持在低位；环境宽松，会有一种错觉：怎么做都是对的。当需要缩容提升资源使用率，请求延迟毛刺让你无从下手；当每季度数台机器硬件故障，让你疯狂救火；就会倒逼产品在可用性方面下硬功夫。

接下来的部分以 Redis 架构来说明，技术决策是如何影响系统可用性的

请求扇出

在 Codis 架构下，所有的数据按照 Key 对数据进行分片，每个分片提供一部分数据的访问能力。每个 Cmd 无论 Key 数量多少，都只能请求一个分片。整体架构如下：

实际情况是，用户的一次请求所需要的数据，可能会存储在多个分片内，譬如：搜索结果页。

为了满足类似需要，国内云厂商的 Redis 提供了跨分片请求的功能，以降低复杂度、吸引用户。当一个 MGET 的多 Key 请求发送到 Proxy 之后，由 Proxy 实现多个分片的命令拆分、聚合运算。整体架构如下：

单点故障

客户收获了自由，可以放飞自我。不用考虑请求跨多少分片，一次性 MGET 数百 Key 稀松平常；云厂商吸引了用户，财报靓丽。

突然有一天，有一个分片的机器降频了，处理能力大幅下降，请求量超过了分片处理能力；紧接着请求在 Proxy 大量堆积，一个分片开始超时报错；再接着业务发起大量重试，其他分片也因为重试导致带来的额外压力而积压。最终整个集群雪崩，业务整体崩溃。

聪明的朋友可能会有疑问：一个分片失败，只重试失败的分片不就可以了，为何还要重试其他已经成功的分片？

你抓住了重点，Proxy 能否支持部分失败呢？

答案是：可以。

Redis 刚开始是没有集群模式的，即使是 Redis Cluster 也是不支持跨 Slot 请求的，因此每次请求都只有两种结果：成功、失败。

完美支持“部分失败”需要依赖 RESP 协议、SDK、业务代码的支持，如此一来整体使用复杂度与自行分片请求已所差无几。

RESP：

RESP Arrays are sent using the following format:- A `*` character as the first byte, followed by the number of elements in the array as a decimal number, followed by CRLF.- An additional RESP type for every element of the Array.

SDK：

// https://github.com/redis/go-redisfunc (r *Reader) readSlice(line []byte) ([]interface{}, error) {n, err := replyLen(line)if err != nil {return nil, err}val := make([]interface{}, n)for i := 0; i < len(val); i++ {v, err := r.ReadReply()if err != nil {if err == Nil {val[i] = nilcontinue}// 正确处理if err, ok := err.(RedisError); ok {val[i] = errcontinue}return nil, err}val[i] = v}return val, nil}

业务代码：

   // 定义要查询的key数组   keys := []string{"key1", "key2", "key3"}   // 使用MGET命令获取多个key对应的value值   values, err := client.MGet(keys...).Result()   if err != nil {       return fmt.Errorf("redis request failed:%s", v)   }   // 输出结果   for _, val := range values {    strVal, ok := v.(string)  // 结果类型判断，避免类型强转导致 Panicif !ok {return fmt.Errorf("invalid redis response type:%s", v)}       fmt.Printf("key:%s, value:%v\n", keys[i], strVal)   }// 手动重试失败的 Key ...

扇出数量

在扇出的情况下，不同类型的 RPC 请求对于服务的影响巨大。Unary RPC 需要等待所有扇出请求全部返回，重组完毕才能一次性返回给主调方。

当 Proxy 接收的请求数没有变化的前提下，不同大小的 Key 数量，最终会得到不一样的扇出数。切分和重组并非是无代价的，都需要额外的计算资源，导致 Proxy 的 CPU 使用率尖峰；Proxy 请求的整体响应耗时就取决于耗时最长的扇出请求，而该扇出请求的耗时又受 Key 数量的影响。以 MGET 1000 个 Key 为例，可能会切分成：

1）1000 个 Slots，每 Cmd 1 个 Key，并发请求 1000 个 Slots 的Redis 节点
2）1 个 Slot，该 Cmd 1000 个 Key
3）10 个 Slots，每 Cmd 100 个 Key，并发请求 1 个 Redis 节点，Redis 顺序执行

首先，情况 1）的概率最大：

Redis Cluster 的固定槽位数量 “16384”，1000 有着数量级上的差距，因此在不使用 Hashtag 的情况下基本是分布在不同的 Slots。 扇出暴增，将导致 Proxy 网络IO和内存的使用量急剧增加。

其次，情况 2）请求的 Key 最终落到同一 Slot。在正常的业务情况下，每次请求的 Key 数量一般会符合正态分布，请求的数量一般分布在一定的区间。

假设请求 Key 数量的中位数为 75 个 Key，Key 数量可能会有如下分布：

10% 的请求为 1～50 个 Key；
80% 的请求为 50～100 个 Key；
9% 的请求为 100～200 个 Key；
1% 的请求为 200～1000 个 Key；

Redis 服务器在处理 1% 的请求时就会出现阻塞，从而影响其他 99% 的请求延迟。整体效果如下：

根据具体情况，选择合适的批量操作方式（比如分批次获取）以及使用 Redis 的 pipelining 技术等，就可以避免阻塞得到更稳定的服务：

总结

针对 Redis 的场景，Redis 官方博客提供了一些建议，包括：

认真考虑 Key 空间。Key 是否有共同的特征，可以以智能的方式（按用户、按操作、按时间等）切分负载。使用 hashtag 将 Key 巧妙地分配到哈希槽。
评估 MULTI/EXEC 事务。看看您是否真的需要交易，或者管道是否可以。不要忘记考虑多键命令以及它们是否可以被多个命令替换。

针对所有场景，一次用户请求响应的过程，其实就是数据读取、计算、展示的过程。请求精细划分，可以把计算从在线转移到离线；从读取转移到写入，一次计算，次次读取。简单来说，怎么存就决定了怎么取。

读取的数据确定、展示的样式确定，计算的复杂度不会消失不见。如果只是将计算从业务系统，转移到基础架构(从北向服务转移到南向服务)；从无状态服务转移到有状态服务。实现方案简单了，系统也脆弱了。

万事皆有缘由，世事岂无因果。

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/03-12-2023/why-is-the-system-so-fragile.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！

有疑说

Flame Graph 机制小结

什么是火焰图？

经典火焰图原理

Off-CPU 火焰图原理

Broken stack

火焰图的局限

译｜Linux Page Cache mini book

SRE 深入理解 Linux Page Cache

准备实验环境

Arch Linux 配置

Page Cache 关键原理

读取请求

写入请求

Page Cache 和基本文件操作

文件读取

使用 read() 系统调用读取文件

使用 mmap() 系统调用读取文件

文件写入

使用 write() 系统调用写入

使用 mmap() 系统调用写入

脏页

使用 fsync()、fdatasync() 和 msync() 同步文件更改

使用 mincore() 检查 Page Cache 中的文件存在

Page Cache 驱逐与回收

理论

使用 POSIX_FADV_DONTNEED 手动驱逐页

让内存不可驱逐

Page Cache、vm.swappiness 和现代内核

通过 /proc/pid/pagemap 理解内存回收过程

page-types 内核页工具

编写 Page Cache LRU 监控工具

关于 mmap() 文件访问的更多信息

mmap() 概述

什么是缺页中断？

微妙的 MADV_DONT_NEED mmap() 特性

Cgroup v2 和 Page Cache

概述

内存 cgroup 文件

压力阻塞信息 (PSI)

写回和 IO

内存和 IO cgroup 所有权

安全的临时任务

我的程序使用了多少内存或工作集大小的故事

一切都关乎谁重要，或独一无二的集合大小的故事

空闲页和工作集大小

使用压力阻塞信息（PSI）计算内存限制

… 那么写回又如何呢？

直接 IO (DIO)（NOT READY）

为什么它很好

为什么它不好，需要 io_uring 替代方案

高级 Page Cache 可观察性和故障排除工具

eBPF 工具

写回监控

Page Cache Top

缓存统计信息

bpftrace 和 kfunc 跟踪

Perf 工具

Redis 延迟毛刺问题定位-软中断篇

背景

问题定位

缩小范围

调用链路分析

问题复盘

MTR 原理

RSS 硬件多队列

RPS 软件多队列

主机丢包环节

总结

译｜IOCost: Block IO Control for Containers in Datacenters

摘要

CCS 概念

关键词

1. 引言

2. 背景

2.1 使用 cgroup 进行资源控制

2.2 块层和 IO 控制

2.3 硬件和工作负载异构性

3. IOCost 设计

3.1 概述

使用 `read()` 系统调用读取文件

使用 `mmap()` 系统调用读取文件

使用 `write()` 系统调用写入

使用 `mmap()` 系统调用写入

使用 `fsync()`、`fdatasync()` 和 `msync()` 同步文件更改

使用 `mincore()` 检查 Page Cache 中的文件存在

使用 `POSIX_FADV_DONTNEED` 手动驱逐页

Page Cache、`vm.swappiness` 和现代内核

通过 `/proc/pid/pagemap` 理解内存回收过程

`page-types` 内核页工具

关于 `mmap()` 文件访问的更多信息

`mmap()` 概述

微妙的 `MADV_DONT_NEED` `mmap()` 特性

为什么它不好，需要 `io_uring` 替代方案

`bpftrace` 和 `kfunc` 跟踪