我将 Linux 页大小从 4KB 改为 2MB，结果性能彻底翻车了！|kb|linux|mb|内存|固态硬盘|翻译|翻车|速度

先抛结论： 2MB 大页绝对不是 Linux 性能万能良药，盲目替换默认 4KB 页，大概率只会翻车，不会提速。做后端和运维的朋友应该都听过这个性能玄学：开大页、配置 HugePage，减少 TLB 缺页中断，系统性能就能直接起飞。这套优化话术听起来性价比拉满，操作简单、收益直观，很难不让人动心。

我前段时间做线上服务器性能优化时，也脑子一热轻信了这套方案，直接将系统默认的 4KB 标准内存页，全盘替换成了 2MB 大页。本以为改造完成后接口 QPS 会大幅上涨，请求延迟持续走低，可上线之后直接现场翻车：服务器 CPU 软中断一路飙升，线上接口随机抖动愈发严重，整机内存占用直接暴涨 30%，服务整体性能不升反降，线上业务直接崩盘。我连夜紧急回滚配置、抓取系统栈信息、逐项排查内核内存参数，足足折腾了一整天，才彻底摸清背后底层逻辑：大页的性能优势极度依赖业务场景，市面上绝大多数常规线上业务，保持系统默认 4KB 小页，才是最稳妥、性能最优的选择。

为什么大家都说大页能提性能？

大页提升性能的本质只有一个：极大减少内存地址翻译开销，大幅提高 TLB 命中率。

CPU 访问内存必须经过虚拟地址 → 物理地址的翻译，这个翻译工作由 MMU 硬件完成，而翻译的速度完全依赖TLB（页表缓存）。TLB 是 CPU 内部高速硬件缓存，速度极快，但容量非常小。

Linux 默认使用4KB 标准页，在大内存进程（如数据库、JVM、DPDK）中会出现两个致命问题：

页表条目太多：1GB 内存就需要 26 万多条页表项
TLB 容量极小，装不下大量页表，导致 TLB Miss 频繁爆发；一旦 TLB 未命中，CPU 必须逐级遍历内存中的四级页表完成翻译，这个过程会消耗几十倍时钟周期，导致 CPU 空转、业务延迟上升、吞吐量下降。

而使用2MB 大页后：

单页覆盖内存扩大 512 倍
同样 1GB 内存只需要 512 个页表项
页表数量暴跌，TLB 命中率接近 100%
几乎不再出现 TLB Miss，地址翻译几乎零开销

这就是大页能显著提升性能的底层原因。不理解大页，请参考这篇《读懂 HugePage，搞定 Linux 内存性能优化》

Linux 默认使用的是4KB 标准内存页，而大页最常见的大小是2MB，这两者之间的差距不是一点点，而是512 倍，这种巨大的差距直接决定了内存访问速度、CPU 效率和系统整体性能。

首先，内存页的作用是用来划分物理内存的最小单位，操作系统和 CPU 都是以 “页” 为单位来管理内存的。页的大小越小，管理同样大小的内存所需要的 “页码” 数量就越多；页越大，所需要的页码数量就越少。

我们以最常见的1GB 内存为例做直观对比，就能立刻看出差距。使用 4KB 标准页时，1GB 内存需要被分割成 262144 个小页面，每一个页面都需要一个对应的页表条目来记录虚拟地址和物理地址的映射关系。这意味着仅仅管理 1GB 内存，内核就需要维护 26 万多条页表记录。而使用 2MB 大页时，同样是 1GB 内存，只需要 512 个页面就可以完全覆盖，页表条目数量直接从 26 万暴跌到 500 出头。

这种数量级的差异，会直接反映在 CPU 的 TLB 缓存上。TLB 是专门存放页表映射关系的高速缓存，它的空间极其有限，根本存不下 26 万条页表记录。在 4KB 页场景下，CPU 访问内存时会频繁发现 TLB 中没有需要的映射关系，也就是频繁发生 TLB Miss，此时 CPU 只能浪费大量时钟周期去内存里逐级查询页表。

换成 2MB 大页后，仅仅 512 条页表记录可以轻松被 TLB 全部缓存，TLB 命中率几乎达到 100%。CPU 每次访问内存都能直接从高速 TLB 中拿到物理地址，完全跳过了耗时的页表遍历过程，地址翻译的速度提升几十倍。

这种差距最终会体现在业务性能上，对于数据库、Redis、大数据组件这类长期占用几十 GB 甚至上百 GB 内存的服务，4KB 页会让 CPU 持续处于高 TLB 未命中状态，大量性能白白浪费在地址翻译上。而开启 2MB 大页后，CPU 可以把所有性能用在真正的业务计算上，服务延迟直接降低，吞吐量大幅提升，综合性能可以提升 10% 到 30%，极端场景下甚至能达到 3 到 4 倍。

#include
#include
#include
#include
#define SIZE(1UL << 30)// 分配 1GB 内存
// 获取当前微秒时间
longlongget_time_us{
struct timeval tv;
gettimeofday(&tv, );
return tv.tv_sec * 1000000LL + tv.tv_usec;
}
intmain{
// 使用 4KB 普通页分配内存
char* normal_mem = mmap(, SIZE, PROT_READ | PROT_WRITE,
MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
// 使用 2MB 大页分配内存
char* huge_mem = mmap(, SIZE, PROT_READ | PROT_WRITE,
MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB, -1, 0);
// 测试 4KB 页遍历速度
longlong start = get_time_us;
for (long i = 0; i < SIZE; i += 4096) {
normal_mem[i] = 1;
}
longlong time_normal = get_time_us - start;
// 测试 2MB 大页遍历速度
start = get_time_us;
for (long i = 0; i < SIZE; i += 2048*1024) {
huge_mem[i] = 1;
}
longlong time_huge = get_time_us - start;
printf("4KB 普通页遍历 1GB 内存耗时：%lld 微秒\n", time_normal);
printf("2MB 大页遍历 1GB 内存耗时：%lld 微秒\n", time_huge);
return0;
}

在开启大页的机器上运行，你会看到稳定的性能差距：

4KB 页：耗时很长，因为 TLB 大量未命中
2MB 大页：耗时极短，因为 TLB 几乎全部命中

这段代码直接证明：大页的核心优势就是降低 TLB 开销，从而大幅提升内存访问性能。

我的翻车操作：无脑替换 4KB→2MB

我曾在常规微服务集群中，盲目跟风将系统默认的 4KB 内存页统一替换为 2MB 大页，最终引发线上故障，这次经历也让我认清大页优化的适用边界。我的业务属于典型微服务场景，集群内接口数量多、整体 QPS 较高，每一次请求仅占用少量内存，内存读写行为细碎且调用十分频繁，整体呈现出小内存、高并发、碎片化访问的特征。

优化之前，服务器保持系统默认的 4KB 标准内存页运行，整机内存占用走势平稳，接口响应延迟也维持在稳定区间，仅在流量达到峰值时，会出现短暂的延迟小幅抖动，整体服务运行状态并无重大隐患。

之后我参考网络上的性能优化经验，得知大页能够降低 TLB 未命中次数、提升内存访问效率，便没有结合自身业务做场景评估，直接执行了一系列配置操作。首先关闭了系统的透明大页 THP，接着手动配置固定大小为 2MB 的静态大页，同时在系统中预留了大量大页专用内存，修改完成后重启服务使配置正式生效。

配置刚生效时，我通过系统监控命令查看硬件指标，发现 TLB 未命中的次数确实出现明显下降，单从这项指标来看优化已经见效，当时便误以为这次调优取得了成功。但实际运行不到十分钟，服务监控就陆续触发告警，线上接口出现大量超时、调用失败等问题，这次盲目优化最终彻底翻车。

想要理清故障根源，首先要理解不同尺寸内存页的分配规则与资源使用特点。Linux 系统以内存页作为内存管理的最小单位，4KB 标准页专门适配小块内存申请与碎片化访问，即便业务仅申请几百字节的内存，系统也只会分配一页 4KB 内存，资源浪费比例低，内存利用率可以得到保障。而 2MB 大页的分配规则完全不同，只要业务发起内存申请，无论实际需要的内存大小是多少，系统都会完整分配一整页 2MB 的物理内存，分配出去的大页无法拆分、切割，页面内未被使用的空间会直接闲置，形成严重的内部内存碎片。

结合我负责的微服务场景来看，高并发下会产生海量的小额内存申请，每一次细碎的内存调用都会占用一整页 2MB 大页。短时间内系统预先预留的大页资源就会被快速耗尽，整机内存占用量急剧飙升。同时静态大页还有一个关键特性，一旦分配给进程使用，就无法触发内存回收，也不能写入交换分区，当系统没有可用大页时，新的内存申请就会直接失败，进而导致服务报错、接口超时，甚至引发服务雪崩。为了更直观地体现这种差异，我用一段最贴近微服务真实内存行为的代码，来复现当时内存快速耗尽的过程，代码示例如下：

#include
#include
#include
// 微服务单次请求仅申请 1KB 小内存
#define REQ_MEM_SIZE 1024
intmain(void)
{
int alloc_cnt = 0;
// 循环高并发下频繁申请、释放内存的业务行为
while (1)
{
void *data_buf = malloc(REQ_MEM_SIZE);
if ( == data_buf)
{
printf("内存分配失败，可用大页已耗尽，服务异常\n");
break;
}
alloc_cnt++;
printf("第 %d 次申请 1KB 内存\n", alloc_cnt);
// 业务逻辑处理耗时
usleep(100);
// 业务执行完毕，释放内存
free(data_buf);
}
return0;
}

在默认 4KB 内存页的环境中运行这段代码，程序可以长时间稳定执行，内存增长平缓，不会出现分配失败的情况。切换为 2MB 静态大页后，程序依旧只是每次申请 1KB 内存，但系统会持续分配完整的 2MB 大页，内存资源被快速消耗，很快就会出现分配失败的提示，和当时线上服务的故障表现完全一致。

很多人会产生疑惑，既然 TLB 未命中次数明显减少，代表地址翻译效率提升，为什么业务性能反而变差。核心原因在于不同业务的性能瓶颈并不相同。在我的微服务场景中，业务瓶颈从来不是 CPU 地址翻译带来的开销，而是高频次的小额内存分配、释放，以及碎片化的内存读写。大页虽然优化了 TLB 相关指标，却放大了内存碎片问题，降低了内存利用率，还会拖慢小额内存的分配速度，多项负面问题叠加，最终掩盖了 TLB 优化带来的微小收益，直接造成服务故障。

通过这次踩坑我总结出明确的使用边界，2MB 大页并非通用的性能优化方案，它更适合数据库、缓存组件、高性能网络转发、大型计算任务这类场景，这类业务的特点是单次占用内存空间大、内存使用连续、内存生命周期长，大页带来的 TLB 优化收益可以充分发挥出来。而常规微服务、接口网关这类以小内存、碎片化访问为主的业务，更适配系统默认的 4KB 标准页，盲目更换大页只会得不偿失。

性能优化的核心始终是结合业务场景做选择，不能照搬通用优化方案。指标变好不代表业务体验变好，判断优化效果需要结合业务表现、资源使用率等多维度综合评估，单纯依靠单一硬件指标做决策，很容易出现优化翻车的情况。

翻车现场：换成 2MB 大页，性能全线走低

给大家看真实的线上异常指标，全部是改 2MB 大页后直接出现的问题，这些问题并不是偶然现象，而是大页机制在微服务这种碎片化访问场景下必然会触发的系统性副作用。

内存占用暴增 30% 以上，并且产生了极其严重的内部内存碎片，这是整个优化事故中最致命、最具破坏力的问题，也是绝大多数只看理论文章的人最容易忽略的大页天生短板。Linux 默认的 4KB 小页最大的优势就在于分配粒度足够精细，进程在业务运行中申请多少内存，内核就可以精准分配对应数量的页面，几乎不会产生无效的闲置空间，内存利用率能够保持在很高的水平。但 2MB 大页采用的是一刀切的大块分配模式，无论业务层申请的内存是 10KB 还是 100KB 这种极小的粒度，内核都必须直接分配一整块完整的 2MB 物理页面，无法进行任何形式的拆分或裁剪。

分配完成后，这一整块页面中没有被使用的空间会彻底处于闲置状态，既不能被其他进程复用，也不能被内核回收，这就是典型且难以缓解的大页内部碎片。我的业务恰好是大量小请求、高频小内存分配的微服务场景，每一次微小的内存申请都会独占一整个 2MB 大页，成千上万次请求叠加之后，内存资源被呈倍数浪费，整机内存使用率在短时间内被直接拉满，进而引发一系列连锁异常。

第二个核心问题是 CPU 缓存冲突急剧增加，基于 MESI 协议的缓存一致性开销出现爆炸式增长，直接拖慢了整个服务的并发处理能力。在多线程微服务架构中，多个工作线程会同时对内存进行频繁的读写操作，多核 CPU 之间必须依赖 MESI 协议保证缓存数据的一致性，而这个协议本身会在缓存冲突加剧时产生大量额外开销。4KB 小页因为粒度较小，不同线程操作的数据会自然分散在不同的物理页面中，彼此之间的干扰极低，缓存冲突概率很小。切换成 2MB 大页之后，大量线程的数据会被集中存放在同一个大页面内部，原本互不影响的内存操作开始频繁触发缓存失效，CPU 必须频繁进行总线同步和协商，线程之间的锁争抢概率大幅上升，最终表现为软中断数量增加、CPU 内核态占比持续升高，整体并发处理能力明显下降。

第三个问题是内存缺页延迟明显升高，直接导致接口长尾请求数量激增，严重影响用户体验。很多人对大页存在一个片面认知，认为大页一定能降低缺页开销，这个结论只适用于特定场景，并不具备通用性。大页确实可以通过减少页面总数降低总体缺页次数，但单次处理 2MB 大页缺页的耗时，要远远高于处理 4KB 小页的开销。不管是从磁盘加载数据、对内存页面进行清零初始化，还是执行页面合并相关操作，2MB 大页的处理成本都远高于普通小页。这种单次延迟的抬升，在微服务场景中会直接体现在接口延迟分布上，导致 P99、P999 这类长尾延迟指标直接翻倍，让用户感受到明显的卡顿和响应缓慢。

即便我已经关闭透明大页并手动配置了固定 2MB 大页，系统依然出现了不可控的抖动，根源在于内核自带的 khugepaged 合并线程仍在持续运行。这个内核线程会在后台不断扫描整个进程地址空间，尝试将分散的小页面合并为大页，以此满足透明大页机制的运行需求。页面合并的过程需要频繁对页表加锁并进行遍历扫描，在高并发微服务场景下，这种操作会带来严重的内核锁竞争，不断抢占业务线程的 CPU 资源，最终让系统出现周期性的性能抖动，这也是优化之后服务稳定性反而不如优化前的重要原因。

以下代码片段直接体现微服务高频小内存分配的典型逻辑，也是大页下内存暴增的真实源头：

// 真实业务代码：每次请求仅分配少量小对象内存
@PostMapping("/api/order")
public OrderResult createOrder(OrderRequest request){


 // 单次请求仅分配 KB 级别的小内存对象
OrderDetail detail = new OrderDetail;
OrderCacheItem cacheItem = new OrderCacheItem;
StatisticItem stat = new StatisticItem;
// 短暂处理后立即释放
detail = ;
cacheItem = ;
stat = ;
return result;
}

这段代码在 4KB 页下运行稳定高效，内存分配与释放完全适配系统默认粒度；但在 2MB 大页环境中，每一个小对象都会触发底层分配完整 2MB 页面，最终导致内存爆炸、性能全面恶化。

在找到性能恶化的原因后，首要任务就是尽快恢复系统性能，以保证项目的正常进行。最直接有效的方法就是将页大小回滚到原来的 4KB 配置；回滚过程同样需要谨慎操作。首先，再次编辑/etc/sysctl.conf文件，将之前设置的大页内存相关参数改回默认值：

# 将大页数量设置为 0，禁用大页内存
vm.nr_hugepages = 0
# 注释掉 vm.hugepagesz 参数，使其恢复默认的 4KB 页大小
# vm.hugepagesz = 2MB

修改完成后，执行 sudo sysctl -p 命令，让系统重新加载这些修改后的内核参数。接下来，卸载大页文件系统，执行命令 sudo umount /dev/hugepages ，解除大页文件系统与/dev/hugepages 目录的挂载关系。最后，再次重启系统，确保所有的配置更改都能完全生效。

当系统重启后，我迫不及待地再次进行性能测试。令人欣慰的是，系统的平均响应时间迅速下降到了接近原来的水平，大约在 550 毫秒左右；吞吐量也大幅回升，每秒能够处理 900 多条数据记录，基本恢复到了修改页大小之前的性能状态。在实际业务场景中，数据加载和预处理时间也回到了正常的 2 - 3 分钟，复杂数据分析操作的卡顿现象消失，系统运行流畅，整个项目终于摆脱了性能瓶颈的困扰，回到了正常的推进轨道上。

彻底复盘：4KB 与 2MB 大页的核心取舍

这次线上踩坑经历之后，我彻底打破了大页性能一定更优的固有认知，梳理出内存页尺寸选择背后的内核权衡逻辑，页大小的选择本质是根据业务特征做能力匹配，不存在绝对的优劣之分。

系统默认的 4KB 标准小页，核心优势在于使用灵活、整体表现均衡，能够适配线上绝大多数常规业务场景。4KB 页面划分的内存粒度足够精细，业务无论申请多大的小块内存，内核都可以按需分配对应数量的页面，运行过程中几乎不会产生内部碎片，整机内存利用率可以维持在较高水平。同时细小的页面划分方式，会让不同线程操作的数据自然分散在不同页面中，页面间读写冲突概率很低，对多线程并发运行十分友好。当触发缺页异常时，4KB 页面的加载、初始化成本都很低，单次缺页带来的延迟极小，能够保障接口长尾延迟始终处于稳定状态。综合这些特性，4KB 小页非常适合微服务集群、Web 应用、API 接口服务这类以碎片化读写为主的业务，也完全可以满足普通后台服务的运行需求。

2MB 大页的核心价值集中在 TLB 地址翻译环节，优势仅体现在重度内存使用的特殊场景当中。使用 2MB 大页后，同等大小的内存空间对应的页表条目数量会大幅缩减，CPU 的 TLB 缓存可以轻松容纳全部映射关系，TLB 命中率得到显著提升，大规模连续内存访问时，地址翻译带来的性能开销会被降到最低。但这些优势的发挥有明确前提，它只适配进程长期占用大块连续内存的业务形态，典型场景包含数据库、分布式缓存、大数据计算、高性能计算集群、DPDK 网络转发以及音视频编解码服务。

结合两次实践与原理分析可以总结出清晰的选型原则，业务以连续大块内存访问为主，就选择 2MB 大页发挥 TLB 优化的价值；业务以碎片化小内存访问为主，就沿用系统默认的 4KB 小页保障稳定性与资源利用率。单纯脱离实际业务场景，盲目判定某一种页大小性能更好，或是跟风套用优化方案，最终只会造成服务性能全面下滑，这样的调优行为本身没有实际意义。

做 Linux 性能优化这么久，越来越明白一个道理：所有性能参数都是 trade-off，没有万能的优化，只有适配场景的优化。

end

如果这篇文章对你有所启发，欢迎点赞、在看，转发三连。星标⭐账号，还可以第一时间收到推送，感谢你的收看，我们下期再见～

☑ 【专栏模块】嵌入式Linux

☑ 【专栏模块】性能优化

☑ 【专栏模块】面试八股文

☑ 【专栏模块】项目实战

☑ 【硬核干货】缺了这些，别说你懂 Linux内核

☑ 【硬核干货】缺了这些，别说你懂 Linux C/C++

☑ 【学习思维导图】 Linux内核源码自主学习路线