打开网易新闻 查看精彩图片

2024 年 12 月 30 日获悉,腾讯云操作系统(Tencent OS)内核团队在 Linux 社区默默提交的两项改进,成功解决了自 2021 年以来一直困扰着一线厂商,并在近期让多个 Linux 顶级 Maintainer(软件维护者)困惑的关键内核bug。

这一改进方案最终被合并进入后续的 Linux LTS(Long-term support) 版本中,并获得了 Linux 之父 Linus Torvalds 的高度评价。

打开网易新闻 查看精彩图片

Linus:“不明,觉赞”

大约两个月前,Linux 社区中的一封邮件引起了广泛关注。

其内容主要是,自 2021 年 12 月起,Linux 内核中启用了 Large folio 特性(能够提升系统访存性能)的 XFS 文件系统用户(但不仅限于 XFS)有概率遭遇缓存损毁导致的宕机问题。该问题受到了社区的高度重视。

XFS 是最常见的 Linux 文件系统之一,在常见的 Linux 使用场景中,如服务器、桌面等,XFS 被作为主力文件系统大量采用。

尽管该 bug 较难触发,但其潜在风险仍然让社区和各大厂商感到不安。

Meta 和 Cloudflare 等公司甚至不得不暂时禁用 XFS 的 Large folio 特性以确保系统稳定。

一个多星期的讨论中,大家迟迟没有捕捉到 bug 所引发的具体位置或线索,只是确认 bug 确实存在而且亟需修复。

几位顶级 Maintainer,以及 Linus Torvalds 本人也参与进入讨论。

社区在广泛排查的过程中,突然发现这个问题在新的 Linux 内核版本中已经不复存在。

进一步的调查发现,这一变化归功于腾讯云操作系统内核团队在今年 4 月提交的两项改进。

原来,腾讯云操作系统内核团队在进行操作系统性能优化研发时发现,操作系统内核使用 XArray(内核中用于处理广范围地址索引结构的基数树处理库)管理 Page Cache(页面缓存)时,会因 XArray 在分配内存时没有考虑好并发修改的问题,导致分配的内存指针可能指向错误的数据,对外表现为 XFS 与其他引入了 Large Folio 特性的文件系统均有概率出现卡死宕机甚至数据丢失的情况。

针对这一问题,腾讯云操作系统内核团队在优化 Page Cache 对 Xarray 的使用上,引入了一个新的辅助函数,简化了 Xarray 的中 Large Folio 的插入算法,并进一步梳理和修复了内存分配的并发处理,确保了即使在多线程环境下,内存分配和释放也能正确进行。这些改动不仅修复了数据损坏的问题,还提升了操作系统系统的性能。

经历了数个星期的讨论与分析后,这些改动被社区认为是最佳的修复方案。

如今,这一修复方案已经被合入了最新的操作系统版本中,为这一问题画上了句号。同时,方案也极大提升了大文件在 Page Cache 中的读入性能,数以十亿计运行 Linux 的设备,都会因此快一点。

除了这次贡献外,腾讯云操作系统内核团队近年来通过与社区的紧密合作,在 swap(交换空间)、memory cgroup(内存控制组)、页面与热度管理等方面持续进行技术创新,不断提升 Linux 内核的性能和稳定性,助力操作系统技术发展。

目前,腾讯云也开发了自研的服务器操作系统版本TencentOS Server,装机规模超过1000万套,除了支撑腾讯自研的国民级应用,也广泛服务了互联网、金融、政务、工业、能源、交通等行业客户。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片