英特尔“Project Battlematrix”软件更新：优化AI推理性能

超能网

2025-08-14 18:55 ·广东

英特尔在今年5月发布了一款可扩展且易于存取的工作站级至强平台，代号“Project Battlematrix，”帮助AI开发者解决其所面临的难题。其支持最多八块锐炫Pro B60 24GB显卡，实现多卡并行，拥有高达192GB的显存，可运行高达1500亿参数的中等规模且精度高的AI模型。英特尔希望通过简化设计，搭配经过优化的最新推理软件，加速其GPU与AI战略。

近日英特尔分享了LLM Scaler container 1.0版本的最新进展，对于早期客户的支持至关重要，其中包括：

vLLM优化

针对长输入长度（>4K）的TPOP性能优化 - 在32B KPI模型上，40K序列长度的效能提升高达1.8倍；在70B KPI模型上，40K序列长度的效能提升高达4.2倍。
相比于上次发布，进行了性能优化，8B-32B KPI模型的输出吞吐量提升约10%。
逐层在线量化，以减少所需的显存。
vLLM中的PP（pipeline parallelism）支持（实验性）。
torch.compile（实验性）。
推测译码（实验性）。
支持嵌入、重新排序模型。
增强的多模态模型支持。
最大长度自动检测。
数据平行支持。

OneCCL 基准测试工具启用

XPU管理员

GPU功耗
GPU固件更新
GPU诊断
GPU显存带宽

英特尔计划在今年第三季度末推出LLM Scaler的强化版本，并新增额外功能，预计第四季度发布完整的功能集。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴