英特尔在今年5月发布了一款可扩展且易于存取的工作站级至强平台,代号“Project Battlematrix,”帮助AI开发者解决其所面临的难题。其支持最多八块锐炫Pro B60 24GB显卡,实现多卡并行,拥有高达192GB的显存,可运行高达1500亿参数的中等规模且精度高的AI模型。英特尔希望通过简化设计,搭配经过优化的最新推理软件,加速其GPU与AI战略。

打开网易新闻 查看精彩图片

近日英特尔分享了LLM Scaler container 1.0版本的最新进展,对于早期客户的支持至关重要,其中包括:

vLLM优化

  • 针对长输入长度(>4K)的TPOP性能优化 - 在32B KPI模型上,40K序列长度的效能提升高达1.8倍;在70B KPI模型上,40K序列长度的效能提升高达4.2倍。

  • 相比于上次发布,进行了性能优化,8B-32B KPI模型的输出吞吐量提升约10%。

  • 逐层在线量化,以减少所需的显存。

  • vLLM中的PP(pipeline parallelism)支持(实验性)。

  • torch.compile(实验性)。

  • 推测译码(实验性)。

  • 支持嵌入、重新排序模型。

  • 增强的多模态模型支持。

  • 最大长度自动检测。

  • 数据平行支持。

OneCCL 基准测试工具启用

XPU管理员

  • GPU功耗

  • GPU固件更新

  • GPU诊断

  • GPU显存带宽

英特尔计划在今年第三季度末推出LLM Scaler的强化版本,并新增额外功能,预计第四季度发布完整的功能集。