新 闻1:摩 尔线程 Linux 显卡驱动 v3.0.0 发布:架构全面革新,支持 Wayland 协议

摩尔线程今日宣布推出 Linux 驱动程序 v3.0.0,全面支持图形显卡 MTT S80 和高性能专业显卡 MTT X300

作为 v2.7.0RC4 之后的重大升级版本,本次更新实现了多项关键技术突破:

  • 在架构层面,升级底层任务调度系统,优化内存管理并增强异常处理,使系统稳定性与负载运行效率均显著提升;

  • 同时,新增 Wayland 协议支持,将 OpenGL 升级至 4.2 版本,并扩展了内核版本支持范围,为 Linux 用户提供更高效、更流畅的计算和图形体验。

IT之家附官方介绍如下:

驱动架构全面革新

摩尔线程Linux 驱动架构进行了全面升级,新架构更符合现代图形与计算融合的发展趋势

技术团队深入调研 Linux 环境中 GPU 驱动的优化点,对任务调度系统、内存管理系统以及硬件交互系统进行了针对性升级,使其能够更好地适配 GPU 计算渲染任务的高速发展需求。

升级后的驱动架构在底层功能实现了多项突破:

任务调度优化

GPU 的任务调度由驱动和固件协同完成,驱动负责管理任务队列、上下文切换和资源分配。v3.0.0 版本在内核驱动层面的优化包括:1)低延迟调度优化,更优的调度算法;2)高并发支持,多核任务并发;3)高吞吐优化,批量任务提交;

内存管理优化

GPU 显存管理是驱动的重要职责,优化的显存分配和映射机制能显著提升性能。v3.0.0 版本在内存管理优化包括:1)更快的显存分配机制,显存预分配与缓存;2)更低的显存映射开销,零拷贝内存优化;

异常处理优化

GPU 在运行复杂图形计算任务时可能遇到各种异常,驱动需要快速检测并处理这些异常,避免系统崩溃。v3.0.0 版本在异常处理的优化包括:1)更精确的异常上报,增强硬件异常检测;2)更可靠的异常恢复机制,支持任务级容错;3)更灵活的调试手段,增强的 GPU 调试接口;

驱动性能全面提升

DKMS 支持进一步扩展

v3.0.0 版本通过 DKMS(Dynamic Kernel Module Support)功能支持,将内核版本覆盖范围提升至 4.9-6.8,能够适配各品牌主流国产操作系统,从而简化部署和维护流程。

支持 OpenGL 4.2

本次升级将 OpenGL 版本提升至 4.2,重点优化了 Blender 及 CAD 类软件的图形处理性能,显著提升了复杂场景下的渲染流畅度,能够更好地满足了专业设计、科学计算等场景的性能需求。基于跨平台图形 API 标准,摩尔线程将持续推进 OpenGL 版本迭代,以满足不同用户和复杂场景的多样化需求。

支持 Wayland

本次驱动新增对 Wayland 显示协议的支持,相比传统 X11 架构,Wayland 采用更高效的通信模型,通过减少不必要的图形数据复制和转换,提升 GPU 资源利用率,特别适用于高性能计算、实时渲染和游戏开发等场景。同时进一步增强了与国产操作系统的兼容性,为用户提供更完善的图形解决方案。

性能与效率提升

与 v2.7.0RC4 版本相比,v3.0.0 版本在飞渡软件典型场景平均帧率提升约 300%;GFXbench 平均帧率提升超过 200%,GLmark2 平均分数提升接近 90%。

原文链接:https://m.ithome.com/html/850256.htm

之前我们就说过,单从产品力来看,摩尔线程的几款显卡并不算多么值得购买的产品,但比起一款成品,摩尔线程更像是一个“养成系”的厂商,从最初不支持DX12,到现在各种性能和兼容性的提升。

而在最近,摩尔线程更新了其Linux显卡驱动,更新架构底层,增加了Wayland协议支持,更进一步的提升了图形和计算性能,在测试中出现了90%-300%的成绩提升,这……提升也太夸张了吧……

新 闻 2: 摩尔线程宣布 MTT S4000 训推一体计算卡通过中国信通院 AI 芯片和大模型适配验证

摩尔线程官方昨日晚发文宣布:经中国信息通信研究院检测,在本次 AI 芯片与模型适配验证项目中,摩尔线程自主研发的训推一体计算卡 MTT S4000 和杭州深度求索人工智能基础技术研究有限公司研发的DeepSeek-R1 671B 大模型,在推理场景下的适配结果符合“AI 芯片和大模型通过性适配要求”,成功通过中国信通院《AI 芯片和大模型适配能力通过性评测软硬件环境及测试细则》推理场景验证。

摩尔线程官方表示,MTT S4000 可实现正常、稳定运行,满足推理使用需求,符合通过性适配验证条件,并获颁检测证书。目前,摩尔线程系列训推一体计算卡正在开展优化性适配验证工作,相关结果将在检测流程结束后另行公布

据介绍,MTT S4000 是基于摩尔线程全功能 GPU 架构专为大模型打造的训推一体通用计算卡,支持 FP64 / FP32 / TF32 / FP16 / BF16 / INT8 等完整计算精度,配备 48GB 高性能显存。MTT S4000 凭借摩尔线程自研 MTLink 1.0 技术,可实现多卡互联及千卡集群部署,为千亿参数大模型的训练、微调和推理提供强劲算力支撑。同时,它还兼具图形渲染、视频编解码和超高清 8K HDR 显示能力,可满足人工智能、科学计算、多媒体处理等复合场景需求。

IT之家从摩尔线程官方获悉,MTT S4000 此次能够快速完成 DeepSeek R1-671B 大模型的适配验证,主要得益于包括 vLLM-MUSA 推理框架、MUTLASS、Triton-MUSA 等在内的完善 MUSA 生态软件栈和快捷开发实践。

另外,摩尔线程近期还推出了搭载 MTT S4000 的 MCCX DeepSeek 大模型一体机,该产品深度融合国产全功能 GPU、深度优化的高性能推理引擎和软件栈,全面支持从蒸馏版到 671B 参数全量版 DeepSeek 模型的部署需求,号称可灵活适配广泛的行业、场景和应用。

原文链接:https://m.ithome.com/html/851383.htm

另外值得一提的还有近期摩尔线程公布的,MTT S4000训推一体计算卡通过中国信通院AI芯片和大模型适配验证。其实此前,就有DeepSeek蒸馏模型完全兼容摩尔线程的消息,再加上48G大显存,确实是不可多得的AI运算卡。随着最近老美禁售政策的进一步加严,更可控的国产计算卡或许会被更多厂商关注,不知道能不能得到更进一步的应用。

新 闻3: 支持原生 FP8 和 PyTorch 2.5.0,摩尔线程开源发布 Torch-MUSA v2.0.0

摩尔线程今日宣布推出 Torch-MUSA v2.0.0 版本,这是其面向 PyTorch 深度学习框架的 MUSA 扩展库的重要升级。

新版本基于 MUSA Compute Capability 3.1 计算架构,支持原生 FP8 数据类型,支持 PyTorch 2.5.0,并通过多项针对 MUSA 计算平台的性能优化,进一步提升了对 AI 模型和大规模数据处理的支持能力。

作为本次升级的核心亮点,Torch-MUSA v2.0.0 率先在国产 GPU 上实现了对 FP8 数据类型的完整支持

FP8 是当前 AI 计算的一种前沿低精度格式,在支持原生 FP8 的 GPU 上,大语言模型(LLM)训练采用 FP8 混合精度可大幅提高 GPU 算力,显著降低显存占用。

摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,提升大语言模型训练和推理的效率。

Torch-MUSA v2.0.0 在 MUSA 计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:

Torch-MUSA v2.0.0 在完整支持 PyTorch 2.2.0 的基础上,新增了对 PyTorch 2.5.0 的支持,使开发者能够在基于 MUSA Compute Capability 3.1 计算架构的全功能 GPU 上,无缝运行新版本的 PyTorch。

原文链接:https://m.ithome.com/html/851898.htm

而摩尔线程并没有到此为止,而是更近一步,NVIDIA在发布本代专业显卡和计算卡的时候,引入了一个很夸张的算力参数,其实是特化的四分之一精度浮点运算能力,也就是这里说的FP8。虽然我们对NVIDIA用FP8代指算力数值的行为感觉有些……不齿,但也不得不承认像FP8、FP16这种低精度浮点运算在AI应用领域的优势,在上文中提到的MTT S4000就缺失了FP8支持。

买电脑讨论群:386615430

电脑吧评测室官方一群:798545305

文章转载自网络(链接如上)。文章出现的任何图片,标志均属于其合法持有人;本文仅作传递信息之用。如有侵权可在本文内留言。

引用文章内容与观点不代表电脑吧评测室观点。