AI5芯片实物图

图片来源:特斯拉

2026年4月15日,马斯克在X媒体上宣布了AI5芯片流片成功,并展示了AI5芯片实物如上图,图上显示AI5与12片LPDDR5X内存在一片PCB载板上,内存型号为H58GG6MK9QX212,这是韩国Hynix的LPDDR5X内存,H58代表LPDDR5,GG代表12GB,6代表16 bank,M代表第一代,K9代表9600Mbps,X似乎是代表车规。

按照马斯克的说法,AI5相比AI4有50倍的提升,包括10倍的算力提升,9倍的存储容量。一般都说AI5的算力是2500TOPS。

打开网易新闻 查看精彩图片

来源:特斯拉,整理:佐思汽研

https://www.basenor.com/blogs/news/tesla-stores-now-displaying-hw4-0-computers-what-it-signals?srsltid=AfmBOoopkFETvU-kpT5PnUlkmeCU7tQ3zesxVAqiMph6_f7UHpwMQblf,根据这个网站的信息,AI4的单一NPU算力是50TOPS,每个芯片有3个NPU,也就是150TOPS,那么AI5的整体算力应该是1250TOPS左右,不知这个50倍是怎么来的,是2500/50么?但最重要的模型精度未透露,如果是4位精度,那么AI5的算力不算高,如果是8位精度,那么比英伟达的Thor-X还是高出不少。此外是稀疏网络还是稠密网络,是等效算力还是真实MAC,这些详细数据恐怕特斯拉也不会公布。不过即便是最高的数据,无论是算力还是存储带宽,AI5仍然不敌2023年英伟达推出的消费级显卡RTX4090,RTX4090依然能够领先车规芯片5-7年。

AI5虽然流片成功,但量产还是要等到2026年底或2027年初甚至2027年中期。按照马斯克的说法,AI5采用双代工厂,台积电的3纳米和三星的2纳米,此举主要是为了供应链平衡,不过台积电的3纳米遥遥领先三星的2纳米,三星只是陪跑,估计80%的订单都会给台积电,供应链风险依然很高,实际苹果、高通、英伟达、AMD的供应链都极度依赖台积电,风险极高。

目前已知的AI5与AI4的重大区别一是封装,二是存储类型。封装方面,AI5采用了MOP封装,即Memory On Package。二是从AI4的GDDR6换为LPDDR5X。

Lunar Lake MX

打开网易新闻 查看精彩图片

图片来源:英特尔

MOP封装在英特尔和AMD的CPU上也可以看到,典型的就如上图的Lunar Lake MX。这是英特尔2023年底推出的,英特尔的Foveros是标准的Chiplet设计,有多个die,特斯拉的应该不是Chiplet,还是单光刻。

Lunar Lake结构图

打开网易新闻 查看精彩图片

图片来源:英特尔

英特尔的存储是堆叠在整体package上,与计算title通过EMIB硅桥连接,特斯拉的AI5与存储之间明显可见贴片电容电阻,还是线邦定,还是单光刻,显然不如英特尔的硅桥连接性能好,英特尔技术远在特斯拉之上。

特斯拉的AI5之所以采用MOP封装,主要是降低PCB难度和成本,实际高通最新的QAM8797也是类似的设计。

LPDDR5/LPDDR5X对比

整理:佐思汽研

LPDDR5X,作为 JEDEC 推出的最新一代低功耗内存标准,不仅在速度上大幅跃升,更在信号完整性、电源管理、架构扩展性等方面带来了显著改进。为了满足LPDDR5X的高性能,PCB设计与用料都要求较高,LPDDR5X PCB设计通常采用多层板(通常为 6-10 层或更多),以应对高速信号(高达 8533Mbps+,信号周期117皮秒)的信号完整性(SI)和电源完整性(PI)挑战。核心策略包括使用高密度互连(HDI)技术、等长差分对布线、以及极薄的封装(如0.65mm)来优化空间和散热。多层板中设置专门的电源平面,降低等效串联电感(ESL),同时利用层叠结构优化散热性能。针对高速差分信号对(DQ/DQS/CK)进行精密走线,通过减短走线长度降低干扰。这样的PCB板如果用到整个控制器大板上,成本显然太高,同时设计难度也太高。

AI5相比AI4最大差别是从GDDR6改为传统的LPDDR5X,在AI4上,特斯拉独出心裁支持GDDR6,在没有车规级GDDR6存储芯片的情况下,依然支持GDDR6,特斯拉还是一贯地不在乎车规。

特斯拉HW4.0

图片来源:网络

特斯拉HW4.0不惜血本用上了GDDR6,就是上图中的D9ZPR,正反两面各用了8颗,总计16颗,每颗容量2GB。支持何种存储,由芯片内部的存储物理层决定,通常是一个物理层IP,需要从第三方购买,现代芯片几乎所有IP都可以买到。GDDR6的价格远超传统的LPDDR5/LPDDR5X,主要优点就是GDDR6存储带宽非常高。

GDDR6名字里面的G字母,表明了其是为了显示优化而来。它的内存颗粒区别于DDR的DRAM,叫做SGRAM (Synchronous Graphics Random Access Memory)。它的内存访问方式也和DDR(Double Data Rate)一样,在时钟上下沿各采样一次,对得起名字中的Double字样。

GDDR4时代引入了WCK/WCK#(word clock),它的速度是CK/CK#的两倍,而数据DQ的采样是在WCK而不是在CK的上升沿和下降沿采样。此改动将传输带宽凭空提高了一倍,从而主要拉开了与DDR的差距。GDDR6将传输带宽提高四倍,存储位宽是384bits,是典型LPDDR5的12倍。典型GDDR6系统的存储带宽是768GB/s,远高于英伟达Thor的273GB/s,不过GDDR也有致命缺点,其频率太低,GDDR6标准太老了,是2016年制定的,频率仅为1750MHz-2000MHz,而LPDDR5X的总线频率是5333MHz,LPDDR6则是7200MHz。

这就导致GDDR6的CAS延迟太高,CAS 延迟(也称为 CL)是写入 RAM 中的一个关键时序值。它指的是在 CPU 请求数据后,内存开始提供数据所需的时间。实际举例来说,这就像您向图书管理员借一本书;这个数值就相当于图书管理员把书交到您手上之前所花费的秒数。这个数值越低,系统响应速度就越快。由于延迟是以周期数而非时间来衡量的,因此实际的延迟时间(以纳秒为单位)取决于 RAM 的时钟频率。这让GDDR更适合图像处理、大模型这种高并发的,大块搬移内存的操作。而如CPU这种几乎完全随机的访问则完全不适合。同时GDDR6的容量小,一般只有2GB,而LPDDR5一般都是8GB.

GDDR和HBM类似,可以看作廉价版的HBM,但容量太小,只能用于显卡上。对CPU来说,最好的存储器是LPDDR,对GPU来说,HBM最好。但车上面都是CPU与GPU(NPU)合二为一的SoC,大部分厂家都选择LPDDR而非GDDR,因为GDDR会大大降低CPU的性能,同时成本高,唯一的优点是数据吞吐量大。但在transformer时代以及目前的transformer + diffusion时代,GDDR6没有优势,因为transformer时代以及目前的transformer + diffusion时代的CPU更重要。

目前,VLA算法基本都是以transformer架构为主,世界模型则以DiT(transformer + diffusion)为主,尽管扩散采样算法仍在演进,但其核心操作——如词表扫描、归约、排序和掩码选取——基本保持不变。它们对目前以GEMM(GPU或NPU)为中心的计算平台非常不友好,有大量的内存碎片和对齐开销。内存碎片仰赖CPU的随机访问,对齐开销也是全部由CPU包揽。

2025年11月发布的学术论文《A CPU-Centric Perspective on Agentic AI》进一步量化了这一压力:在智能体AI场景中,CPU工具处理(包括Python解释、网页爬取、词法摘要、数据库检索等)产生的延迟,可占总延迟的高达90.6%;在大批量处理场景下,CPU动态能耗可达系统总动态能耗的44%。与静态大语言模型不同,智能体(Agent)AI需要动态与环境交互——规划任务、调用工具、在子智能体之间传递数据、评估任务是否完成。这一“编排层”(Orchestration)的全部协调工作,恰恰落在CPU肩上,使其成为典型的CPU密集型负载。

自动驾驶与AI智能体虽然不同,但主要的Python解释是一样的,是延迟的最主要来源,无奈特斯拉只能推倒AI4的GDDR6设计,重回LPDDR的阵营,这意味着承认AI4设计失败,成为弃子。

特斯拉的AI5最大亮点或许只是MOP封装,不过仅凭这一点就超越了蔚小理,不过和英伟达和高通乃至英特尔比,还是有差距。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。