特斯拉AI5芯片流片成功，AI4成弃子|ai5|内存|埃隆_马斯克|特斯拉(公司)|知名企业|英伟达|英特尔|高通

AI5芯片实物图

图片来源：特斯拉

2026年4月15日，马斯克在X媒体上宣布了AI5芯片流片成功，并展示了AI5芯片实物如上图，图上显示AI5与12片LPDDR5X内存在一片PCB载板上，内存型号为H58GG6MK9QX212，这是韩国Hynix的LPDDR5X内存，H58代表LPDDR5，GG代表12GB，6代表16 bank，M代表第一代，K9代表9600Mbps，X似乎是代表车规。

按照马斯克的说法，AI5相比AI4有50倍的提升，包括10倍的算力提升，9倍的存储容量。一般都说AI5的算力是2500TOPS。

来源：特斯拉，整理：佐思汽研

https://www.basenor.com/blogs/news/tesla-stores-now-displaying-hw4-0-computers-what-it-signals?srsltid=AfmBOoopkFETvU-kpT5PnUlkmeCU7tQ3zesxVAqiMph6_f7UHpwMQblf，根据这个网站的信息，AI4的单一NPU算力是50TOPS，每个芯片有3个NPU，也就是150TOPS，那么AI5的整体算力应该是1250TOPS左右，不知这个50倍是怎么来的，是2500/50么？但最重要的模型精度未透露，如果是4位精度，那么AI5的算力不算高，如果是8位精度，那么比英伟达的Thor-X还是高出不少。此外是稀疏网络还是稠密网络，是等效算力还是真实MAC，这些详细数据恐怕特斯拉也不会公布。不过即便是最高的数据，无论是算力还是存储带宽，AI5仍然不敌2023年英伟达推出的消费级显卡RTX4090，RTX4090依然能够领先车规芯片5-7年。

AI5虽然流片成功，但量产还是要等到2026年底或2027年初甚至2027年中期。按照马斯克的说法，AI5采用双代工厂，台积电的3纳米和三星的2纳米，此举主要是为了供应链平衡，不过台积电的3纳米遥遥领先三星的2纳米，三星只是陪跑，估计80%的订单都会给台积电，供应链风险依然很高，实际苹果、高通、英伟达、AMD的供应链都极度依赖台积电，风险极高。

目前已知的AI5与AI4的重大区别一是封装，二是存储类型。封装方面，AI5采用了MOP封装，即Memory On Package。二是从AI4的GDDR6换为LPDDR5X。

Lunar Lake MX

图片来源：英特尔

MOP封装在英特尔和AMD的CPU上也可以看到，典型的就如上图的Lunar Lake MX。这是英特尔2023年底推出的，英特尔的Foveros是标准的Chiplet设计，有多个die，特斯拉的应该不是Chiplet，还是单光刻。

Lunar Lake结构图

图片来源：英特尔

英特尔的存储是堆叠在整体package上，与计算title通过EMIB硅桥连接，特斯拉的AI5与存储之间明显可见贴片电容电阻，还是线邦定，还是单光刻，显然不如英特尔的硅桥连接性能好，英特尔技术远在特斯拉之上。

特斯拉的AI5之所以采用MOP封装，主要是降低PCB难度和成本，实际高通最新的QAM8797也是类似的设计。

LPDDR5/LPDDR5X对比

整理：佐思汽研

LPDDR5X，作为 JEDEC 推出的最新一代低功耗内存标准，不仅在速度上大幅跃升，更在信号完整性、电源管理、架构扩展性等方面带来了显著改进。为了满足LPDDR5X的高性能，PCB设计与用料都要求较高，LPDDR5X PCB设计通常采用多层板（通常为 6-10 层或更多），以应对高速信号（高达 8533Mbps+，信号周期117皮秒）的信号完整性（SI）和电源完整性（PI）挑战。核心策略包括使用高密度互连（HDI）技术、等长差分对布线、以及极薄的封装（如0.65mm）来优化空间和散热。多层板中设置专门的电源平面，降低等效串联电感（ESL），同时利用层叠结构优化散热性能。针对高速差分信号对（DQ/DQS/CK）进行精密走线，通过减短走线长度降低干扰。这样的PCB板如果用到整个控制器大板上，成本显然太高，同时设计难度也太高。

AI5相比AI4最大差别是从GDDR6改为传统的LPDDR5X，在AI4上，特斯拉独出心裁支持GDDR6，在没有车规级GDDR6存储芯片的情况下，依然支持GDDR6，特斯拉还是一贯地不在乎车规。

特斯拉HW4.0

图片来源：网络

特斯拉HW4.0不惜血本用上了GDDR6，就是上图中的D9ZPR，正反两面各用了8颗，总计16颗，每颗容量2GB。支持何种存储，由芯片内部的存储物理层决定，通常是一个物理层IP，需要从第三方购买，现代芯片几乎所有IP都可以买到。GDDR6的价格远超传统的LPDDR5/LPDDR5X，主要优点就是GDDR6存储带宽非常高。

GDDR6名字里面的G字母，表明了其是为了显示优化而来。它的内存颗粒区别于DDR的DRAM，叫做SGRAM (Synchronous Graphics Random Access Memory)。它的内存访问方式也和DDR（Double Data Rate）一样，在时钟上下沿各采样一次，对得起名字中的Double字样。

GDDR4时代引入了WCK/WCK#（word clock），它的速度是CK/CK#的两倍，而数据DQ的采样是在WCK而不是在CK的上升沿和下降沿采样。此改动将传输带宽凭空提高了一倍，从而主要拉开了与DDR的差距。GDDR6将传输带宽提高四倍，存储位宽是384bits，是典型LPDDR5的12倍。典型GDDR6系统的存储带宽是768GB/s，远高于英伟达Thor的273GB/s，不过GDDR也有致命缺点，其频率太低，GDDR6标准太老了，是2016年制定的，频率仅为1750MHz-2000MHz，而LPDDR5X的总线频率是5333MHz，LPDDR6则是7200MHz。

这就导致GDDR6的CAS延迟太高，CAS 延迟（也称为 CL）是写入 RAM 中的一个关键时序值。它指的是在 CPU 请求数据后，内存开始提供数据所需的时间。实际举例来说，这就像您向图书管理员借一本书；这个数值就相当于图书管理员把书交到您手上之前所花费的秒数。这个数值越低，系统响应速度就越快。由于延迟是以周期数而非时间来衡量的，因此实际的延迟时间（以纳秒为单位）取决于 RAM 的时钟频率。这让GDDR更适合图像处理、大模型这种高并发的，大块搬移内存的操作。而如CPU这种几乎完全随机的访问则完全不适合。同时GDDR6的容量小，一般只有2GB，而LPDDR5一般都是8GB.

GDDR和HBM类似，可以看作廉价版的HBM，但容量太小，只能用于显卡上。对CPU来说，最好的存储器是LPDDR，对GPU来说，HBM最好。但车上面都是CPU与GPU（NPU）合二为一的SoC，大部分厂家都选择LPDDR而非GDDR，因为GDDR会大大降低CPU的性能，同时成本高，唯一的优点是数据吞吐量大。但在transformer时代以及目前的transformer + diffusion时代，GDDR6没有优势，因为transformer时代以及目前的transformer + diffusion时代的CPU更重要。

目前，VLA算法基本都是以transformer架构为主，世界模型则以DiT（transformer + diffusion）为主，尽管扩散采样算法仍在演进，但其核心操作——如词表扫描、归约、排序和掩码选取——基本保持不变。它们对目前以GEMM（GPU或NPU）为中心的计算平台非常不友好，有大量的内存碎片和对齐开销。内存碎片仰赖CPU的随机访问，对齐开销也是全部由CPU包揽。

2025年11月发布的学术论文《A CPU-Centric Perspective on Agentic AI》进一步量化了这一压力：在智能体AI场景中，CPU工具处理（包括Python解释、网页爬取、词法摘要、数据库检索等）产生的延迟，可占总延迟的高达90.6%；在大批量处理场景下，CPU动态能耗可达系统总动态能耗的44%。与静态大语言模型不同，智能体（Agent）AI需要动态与环境交互——规划任务、调用工具、在子智能体之间传递数据、评估任务是否完成。这一“编排层”（Orchestration）的全部协调工作，恰恰落在CPU肩上，使其成为典型的CPU密集型负载。

自动驾驶与AI智能体虽然不同，但主要的Python解释是一样的，是延迟的最主要来源，无奈特斯拉只能推倒AI4的GDDR6设计，重回LPDDR的阵营，这意味着承认AI4设计失败，成为弃子。

特斯拉的AI5最大亮点或许只是MOP封装，不过仅凭这一点就超越了蔚小理，不过和英伟达和高通乃至英特尔比，还是有差距。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。