黑芝麻智能的「未雨绸缪」|中间件|智能眼镜|算法|英伟达|黑芝麻智能

“从中阶量产、高阶研发到L3预研，明年智驾行业的综合竞逐会更加激烈。高阶智驾和具身智能场景，是值得芯片厂商探索的两大增量市场。”

作者丨李雨晨

编辑丨林觉民

过去的很多年里，中国智驾芯片市场被国外巨头如英伟达、Mobileye等所主导。这些企业凭借强大的技术实力和完善的生态系统，占据了市场的绝对优势。但国内智驾芯片厂商的崛起，让中国的智能化从依赖逐渐走向自主。

根据弗若斯特沙利文的数据统计，2023年，按出货量计算，黑芝麻智能已跻身全球车规级高算力SoC供应商前三甲。

以黑芝麻智能为例，核心产品主要包括两个系列：华山和武当，前者面向智能驾驶，后者面向舱驾融合。

华山A1000是一个代表性的产品系列。在A1000所处的时代中，芯片厂商的主要智驾产品还是小算力芯片，主要应用在一体机里，还不足以实现高阶智驾的功能。而黑芝麻智能A1000是市场上除英伟达外唯一的大算力芯片。这样的市场定位，帮助黑芝麻智能迅速在智驾芯片行业站稳脚跟。

近日，黑芝麻智能宣布推出其专为下一代AI模型设计的高算力芯片平台——华山A2000家族，包括A2000 Lite、A2000和A2000 Pro三款产品，分别针对不同等级的自动驾驶需求。A2000 Lite专注于城市智驾，A2000支持全场景通识智驾，而A2000 Pro则是为高阶全场景通识智驾设计。

黑芝麻智能能否凭借“整体升维”的A2000系列产品，走出华山系的第二条增长曲线？

三年前的一场提前布局

芯片行业是一个长坡厚雪的行业。通常情况下，一款智驾芯片的开发时间需要2到3年，除了高昂的研发成本外，后续还要投入巨额的流片费用，单次流片的成本至少需要几千万元。芯片厂商需要思考一个问题：未来5年，智驾行业对芯片的需求会不会变？如果变，会是什么？

据雷峰网了解，2022年A1000实现量产并推向市场后，黑芝麻智能就启动了A2000系列的前期市场分析和调研。黑芝麻智能产品副总裁丁丁表示，“我们内部对A2000的定位，就是要用更高的性价比和计算效率，去面向更先进的算法和更高阶的智驾功能。”

因此，A1000和A2000在设计时就有比较明显的区隔。前者面向高速NOA和记忆行车能力，而A2000面向城市NOA及全场景通识智驾等更复杂场景，从Lite版本开始就已专注在复杂的城市场景，产品组合覆盖了从NOA到Robotaxi的广泛应用场景。

从性能上来看，A2000原生支持Transformer模型，这是非常重要的一个卖点。

2020年，特斯拉团队对底层代码进行重写及网络重构，引入了Transformer的架构，将2D图像复原至3D视角，使得自动驾驶方案环境感知的能力有了质的飞跃，BEV+Transformer的架构解决了行车过程中大多数共通的场景。

2022年AI Day上，特斯拉引入了Occupancy占据网络，这一概念又迅速流行。

在此之后，“BEV”、“Transformer”成为了智能驾驶圈中的热词，引发车企的争相跟进，华为、小鹏、理想、蔚来等车厂均确立了大模型加持下的高阶智驾方案，研发进度大大提速。

丁丁认为，在中算力平台上，车企和智驾供应商们开发的智驾功能是以完成一个特定任务为目标。而大模型时代，智能化一定是具备了“常识性”的智能水平，与中算力平台上的具体应用会是不一样的存在，未来智能汽车甚至会有比司机更好的表现。

“真正意义上的智能化，一定是一个大规模的模型，同时具备了多模态的能力。”

不过，一个现实问题是，目前智驾行业内出货量最大的Orin-X对于大模型的支持是不够的。

理想汽车在2024智能驾驶夏季发布会上，就曾明确指出Orin-X的问题：“Orin-X并不是为Transfomer大模型设计的，内存带宽也有问题，把大模型部署到Orin-X上的时候面临很多难题，推理时间长达4秒，这在自动驾驶系统上是一个不可接受的时延。”

因此，黑芝麻智能提出了“全场景通识智驾”概念，基于知识范式将驾驶场景的信息引入到知识增强的表示空间中，这些信息可以被推导为场景语义空间中的通用知识，随后通过知识的反映来推断场景，全面覆盖城市道路、高速公路、昼夜变化以及各种气候条件的不同场景。

据丁丁透露，黑芝麻智能正在进行大模型的开发和部署工作。当然，有很多自研能力突出的车企团队，已经拥有了很成熟的模型，黑芝麻智能会提供更好的适配性。而对于缺乏模型经验的用户，就可以直接选用黑芝麻智能的参考模型，基于参考模型去进行功能的开发和体验的优化。

1月2日，黑芝麻智能宣布与阿里云达成深度合作，通义千问15亿、30亿参数大模型已成功在黑芝麻智能武当C1200家族芯片上完成部署。未来，通义大模型还将与黑芝麻智能华山A2000家族芯片进行适配。

对于后续A2000的潜在用户来说，黑芝麻智能和阿里的跨界结合将是一股很强的吸引力。

如何让芯片更有生命力？

工具链是一颗芯片能否有生态能力和持久生命力的保证。对芯片公司来说，能够提供适配的软件算法以及量产落地服务，和产品本身同样重要。

曾有投资人向雷峰网说到，“SoC太大了，公司不能把它只作为芯片来出售，SoC必须是一个解决方案，芯片带着一套软件还有中间件，再加上生态一起卖给客户才行。”

开发工具链，就成为一家芯片公司帮助客户降低应用门槛的重要保证。

黑芝麻智能创始人兼CEO单记章曾表示，“配合不同的开发工具，芯片之上每一层软件都可以进行定制和替换，让客户和合作伙伴能够基于黑芝麻智能的芯片平台面对不同场景开发不同的产品，既能给客户更多的灵活性，又能借助合作伙伴的能力拓展更多场景。”

黑芝麻智能不只是一家芯片设计公司，还提供完善的客户算法定制服务，支持第三方算法移植，多种算法交付方式等商业模式。据雷峰网了解，2024年有多款车型量产，采用黑芝麻智能全视感知的算法，包括前视、环视泊车、侧视融合的方案都已经做到量产交付的水平。

配合华山系列自动驾驶计算芯片，黑芝麻智能先后发布了山海人工智能开发平台以及瀚海自动驾驶中间件平台，成熟的工具链和中间件体系支撑快速量产。

截至2024年6月30日，华山A1000芯片已成功应用于领克08EM-P 、东风eπ 007等车型，累计获得16家OEM及Tier1的23 款车型量产意向订单。

当前，各类AI算法主要利用深度神经网络等算法模拟人类神经元和突触，NPU能够实现更高效率、更低能耗处理人工神经网络、随机森林等机器学习算法和深度学习模型。

丁丁表示，A2000最核心的还是新一代的神经网络加速器(NPU)。设计之初，黑芝麻智能就希望不仅仅是做一代芯片或者为了一个阶段的算法服务，而是希望它具备可以可扩展性，能够展现对新算法的适配性。

在A2000系列上，黑芝麻智能推出了自研NPU新架构——黑芝麻智能“九韶”。新一代通用 AI工具链BaRT和新一代双芯粒互联技术BLink两大创新，共同赋能“九韶”计算性能的充分发挥和灵活扩展。

九韶NPU采用了领先的大核架构，支持智驾大模型的实时推理，降低算法计算的延迟，基于优先级抢占的机制为处理复杂计算任务提供了强有力的支撑。

同时，九韶NPU也是业界最高安全等级的NPU，高安全等级能够避免模型推理过程中的随机错误和失效，支持训练与部署的一致性，确保了自动驾驶系统的高安全性和确定性。

九韶NPU的特点包括高算力、高能效和高带宽，这是智能驾驶技术向更高阶迭代的基础。它支持包括INT8/FP8/FP16在内的混合精度，集成了针对高精度精细量化和Transformer的硬加速，能够简化开发者在量化和部署过程中的工作。

此外，九韶架构还具备低延时和高吞吐的三层内存架构。

上文理想的例子，说到了Orin-X的另一个问题——内存带宽，这其实是衡量智驾性能时容易被忽略的一个细节。

神经网络算法的本质是矩阵的乘积累加运算，这个过程中需要频繁的读取数据，使用的算法模型参数越多，在内存中需要保存的数据量越大。以GPT3为例，参数量为1750亿，训练数据达到了570GB，而GPT-4的参数规模则超过1.5万亿。因此，大模型时代，开发者对存储带宽的要求也越来越高。

黑芝麻智能的九韶架构，包括大容量高带宽的NPU专用缓存、核心模块片内共享缓存，以及对称的双数据通路和专用DMA引擎，提升了性能和有效带宽，降低对外部存储带宽的依赖，在性能、带宽和成本之间取得了极致平衡。

为了充分发挥九韶架构的潜力，黑芝麻智能还研发了新一代通用AI工具链BaRT。BaRT支持多种流行框架和模型的转换，原生兼容PyTorch的推理API，支持Python编程部署。这使得开发者能够更加便捷地利用九韶架构进行AI模型的开发和部署。

BaRT的另一个优势是支持业界主流的Triton自定义算子编程，允许开发者使用Python语言编写Triton自定义算子，这些算子可以被自动化编译成硬件加速代码，从而进一步加速开发者AI模型的部署。

为了满足不同等级自动驾驶的算力需求，新一代双芯粒互联技术BLink技术为算力扩充提供了高效解决方案。BLink支持Cache一致性互联的高效C2C（Chip-to-Chip）技术，能够扩展支持更大规模模型的算力需求，为算法长期演进做好准备。

通过BLink技术，A2000家族芯片能够实现软件单OS跨片部署，支持高带宽C2C一致性连接，满足NUMA跨芯片访存要求，简化软件开发和部署的难度。

丁丁坦言，工具链的核心是“足够好用，足够应用”。相比于前代，A2000的工具链无论是投入时间或是资源都更大。

挖掘下一个增量市场

2022年9月，英伟达正式发布了全新一代SoC芯片——Thor，也就是被智能汽车爱好者们广泛提及的“雷神芯片”。当时，官方宣称其单颗算力最高可达2000 Tops。有不少主机厂陆续官宣将在下一代车型中采用Thor芯片，如小鹏、理想等等。

智能化时代的一个信条是“算力即权力”。在讨论智驾芯片性能强弱的时候，行业习惯于用Tops来衡量。例如英伟达的OrinX，被认为是目前市场上性能最强的智驾芯片，单颗芯片的最大算力达到了254 Tops，而特斯拉的FSD芯片单颗算力只有72 Tops，从纸面数字上看，OrinX的算力确实很强，但Tops并不是衡量智驾芯片的唯一标准。

A2000的量产上车时间预计在2026年。而Thor原本计划2024年中量产，现已大幅推迟。小鹏汽车P系列及G系列的产品负责人在11月通过社交媒体表示：“Thor到现在为止还在延期，还没有确定的SOP（标准作业程序）时间，现在看来，2026年能见就不错了。”

如果以这个最晚的时间来看，A2000是否会直面Thor的影响？

丁丁表示，“行业不太会用Tops来评价芯片，而是要从综合性能来看。最好的方式就是让同样的模型在不同的芯片上跑，能达到什么样的帧率、什么样的精度。”

另一方面，汽车芯片的更新换代不像是手机的周期快，尽管汽车的智能化能力在提速，但是芯片厂商实际还是处于同一个阶段。而且，不少国内友商更看重的是芯片的整体性价比，集成度、计算效率、系统成本等等，芯片并不是单一维度的竞争。

在与丁丁的访谈中，一个出现比较高频的词语是“性价比”。实际上，这也是黑芝麻智能这类芯片厂商代表，对自己的一种精准定位。2023年上半年，黑芝麻推出基于A1000芯片的城市NOA级别域控制器产品，可以做到3000元以内的成本。

值得注意的是，华山A2000家族芯片不仅在智能汽车领域展现出强大的性能，还能够支持机器人和通用计算等多个领域。这似乎对外释放出一种信号——黑芝麻智能正在关注具身智能。

此前，比亚迪发布招聘具身智能研究团队的信息，广汽集团、小鹏汽车、奇瑞汽车也公开宣布布局这一领域。

李想日前也在直播间表示，理想汽车100%会做人形机器人，不过节奏不是现在。在他看来，自动驾驶汽车就是最简单的机器人，如果这都没法解决，更别说更复杂的人形机器人。

人形机器人主要包含环境感知、人机交互和运动控制三大系统，而自动驾驶的核心技术也涵盖感知、决策和执行，这些都与视觉、激光雷达、芯片、算法等技术密切相关同时，在电机电控、动力电池等方面，人形机器人和自动驾驶技术也存在一定的共通性。

据雷峰网了解，黑芝麻智能正在筹备具身智能方向的资源。

今年8月，一位投资人向雷峰网表示，“自研芯片能成功有两点前提，一是芯片本身做得足够好、技术实力足够强，二是终端销量足够多。只有这样，才能覆盖掉此前在芯片上投入的研发成本。特斯拉做车，又在做机器人的逻辑正在于此。”

从中阶量产、高阶研发到L3预研，明年智驾行业的综合竞逐会更加激烈。从现实角度出发，高阶智驾和具身智能场景，是值得黑芝麻智能探索的两大增量市场。