从买算力到卖能力：嬴彻科技七亿商用里程背后的云上飞轮|云上飞轮|嬴彻科技|算力|算法|速度|高吞吐量内核

作者 | 青和

大模型爆发后，所有 AI 公司都陷入了同一种竞争模式：争抢数据、比拼算力、内卷模型。但真正能拉开差距的，往往不是这些资源本身，而是谁能把这三者整合起来，形成一条持续运转的完整生产线。

这种“资源整合”的挑战，很多大模型公司如今才深有体会，但自动驾驶行业早已被它反复考验。对自动驾驶而言，运营里程本身并不能直接转化为智能，它所带回的，大多是零散、杂乱且海量的原始数据；只有将这些数据持续转化为模型能力，里程才能真正成为企业的核心竞争力。

这也让云底座的角色发生了根本性变化：它不再只是后台的资源储备池，而是贯穿数据处理、模型训练、仿真验证和业务交付全流程的生产系统。短期来看，它影响的是研发效率；长期来看，它决定了业务能走多远、能做到多大。

基于这样的洞察，嬴彻科技在 2018 年成立之初，就做出了极具前瞻性的选择——全面上云。不仅研发系统上云，数据工程、在线业务、生产交付等所有环节，都全部运行在云端，不保留本地机房，彻底摆脱了技术包袱。

这家公司专注于卡车自动驾驶技术的研发和商业运营，为物流客户提供从自动驾驶技术到新一代 TaaS 货运网络服务的一站式系统解决方案。八年时间里，其云原生底座支撑起了令人惊叹的业务规模：嬴彻智能辅助驾驶系统的商用运营里程已超过 7 亿公里，处于全球领先水平；覆盖了中国 97% 的高速网络；数千台搭载嬴彻智驾系统的智能重卡，平均智驾里程占比超过 90%。

近日，作者与嬴彻科技云与数据基础设施负责人曹学成及其团队深入交流，试图还原这套云原生体系的发展过程。拆解嬴彻八年的云上实践，本质上是在回答一个更具普遍性的问题：一家 AI 公司，如何借助云原生架构，将解决算力极限的工程能力，转化为可对外交付的商业优势。

重卡智驾的护城河究竟是什么？

自动驾驶行业常被认为是“算法驱动”的领域，但进入规模化发展阶段，单一的算法已不再决定产品能力上限，真正决定企业胜负的，是“数据飞轮”（也就是数据闭环）。

它不是静止的数据池，而是一个能自我强化的循环体系：无论是车队在真实场景中产生的运营数据，还是虚拟场景下生成的合成数据，都必须经过标注、训练、验证等环节，才能转化为模型的核心能力；而模型上线后的实际表现，又会实时反哺数据采集，推动模型不断迭代优化。

在这条完整链路中，只有让数据顺畅循环，才能将其沉淀为企业的核心资产。任何一个环节出现卡顿，整个生产线的效率都会被拖累。

图注：嬴彻科技自动驾驶研发链路基于阿里云云原生底座，涵盖车端数据采集、清洗、训练、仿真评测与部署等环节，可支撑大规模任务编排、异构算力调度（AMD）和模型的持续迭代（其中模型训练环节目前采用多云架构）。

这也是理解嬴彻科技的关键切入点。它聚焦的并非普通乘用车场景，而是干线物流领域——这里的核心载体，是长期在高速网络上运行的重卡。重卡绝不是放大版的乘用车，其车体尺寸、载重结构、控制响应速度和运营场景，都让数据闭环的实现难度大幅提升。

具体来说，这种挑战主要体现在三个方面：

物理约束极严：重卡车体宽度可达 3.2 米，与 3.75 米的车道线之间仅剩下 25 厘米的余量；车货总重接近 50 吨，燃油底盘的响应延迟达 0.7 秒。这就要求智驾系统必须具备 400 米以上的远距离感知能力和 7 厘米级的横向控制精度。
挂车变量极大：占整车大部分重量的挂车，是缺乏传感器的柔性结构，会随着载重变化不断摆动，算法只能依靠车头的传感器，来推断整车的重心和姿态。
运营环境极严苛：在真实的物流网络中，重卡会遇到大雾、车辆加塞等复杂场景，任何一次判断失误，都会因重卡巨大的惯性和较长的制动距离被放大，对行驶安全提出了极高要求。

这三大约束决定了：重卡智驾不能靠“堆砌数据量”盲目发力。如果海量的零散数据无法被高效处理，反而会成为系统的负担。数据闭环的关键，在于能否在这些极限约束下，快速将零散的长尾场景，转化为可验证、可落地的模型能力。

嬴彻科技超 7 亿公里的智驾商用运营里程，正体现了这种高效处理数据的能力：从 0 到 5 亿公里，用了数年时间；从 5 亿到 6 亿公里，不到四个月；从 6 亿到 7 亿公里，仅用了一个月。按照预期，到 2028 年中期，这一里程数字将达到 50 亿公里。

图注：嬴彻智能辅助驾驶系统商用运营里程持续加速增长

从 7 亿公里向 50 亿公里迈进，意味着嬴彻科技面临的不再是线性的规模增长，而是一条加速运转的数据飞轮。更多真实场景的数据进入系统，更多零散的长尾问题被识别、挖掘和验证，模型的训练、仿真与迭代速度也必须同步提升。此时，核心矛盾已不再是“算法能否更优”，而是“这条智能生产线能否持续稳定运转”。

这也揭示了重卡智驾护城河的真正形态：表面上看是智驾算法和里程数据，深层次来看，是一套能在极限高压下，持续将数据转化为模型能力的工程系统。

飞轮的共性难题：
异构算力与潮汐式负载

当理论上的数据闭环落地为真实的工程系统，AI 公司的焦虑就从“如何用数据”，转变为“如何更好地用资源支撑数据闭环运转”。

数据闭环的链路本身具有极强的关联性：从数据采集、清洗、挖掘、标注，到模型训练、评估、仿真回归，任何一个环节出现阻塞，都会导致整体迭代周期变长、反馈速度变慢。

更棘手的是，这条链路上的每个环节，对算力的需求截然不同。

数据处理和场景挖掘属于 CPU 与 I/O 混合型负载，大规模的数据清洗、解析和特征提取，瓶颈往往不在于纯算力，而在于存储带宽、小文件处理和元数据服务的效率。
模型训练属于 GPU 密集型负载，分布式训练和超参搜索，需要高吞吐的存储和网络支持，同时还需要对 GPU 进行精细化的配额、优先级和抢占管理。
仿真验证属于高并发弹性计算负载，场景级的并行回归会在版本发布前集中触发，对任务启动速度、调度效率和资源回收能力提出了极高要求。

这三类负载必须运行在同一条生产线上，共享同一套基础设施，但它们对资源的需求差异极大，几乎没有“共同语言”。这就是“异构资源调度”的核心难题：不是某一类算力不足，而是三种形态的算力需求同时存在、相互竞争，调度系统必须持续进行动态平衡。

对业务而言，这不是底层资源的简单问题，而是直接影响研发节奏的关键：资源调度慢一步，模型迭代就慢一步；仿真回归排队一天，算法落地装车就晚一天。

让问题更复杂的，是这些算力需求的时间分布特征——潮汐式负载。

日常状态下，模型训练与数据处理任务持续运行，资源需求相对稳定，系统处于低负载状态；但每到版本发布或回归验证前，仿真任务会集中爆发，并发需求瞬间达到日常的十倍甚至更高。

这种极端的峰谷落差，让任何基于固定资源池的方案都陷入两难：按照峰值需求配置资源，平时会出现大量闲置；按照日常负载配置资源，峰值时生产线会出现排队，迭代周期被拉长，反馈速度带来的优势也会彻底消失。

异构算力与潮汐负载，共同构成了数据飞轮难以跨越的结构性困境。

飞轮加速逼出云上进化：
从“可用”到“极限可用”

随着量产车规模扩大、数据回传量激增，行业的结构性困境很快在嬴彻的生产线上显现出来，最终聚焦为两个必须解决的核心问题：高并发的任务编排，以及潮汐负载下的弹性算力。

突破并发瓶颈：从“兼容开源”到“企业级增强”

在发展早期，嬴彻科技采用开源版本的 Argo Workflows，来串联数据清洗、仿真、训练等不同类型的任务。在中小规模的业务场景下，这套方案运转良好。但随着数据飞轮转速加快，当并发任务量攀升至万级甚至十万级时，开源组件在控制面稳定性和资源争抢隔离方面的固有瓶颈，开始逐渐显现。

面对这一挑战，嬴彻科技没有选择投入大量人力进行运维修补，而是与阿里云团队达成深度合作，将任务编排系统全面迁移至阿里云容器 Argo 工作流集群（托管版）。

这次迁移并非简单的“系统搬家”，而是一次架构层面的全面增强。阿里云团队在保持社区协议兼容的前提下，针对高并发场景进行了系统性的内核优化：

控制面加固：解决了海量任务调度下的状态同步延迟问题，确保工作流引擎在极端压力下，依然能保持稳定、可预期的表现。
可观测性升级：针对百万级任务规模，重构了监控数据采集链路，消除了大规模集群下的监控盲区和性能损耗。
精细化治理：引入基于 OIDC Token 的 SSO 登录和细粒度的资源 Quota 分配机制，满足了企业级多团队协作的安全与隔离需求。

这种深度合作带来了显著的“反哺效应”：嬴彻科技在生产环境中遇到的极端场景（如 Sidecar 事件的高频回写、复杂工作流的参数透传），成为检验云产品稳定性的最佳测试场景。这些问题被逐一攻克后，沉淀进阿里云的产品代码库，不仅支撑了嬴彻科技的业务发展，也提升了阿里云面向所有大规模 AI 客户的交付能力。

破解弹性难题：定义“瞬时爆发力”

如果说调度系统是数据飞轮的神经中枢，那么算力就是它的肌肉。自动驾驶的仿真验证具有典型的“潮汐效应”：日常运行平稳，但在版本发布前的回归验证阶段，并发需求会瞬间爆发至日常的十倍甚至百倍。

传统的云计算弹性伸缩，往往存在分钟级的滞后，且单集群的并发实例数有上限。对嬴彻科技而言，这意味着每次版本发布都是一场与时间的赛跑——如果容器启动速度慢，算法上车的节奏就会推迟一天。

为了打破这一技术瓶颈，阿里云以 ACS 作为云基座核心，对底层调度逻辑进行了专项定制化优化：

极速启动优化：协同优化了实例创建流程和镜像分发链路，大幅缩短了冷启动时间，让算力能够“召之即来”。
并发上限突破：通过重构资源分配算法，显著提升了单账号及单集群的并发实例上限，让“万级容器同时启动”从理论变为实际可实现的工程常态。
确定性服务保障：引入分层队列与优先级调度机制，确保在资源极度紧张时，“回归门禁”等关键路径任务依然能获得稳定的算力支持，不受其他低优先级任务的干扰。

优化完成后，曾经制约数据飞轮转速的“弹性墙”彻底消失。万级并发不再是系统的负担，反而成为一种可被精准调度和治理的工程能力。

从降本到治理：重塑算力成本

当高并发和大数据处理吞吐率成为常态后，成本就成为了影响业务发展的另一关键因素。

云原生的成本优化，核心不是“把资源用满”，而是通过合理的调度与治理，将业务负载匹配到“更合适的资源组合”，在不修改或尽量少修改应用的前提下，持续降低单位算力的成本。

具体来说，以计算资源为例，嬴彻科技围绕三个维度，开展了系统性的成本优化工作：

4.1 通用计算资源：异构混部与负载画像匹配

自动驾驶涉及海量的离线批处理和数据清洗任务，传统的“单一机型、按量采购”模式，不仅导致算力成本居高不下，还难以应对负载波峰波谷带来的资源浪费。

在这类 CPU 与 I/O 混合型负载中，真正实现“省钱”的关键，是找到性能、吞吐与成本之间的最佳平衡点。以 AMD 通用计算为代表的高性价比算力，配合云上调度的无感迁移和弹性伸缩能力，让嬴彻科技在不改变既有数据链路代码的前提下，将大规模离线批处理、清洗解析等作业，稳定运行在更合适的资源组合上，为后续的模型训练与仿真环节，“腾出”更稀缺的高端算力。

多架构 CPU 混部：引入 AMD 算力的同时，通过阿里云调度机制，在不改动代码的前提下，将任务优先调度至高性价比机型，实现 10%-20% 的成本优化。
Spot 与按量混合调度：将大规模回放等容错性高的作业，部署在 Spot 实例上；而“门禁回归”等关键路径任务，则用预留资源兜底，实现稳定性与成本的最佳平衡。
精准负载画像：根据任务的 CPU、内存、I/O 密集度，动态匹配合适的实例规格，避免“大规格机型通吃”带来的算力浪费。
计算引擎性能调优：针对 Spark、Flink 等分布式引擎，通过优化执行计划、内存分配和数据倾斜处理，同时利用 Ray 等框架，在数据加载和预处理环节实现 I/O 与计算的并行，大幅提升单位 CPU 资源的吞吐效率。

4.2 GPU 资源：精细化治理与弹性填充

GPU 是自动驾驶研发中最昂贵的核心资产。传统的“独占式、人工占卡”模式，导致显存利用率低下，且实验任务之间的资源争抢，严重影响研发迭代效率。

优先级与抢占机制：依托云上资源调度能力，实现训练、评估与生产任务的分层管理，对空闲的 GPU 资源自动回收或降配，提升整体资源填充率。
细粒度共享：在短任务场景中引入时间片分配策略，支持小模型共享 GPU 资源，大幅提高昂贵算力的有效利用率。
国产 AI 芯片迁移：将部分训练、推理与评估场景，迁移至国产芯片，通过异构算力分流，进一步降低算力开支。

4.3 应用与资源解耦：构建工程化闭环

如果频繁因为底层资源变动而修改业务逻辑，会导致系统维护成本激增，且难以将“成本控制”沉淀为可量化、可优化的工程指标。嬴彻科技的解决方案，是将弹性、容错与调度逻辑，固化在底座层：

抽象编排层：将弹性、容错与调度逻辑固化在底座层，确保业务逻辑与物理资源完全分离，互不影响。
全链路可观测性：通过统一的任务定义与指标回写机制，实现对算力消耗的分钟级审计与追溯，让每一分算力支出，都能对应明确的业务产出。

从内部成本，到外部壁垒

解决了万级并发的难题，克服了调度雪崩的风险后，嬴彻科技在阿里云上，沉淀出了一套完整的自动驾驶研发工具链。

这套工具链最初只是公司内部的成本中心，但随着技术成熟度和成本控制能力实现双重突破，它完成了一次关键的角色跃迁：从内部工具，转型为具备对外交付能力的商业化产品。

这次跃迁的关键，在于嬴彻科技早期就遵循“标准接口优先”的选型原则，优先采用 Argo、Ray、Flink、Spark、Kubeflow 等开源生态工具，与社区技术路线保持一致。

这种架构选择，让平台天然具备多租户隔离、弹性扩缩和跨云可移植的能力，为商业化落地奠定了坚实基础。

而真正能够对外出售的，并非某个单一模块，而是一套经过真实业务极限测试的“确定性能力”——包括任务如何编排、资源如何分配、异常如何恢复、成本如何控制等全套解决方案。

但同一套工具链，对内和对外的云平台需求截然不同：对内，为了完成任务可以接受资源的“大起大落”；对外，必须保障多个客户之间的安全隔离和稳定交付。

为此，阿里云通过 ACK 的命名空间隔离与 ACS 的弹性配额管理，让嬴彻科技在同一套物理架构上，实现了内部业务与外部业务的逻辑隔离，以及资源的按需弹性伸缩。

行业内，很多传统主机厂都有自动驾驶研发需求，但从零搭建这样一套完整的生产线，不仅需要大量的时间和资金，更缺乏在极端并发、调度瓶颈中积累的工程判断力。

如今，嬴彻科技将整套工具链平台基于阿里云，交付给 OEM 厂商，并结合包括 AMD 在内的异构算力资源，为其提供大规模数据处理、仿真验证和成本优化的支撑。外部车厂的工程师，无需从零搭建系统，就可以直接在云端完成算法开发、规控调试、仿真验证和数据分析，同时受益于 AMD 等高性价比计算资源及科学的资源调度策略。

可以说，嬴彻科技交付的不仅仅是一套软件授权，更是一条经过八年干线物流场景极限验证的研发流水线，以及让这条流水线稳定运转的全套工程能力。

更重要的是，这种“按负载选择资源”的能力，可以被规模化复制到不同客户的场景中：AMD 通用算力作为更易获取、成本更友好的选择，让 OEM 厂商在快速搭建研发产线时，可以优先用高性价比的 CPU 资源，承载数据工程与仿真前后处理任务，将预算集中在关键的模型训练与验证环节，从而让“同样的流程、不同的资源组合”，成为可交付的核心价值之一。

通过接入更多 OEM 主机厂的研发场景，嬴彻科技本身也能持续获得新的反馈，进一步驱动核心能力的迭代优化。

从云算力的消费者，转变为智驾云平台能力的构建者，嬴彻科技的这次角色转变，并非简单“上云”就能实现，而是八年云原生实践沉淀出的能力外溢。技术选型中坚持的标准化原则，最终成为了对外赋能的开放性基础。

结语

云原生在最初阶段，往往只是优化系统架构的工程工具。但当业务被推向极限，它的真正价值才会显现：它不仅能重塑系统，更能决定企业能否将“应对极限的工程能力”，转化为“对外输出的商业壁垒”。

嬴彻科技用八年时间，走出了这样一条道路：搭建起让数据自我强化的智能生产线，将生产线推向极限，再突破极限，最终让生产线本身成为可交付的产品。

如今，几乎所有 AI 公司都在面对同样的考验：数据飞轮如何持续运转、算力如何合理控制、并发压力如何支撑。或许只需两三年，它们也会面临嬴彻科技曾经遇到的高强度并发挑战。

那些关于架构、合规与成本的前置选择，平时看似只是技术上的取舍，但到了业务规模化的关键节点，终将转化为一家公司的核心能力底座。

云原生的最终目标，不是把系统搬到云上，而是在云上拓展业务的新边界；当这个边界可以被复制和交付，基础设施就不再只是成本中心，更会成为平台能力对外输出的起点。