作者 | 青和
大模型爆发后,所有 AI 公司都陷入了同一种竞争模式:争抢数据、比拼算力、内卷模型。但真正能拉开差距的,往往不是这些资源本身,而是谁能把这三者整合起来,形成一条持续运转的完整生产线。
这种“资源整合”的挑战,很多大模型公司如今才深有体会,但自动驾驶行业早已被它反复考验。对自动驾驶而言,运营里程本身并不能直接转化为智能,它所带回的,大多是零散、杂乱且海量的原始数据;只有将这些数据持续转化为模型能力,里程才能真正成为企业的核心竞争力。
这也让云底座的角色发生了根本性变化:它不再只是后台的资源储备池,而是贯穿数据处理、模型训练、仿真验证和业务交付全流程的生产系统。短期来看,它影响的是研发效率;长期来看,它决定了业务能走多远、能做到多大。
基于这样的洞察,嬴彻科技在 2018 年成立之初,就做出了极具前瞻性的选择——全面上云。不仅研发系统上云,数据工程、在线业务、生产交付等所有环节,都全部运行在云端,不保留本地机房,彻底摆脱了技术包袱。
这家公司专注于卡车自动驾驶技术的研发和商业运营,为物流客户提供从自动驾驶技术到新一代 TaaS 货运网络服务的一站式系统解决方案。八年时间里,其云原生底座支撑起了令人惊叹的业务规模:嬴彻智能辅助驾驶系统的商用运营里程已超过 7 亿公里,处于全球领先水平;覆盖了中国 97% 的高速网络;数千台搭载嬴彻智驾系统的智能重卡,平均智驾里程占比超过 90%。
近日,作者与嬴彻科技云与数据基础设施负责人曹学成及其团队深入交流,试图还原这套云原生体系的发展过程。拆解嬴彻八年的云上实践,本质上是在回答一个更具普遍性的问题:一家 AI 公司,如何借助云原生架构,将解决算力极限的工程能力,转化为可对外交付的商业优势。
重卡智驾的护城河究竟是什么?
自动驾驶行业常被认为是“算法驱动”的领域,但进入规模化发展阶段,单一的算法已不再决定产品能力上限,真正决定企业胜负的,是“数据飞轮”(也就是数据闭环)。
它不是静止的数据池,而是一个能自我强化的循环体系:无论是车队在真实场景中产生的运营数据,还是虚拟场景下生成的合成数据,都必须经过标注、训练、验证等环节,才能转化为模型的核心能力;而模型上线后的实际表现,又会实时反哺数据采集,推动模型不断迭代优化。
在这条完整链路中,只有让数据顺畅循环,才能将其沉淀为企业的核心资产。任何一个环节出现卡顿,整个生产线的效率都会被拖累。
图注:嬴彻科技自动驾驶研发链路基于阿里云云原生底座,涵盖车端数据采集、清洗、训练、仿真评测与部署等环节,可支撑大规模任务编排、异构算力调度(AMD)和模型的持续迭代(其中模型训练环节目前采用多云架构)。
这也是理解嬴彻科技的关键切入点。它聚焦的并非普通乘用车场景,而是干线物流领域——这里的核心载体,是长期在高速网络上运行的重卡。重卡绝不是放大版的乘用车,其车体尺寸、载重结构、控制响应速度和运营场景,都让数据闭环的实现难度大幅提升。
具体来说,这种挑战主要体现在三个方面:
物理约束极严:重卡车体宽度可达 3.2 米,与 3.75 米的车道线之间仅剩下 25 厘米的余量;车货总重接近 50 吨,燃油底盘的响应延迟达 0.7 秒。这就要求智驾系统必须具备 400 米以上的远距离感知能力和 7 厘米级的横向控制精度。
挂车变量极大:占整车大部分重量的挂车,是缺乏传感器的柔性结构,会随着载重变化不断摆动,算法只能依靠车头的传感器,来推断整车的重心和姿态。
运营环境极严苛:在真实的物流网络中,重卡会遇到大雾、车辆加塞等复杂场景,任何一次判断失误,都会因重卡巨大的惯性和较长的制动距离被放大,对行驶安全提出了极高要求。
这三大约束决定了:重卡智驾不能靠“堆砌数据量”盲目发力。如果海量的零散数据无法被高效处理,反而会成为系统的负担。数据闭环的关键,在于能否在这些极限约束下,快速将零散的长尾场景,转化为可验证、可落地的模型能力。
嬴彻科技超 7 亿公里的智驾商用运营里程,正体现了这种高效处理数据的能力:从 0 到 5 亿公里,用了数年时间;从 5 亿到 6 亿公里,不到四个月;从 6 亿到 7 亿公里,仅用了一个月。按照预期,到 2028 年中期,这一里程数字将达到 50 亿公里。
图注:嬴彻智能辅助驾驶系统商用运营里程持续加速增长
从 7 亿公里向 50 亿公里迈进,意味着嬴彻科技面临的不再是线性的规模增长,而是一条加速运转的数据飞轮。更多真实场景的数据进入系统,更多零散的长尾问题被识别、挖掘和验证,模型的训练、仿真与迭代速度也必须同步提升。此时,核心矛盾已不再是“算法能否更优”,而是“这条智能生产线能否持续稳定运转”。
这也揭示了重卡智驾护城河的真正形态:表面上看是智驾算法和里程数据,深层次来看,是一套能在极限高压下,持续将数据转化为模型能力的工程系统。
飞轮的共性难题:
异构算力与潮汐式负载
当理论上的数据闭环落地为真实的工程系统,AI 公司的焦虑就从“如何用数据”,转变为“如何更好地用资源支撑数据闭环运转”。
数据闭环的链路本身具有极强的关联性:从数据采集、清洗、挖掘、标注,到模型训练、评估、仿真回归,任何一个环节出现阻塞,都会导致整体迭代周期变长、反馈速度变慢。
更棘手的是,这条链路上的每个环节,对算力的需求截然不同。
数据处理和场景挖掘属于 CPU 与 I/O 混合型负载,大规模的数据清洗、解析和特征提取,瓶颈往往不在于纯算力,而在于存储带宽、小文件处理和元数据服务的效率。
模型训练属于 GPU 密集型负载,分布式训练和超参搜索,需要高吞吐的存储和网络支持,同时还需要对 GPU 进行精细化的配额、优先级和抢占管理。
仿真验证属于高并发弹性计算负载,场景级的并行回归会在版本发布前集中触发,对任务启动速度、调度效率和资源回收能力提出了极高要求。
这三类负载必须运行在同一条生产线上,共享同一套基础设施,但它们对资源的需求差异极大,几乎没有“共同语言”。这就是“异构资源调度”的核心难题:不是某一类算力不足,而是三种形态的算力需求同时存在、相互竞争,调度系统必须持续进行动态平衡。
对业务而言,这不是底层资源的简单问题,而是直接影响研发节奏的关键:资源调度慢一步,模型迭代就慢一步;仿真回归排队一天,算法落地装车就晚一天。
让问题更复杂的,是这些算力需求的时间分布特征——潮汐式负载。
日常状态下,模型训练与数据处理任务持续运行,资源需求相对稳定,系统处于低负载状态;但每到版本发布或回归验证前,仿真任务会集中爆发,并发需求瞬间达到日常的十倍甚至更高。
这种极端的峰谷落差,让任何基于固定资源池的方案都陷入两难:按照峰值需求配置资源,平时会出现大量闲置;按照日常负载配置资源,峰值时生产线会出现排队,迭代周期被拉长,反馈速度带来的优势也会彻底消失。
异构算力与潮汐负载,共同构成了数据飞轮难以跨越的结构性困境。
飞轮加速逼出云上进化:
从“可用”到“极限可用”
随着量产车规模扩大、数据回传量激增,行业的结构性困境很快在嬴彻的生产线上显现出来,最终聚焦为两个必须解决的核心问题:高并发的任务编排,以及潮汐负载下的弹性算力。
突破并发瓶颈:从“兼容开源”到“企业级增强”
在发展早期,嬴彻科技采用开源版本的 Argo Workflows,来串联数据清洗、仿真、训练等不同类型的任务。在中小规模的业务场景下,这套方案运转良好。但随着数据飞轮转速加快,当并发任务量攀升至万级甚至十万级时,开源组件在控制面稳定性和资源争抢隔离方面的固有瓶颈,开始逐渐显现。
面对这一挑战,嬴彻科技没有选择投入大量人力进行运维修补,而是与阿里云团队达成深度合作,将任务编排系统全面迁移至阿里云容器 Argo 工作流集群(托管版)。
这次迁移并非简单的“系统搬家”,而是一次架构层面的全面增强。阿里云团队在保持社区协议兼容的前提下,针对高并发场景进行了系统性的内核优化:
控制面加固:解决了海量任务调度下的状态同步延迟问题,确保工作流引擎在极端压力下,依然能保持稳定、可预期的表现。
可观测性升级:针对百万级任务规模,重构了监控数据采集链路,消除了大规模集群下的监控盲区和性能损耗。
精细化治理:引入基于 OIDC Token 的 SSO 登录和细粒度的资源 Quota 分配机制,满足了企业级多团队协作的安全与隔离需求。
这种深度合作带来了显著的“反哺效应”:嬴彻科技在生产环境中遇到的极端场景(如 Sidecar 事件的高频回写、复杂工作流的参数透传),成为检验云产品稳定性的最佳测试场景。这些问题被逐一攻克后,沉淀进阿里云的产品代码库,不仅支撑了嬴彻科技的业务发展,也提升了阿里云面向所有大规模 AI 客户的交付能力。
破解弹性难题:定义“瞬时爆发力”
如果说调度系统是数据飞轮的神经中枢,那么算力就是它的肌肉。自动驾驶的仿真验证具有典型的“潮汐效应”:日常运行平稳,但在版本发布前的回归验证阶段,并发需求会瞬间爆发至日常的十倍甚至百倍。
传统的云计算弹性伸缩,往往存在分钟级的滞后,且单集群的并发实例数有上限。对嬴彻科技而言,这意味着每次版本发布都是一场与时间的赛跑——如果容器启动速度慢,算法上车的节奏就会推迟一天。
为了打破这一技术瓶颈,阿里云以 ACS 作为云基座核心,对底层调度逻辑进行了专项定制化优化:
极速启动优化:协同优化了实例创建流程和镜像分发链路,大幅缩短了冷启动时间,让算力能够“召之即来”。
并发上限突破:通过重构资源分配算法,显著提升了单账号及单集群的并发实例上限,让“万级容器同时启动”从理论变为实际可实现的工程常态。
确定性服务保障:引入分层队列与优先级调度机制,确保在资源极度紧张时,“回归门禁”等关键路径任务依然能获得稳定的算力支持,不受其他低优先级任务的干扰。
优化完成后,曾经制约数据飞轮转速的“弹性墙”彻底消失。万级并发不再是系统的负担,反而成为一种可被精准调度和治理的工程能力。
从降本到治理:重塑算力成本
当高并发和大数据处理吞吐率成为常态后,成本就成为了影响业务发展的另一关键因素。
云原生的成本优化,核心不是“把资源用满”,而是通过合理的调度与治理,将业务负载匹配到“更合适的资源组合”,在不修改或尽量少修改应用的前提下,持续降低单位算力的成本。
具体来说,以计算资源为例,嬴彻科技围绕三个维度,开展了系统性的成本优化工作:
4.1 通用计算资源:异构混部与负载画像匹配
自动驾驶涉及海量的离线批处理和数据清洗任务,传统的“单一机型、按量采购”模式,不仅导致算力成本居高不下,还难以应对负载波峰波谷带来的资源浪费。
在这类 CPU 与 I/O 混合型负载中,真正实现“省钱”的关键,是找到性能、吞吐与成本之间的最佳平衡点。以 AMD 通用计算为代表的高性价比算力,配合云上调度的无感迁移和弹性伸缩能力,让嬴彻科技在不改变既有数据链路代码的前提下,将大规模离线批处理、清洗解析等作业,稳定运行在更合适的资源组合上,为后续的模型训练与仿真环节,“腾出”更稀缺的高端算力。
多架构 CPU 混部:引入 AMD 算力的同时,通过阿里云调度机制,在不改动代码的前提下,将任务优先调度至高性价比机型,实现 10%-20% 的成本优化。
Spot 与按量混合调度:将大规模回放等容错性高的作业,部署在 Spot 实例上;而“门禁回归”等关键路径任务,则用预留资源兜底,实现稳定性与成本的最佳平衡。
精准负载画像:根据任务的 CPU、内存、I/O 密集度,动态匹配合适的实例规格,避免“大规格机型通吃”带来的算力浪费。
计算引擎性能调优:针对 Spark、Flink 等分布式引擎,通过优化执行计划、内存分配和数据倾斜处理,同时利用 Ray 等框架,在数据加载和预处理环节实现 I/O 与计算的并行,大幅提升单位 CPU 资源的吞吐效率。
4.2 GPU 资源:精细化治理与弹性填充
GPU 是自动驾驶研发中最昂贵的核心资产。传统的“独占式、人工占卡”模式,导致显存利用率低下,且实验任务之间的资源争抢,严重影响研发迭代效率。
优先级与抢占机制:依托云上资源调度能力,实现训练、评估与生产任务的分层管理,对空闲的 GPU 资源自动回收或降配,提升整体资源填充率。
细粒度共享:在短任务场景中引入时间片分配策略,支持小模型共享 GPU 资源,大幅提高昂贵算力的有效利用率。
国产 AI 芯片迁移:将部分训练、推理与评估场景,迁移至国产芯片,通过异构算力分流,进一步降低算力开支。
4.3 应用与资源解耦:构建工程化闭环
如果频繁因为底层资源变动而修改业务逻辑,会导致系统维护成本激增,且难以将“成本控制”沉淀为可量化、可优化的工程指标。嬴彻科技的解决方案,是将弹性、容错与调度逻辑,固化在底座层:
抽象编排层:将弹性、容错与调度逻辑固化在底座层,确保业务逻辑与物理资源完全分离,互不影响。
全链路可观测性:通过统一的任务定义与指标回写机制,实现对算力消耗的分钟级审计与追溯,让每一分算力支出,都能对应明确的业务产出。
从内部成本,到外部壁垒
解决了万级并发的难题,克服了调度雪崩的风险后,嬴彻科技在阿里云上,沉淀出了一套完整的自动驾驶研发工具链。
这套工具链最初只是公司内部的成本中心,但随着技术成熟度和成本控制能力实现双重突破,它完成了一次关键的角色跃迁:从内部工具,转型为具备对外交付能力的商业化产品。
这次跃迁的关键,在于嬴彻科技早期就遵循“标准接口优先”的选型原则,优先采用 Argo、Ray、Flink、Spark、Kubeflow 等开源生态工具,与社区技术路线保持一致。
这种架构选择,让平台天然具备多租户隔离、弹性扩缩和跨云可移植的能力,为商业化落地奠定了坚实基础。
而真正能够对外出售的,并非某个单一模块,而是一套经过真实业务极限测试的“确定性能力”——包括任务如何编排、资源如何分配、异常如何恢复、成本如何控制等全套解决方案。
但同一套工具链,对内和对外的云平台需求截然不同:对内,为了完成任务可以接受资源的“大起大落”;对外,必须保障多个客户之间的安全隔离和稳定交付。
为此,阿里云通过 ACK 的命名空间隔离与 ACS 的弹性配额管理,让嬴彻科技在同一套物理架构上,实现了内部业务与外部业务的逻辑隔离,以及资源的按需弹性伸缩。
行业内,很多传统主机厂都有自动驾驶研发需求,但从零搭建这样一套完整的生产线,不仅需要大量的时间和资金,更缺乏在极端并发、调度瓶颈中积累的工程判断力。
如今,嬴彻科技将整套工具链平台基于阿里云,交付给 OEM 厂商,并结合包括 AMD 在内的异构算力资源,为其提供大规模数据处理、仿真验证和成本优化的支撑。外部车厂的工程师,无需从零搭建系统,就可以直接在云端完成算法开发、规控调试、仿真验证和数据分析,同时受益于 AMD 等高性价比计算资源及科学的资源调度策略。
可以说,嬴彻科技交付的不仅仅是一套软件授权,更是一条经过八年干线物流场景极限验证的研发流水线,以及让这条流水线稳定运转的全套工程能力。
更重要的是,这种“按负载选择资源”的能力,可以被规模化复制到不同客户的场景中:AMD 通用算力作为更易获取、成本更友好的选择,让 OEM 厂商在快速搭建研发产线时,可以优先用高性价比的 CPU 资源,承载数据工程与仿真前后处理任务,将预算集中在关键的模型训练与验证环节,从而让“同样的流程、不同的资源组合”,成为可交付的核心价值之一。
通过接入更多 OEM 主机厂的研发场景,嬴彻科技本身也能持续获得新的反馈,进一步驱动核心能力的迭代优化。
从云算力的消费者,转变为智驾云平台能力的构建者,嬴彻科技的这次角色转变,并非简单“上云”就能实现,而是八年云原生实践沉淀出的能力外溢。技术选型中坚持的标准化原则,最终成为了对外赋能的开放性基础。
结 语
云原生在最初阶段,往往只是优化系统架构的工程工具。但当业务被推向极限,它的真正价值才会显现:它不仅能重塑系统,更能决定企业能否将“应对极限的工程能力”,转化为“对外输出的商业壁垒”。
嬴彻科技用八年时间,走出了这样一条道路:搭建起让数据自我强化的智能生产线,将生产线推向极限,再突破极限,最终让生产线本身成为可交付的产品。
如今,几乎所有 AI 公司都在面对同样的考验:数据飞轮如何持续运转、算力如何合理控制、并发压力如何支撑。或许只需两三年,它们也会面临嬴彻科技曾经遇到的高强度并发挑战。
那些关于架构、合规与成本的前置选择,平时看似只是技术上的取舍,但到了业务规模化的关键节点,终将转化为一家公司的核心能力底座。
云原生的最终目标,不是把系统搬到云上,而是在云上拓展业务的新边界;当这个边界可以被复制和交付,基础设施就不再只是成本中心,更会成为平台能力对外输出的起点。
热门跟贴