专访｜戴尔科技：解耦架构赋予企业IT进化主动权|dell|戴尔科技|服务器|知名企业|解耦架构|运维

古希腊哲学家普鲁塔克提出过一个著名的思想实验：如果忒修斯之船上的木板被一块块替换，直到没有任何一块仍是原物，这艘船是否还能被视为原来的那一艘？这一问题之所以能够被反复引用，在于其触及了事物更替的本质：当一个系统的组成部分被持续更换，身份与连续性应当由什么来定义？所以，只要这种“渐进替换”的过程存在，悖论就会在不同形态中反复出现。

时间来到2026年，这个抽象问题开始在企业级IT基础设施中获得现实的对应。现在，数据中心正经历的是一场长期、分阶段的重构。尽管现代化应用持续演进，但并未促使企业将旧有基础设施体系完全迁移到全新的计算体系，相反，绝大多数基础设施的调整都发生在业务持续运行的前提下——系统一边运行，一边被改造。

在实现路径上，这种演进表现为一系列局部的替换，企业首先引入新的现代化加速器，以承载推理等复杂负载；随后调整CPU架构，以匹配不断变化的计算密度；内存与存储层级被重新组合，网络拓扑和数据流向也随之被重构。单次调整看似有限，但在数年持续叠加之后，系统在物理构成和运行逻辑上，已经与最初部署时截然不同。

正是在这一过程中，“忒修斯之船”的思想开始变成企业级IT的具体痛点——“企业在推进数据湖仓和应对现代化负载时遭遇的瓶颈，表面上表现为性能或规模不足，本质却是基础架构缺乏演进能力。”这是戴尔科技集团大中华区信息基础架构解决方案事业部资深总监席与琛给出的判断。当计算、存储与加速能力被固化在一次性设计中，每一次新需求，都会被放大为系统级重构，成本和风险也随之累积。

戴尔科技集团大中华区信息基础架构解决方案事业部资深总监席与琛

正是在这样的背景下，戴尔科技提出“解耦架构”（Disaggregated Architecture），直面“忒修斯之船”的现实拷问。其核心目标是在硬件持续替换的过程中，让平台在逻辑层面保持一致，使业务始终运行在同一套系统之上，而不必反复迁移。

换个角度说，现在企业应该关心的，并不是服务器是否还是“原来的那台机器”，而是在不断演进的硬件之上，核心业务是否仍然可以被视为同一个系统、同一条生产线。

01 架构之变，终结“叉车式升级”

在过去二十年里，x86服务器的演进基本遵循同一种模式，每隔3～5年，随着CPU的迭代更新，企业需要对服务器进行整体更换。这种更新方式通常被称为“叉车式升级”（Forklift Upgrade）。

所谓“叉车式升级”，指的是为了获得新一代处理器的性能，企业须淘汰整台服务器，包括机箱、电源、散热组件以及I/O扩展卡等仍然可以继续使用的部件。这种做法，本质上源于服务器内部各类资源，在设计阶段就被紧密绑定在同一生命周期内。在以通用计算为主的时代，这种紧耦合架构尚能被接受，但随着现代化工作负载成为主流，这一模式开始暴露出明显问题。

其一，是算力需求节奏的不一致。有数据显示，现代化应用对GPU或NPU的需求变化很快，更新周期往往只有6个月左右，网络带宽的演进速度也在加快，从400G提升到800G通常只需要一年时间。相比之下，通用CPU的性能提升节奏明显放缓。如果企业因为引入新的部件而被迫整体更换服务器，或者仅仅为了升级GPU/NPU，就必须淘汰仍具价值的CPU、智能网卡和网络设施，整体拥有成本（TCO）将迅速上升。

其二，是业务系统之间的集成问题。席与琛指出，企业往往同时运行两类负载。一类是基于上一代硬件和虚拟化架构的传统ERP、CRM系统；另一类是基于容器和微服务架构的现代化应用。由于两类系统在基础设施层面缺乏统一设计，新旧架构之间容易形成集成断层，增加系统整合和运维的复杂度。在这一情况下，企业并不希望频繁进行整体基础设施更换，而是希望拥有一种架构，既能够稳定承载传统业务，又能够灵活支持新型现代化负载，同时避免每一次升级都推倒重来。

针对上述问题，戴尔科技的解决思路，是构建一个能够弥合所有断层的统一平台，即引入“解耦架构”，对硬件资源的组织方式进行重构。其中，作为负责计算的服务器设备，新一代Dell PowerEdge凭借OCP DC-MHS R1标准的模块化架构设计，为“解耦架构”思路提供核心技术基础。OCP DC-MHS R1标准的目标，是将服务器从一体化设备，拆分为多个可独立演进的模块。在DC-MHS R1的架构下，服务器主板不再承担所有功能，CPU和内存也被整合为独立的计算模组，通过标准接口与底座连接；机箱、电源、散热系统以及I/O组件同样模块化，接口标准统一，可跨代升级，也可作为长期使用的基础设施保留下来。

这种设计使得企业在升级基础设施时，只需要更换计算模组或特定组件，而无需整体更换服务器，从而延长了硬件资产的使用周期。

解耦架构的另一个关键点是“向前兼容性”。这是席与琛反复强调的关键词，也是解耦架构带来的巨大红利。服务器在设计阶段即为未来预留升级空间，使不同类型的资源可以按照各自的节奏进行更新。例如，当现代化应用的微调或推理任务需求增加时，企业可以优先升级计算模组；当数据规模扩大时，则可以集中扩展存储和I/O资源。计算、存储和网络不再被绑定在同一升级周期内，有助于降低整体投资成本。

通过DC-MHS R1的模块化设计，服务器底座实现了统一化。在同一物理架构下，企业可以根据实际需求，部署不同厂商的处理器平台。这种方式缩短了新技术的上线时间，也降低了对单一硬件厂商的依赖，为数据中心提供了更大的技术选择空间。

02 透视算力黑盒，运维从“响应”走向“预判”

如果说架构问题主要考验企业的投入能力，那么运维问题更多考验的是企业的组织和人力体系。如今，企业基础设施的边界正在被不断拉长。一方面，核心数据中心内服务器规模动辄上万台；另一方面，越来越多算力被部署到无人值守的边缘场景。

席与琛指出，当服务器数量达到万台量级时，传统依赖人工经验的运维流程会迅速失去效率。“上万台服务器需要部署、维护和运维，工序本身就会成为瓶颈。”

具体而言，在这一规模下，传统运维体系暴露出三类系统性问题。

第一，是可见性不足。运维人员往往无法准确判断哪些服务器处于空转状态，哪些已经接近过载。依赖传统SNMP的轮询机制，数据刷新周期以分钟计，难以捕捉短时间内的负载波动和性能异常。

第二，是系统复杂度失控。服务器的真实运行状态分散在硬件、固件、操作系统和虚拟化层等多个技术栈中，运维人员只能看到结果指标，却难以追溯问题源头。

第三，是人力资源无法覆盖边缘场景。在大量边缘节点中，往往缺乏常驻IT运维人员。同时，即便是固件升级或系统重装这类基础操作，一旦需要人工现场支持，成本就会被迅速放大。

针对运维层面的“不可见”和“不可控”，戴尔科技的核心思路是提升硬件自身的可观测性，并将数据直接交由系统分析，而不是单纯依赖人工经验判断。在新一代PowerEdge服务器中，戴尔科技的集成式远程访问控制器iDRAC（Integrated Dell Remote Access Controller）已演进至第10代，其角色也不再局限于以往的远程管理接口。席与琛表示，iDRAC 10强化了遥测流式传输（Telemetry Streaming）机制，覆盖服务器内部180余项硬件指标的数据，可通过遥测流式传输，将数据实时发送至分析平台，取代传统的轮询采集方式；此外，最新iDRAC 10支持24种不同的组件遥测映射，还提供自定义遥测报告功能。更重要的是，iDRAC的监控颗粒度进一步下沉，目前监控范围已经覆盖到CPU级别。这一层级的可见性，为性能瓶颈分析和资源调度提供了极大助力。

硬件数据是基础，真正降低运维复杂度的关键在于分析能力。

基于云的监测和管理解决方案Dell AIOps是定位明确的轻量化应用。系统会基于历史数据，评估不同时间段的正常负载、功耗和温度特征。服务器运行状态出现异常偏离时，即使尚未触发传统告警阈值，AIOps Infrastructure Observability也可以提前识别潜在风险。例如，在负载较低的时间段，服务器能耗突然异常上升，系统可能将其标记为恶意程序入侵或散热性能退化的早期信号。“这种方式，使运维从‘故障响应’转向‘风险预判’。”席与琛说。

在边缘计算场景中，自动化水平直接决定运维是否具备现实可行性。面对无人值守节点的部署难题，戴尔科技在PowerEdge体系中引入了零接触部署（Zero Touch Deployment）机制。实测数据显示，采用虚拟化就绪服务器后，单台设备的部署时间可缩短至少40分钟，同时减少约67%的安装步骤。

在戴尔科技的运维体系中，AIOps负责“看清正在发生什么”，零接触部署负责“把服务器正确地放上生产线”，而ProDeploy Infrastructure Suite则是将部署能力规模化、标准化的交付工具。通过ProDeploy Infrastructure Suite与iDRAC的协同，服务器在通电并接入网络后，即可自动使用服务器配置文件来进行硬件设置、固件更新，以及操作系统安装，整个过程无需人工介入。

这一机制，使PowerEdge服务器在边缘计算场景下具备真正的“即插即用”能力，也显著降低了分布式算力部署对现场运维人员的依赖。

03 “软硬协同”，击穿能耗天花板

在所有基础设施挑战中，最难被“绕过”的，是物理规律本身。

近年来，能耗已经成为算力部署中最严峻的挑战。随着CPU核心数持续攀升、高性能GPU成为标配，服务器的功耗结构正在发生根本变化，计算单元成为主要的耗能来源。目前，单台服务器功耗突破10kW已不再罕见，在部分高密度配置下，甚至出现一个机柜只部署一台服务器的极端情况。

这一变化，使传统数据中心同时面临两重压力。一方面，是传统散热能力的失效。在超高热密度条件下，依赖气流交换的传统风冷方案逐渐逼近极限，冷空气难以有效抵达真正的热源位置。另一方面，是供能能力的不足。不少数据中心在建设之初更重视空间规模，而非单位机柜供电能力，然而在面对新一代算力平台时，电力基础设施则难以支撑持续增长的负载需求。

针对热密度与能耗的双重挑战，戴尔科技在PowerEdge平台上采取的策略，是覆盖风冷、液冷与软件调度的系统性协同方案。席与琛将其概括为“软硬协同”。具体来说分为四个步骤。

1.Smart Flow：先解决“气怎么走”

在风冷仍占据主流的部署场景中，戴尔科技首先从机箱内部结构入手，对气流路径进行重构。通过将电源模块重新布局至1U/2U机箱两侧，并在内部划分更清晰的冷、热通道，Smart Flow设计降低了气流阻力，使冷空气能够更直接地抵达CPU、内存和存储等关键发热区域，从而提升整体散热效率。

2.多矢量散热：再解决“往哪吹、吹多少”

在结构优化之外，PowerEdge进一步引入多矢量散热（Multi-Vector Cooling）机制，对散热过程进行精细化控制。PowerEdge服务器内部部署了约50～70个高精度传感器，实时监测电源、I/O模块、计算单元等不同部位的热量变化。系统结合智能冷却算法，动态调节风量和风扇转速。

席与琛解释称，采用这一方式的目标，是为了在保证组件可靠性的前提下，尽可能降低风扇和系统整体功耗。例如，当局部I/O模块温度升高时，系统只针对该区域增强气流，而不会整体拉高风扇转速。

3.冷板式液冷：突破风冷上限

在运行大功耗的现代化负载时，算力密度继续提升，风冷不可避免地触及天花板。液冷已经成为现实选择。戴尔科技的智能冷却解决方案也已支持冷板式液冷，让冷却液直接流经CPU和GPU表面的冷板，高效带走核心热量。这一方案有效缓解散热压力的同时，也使高密度型号的服务器能够在不牺牲性能的情况下，显著提升机柜部署密度。

4.软件定义的能源管理

在硬件散热之外，戴尔科技同时将能源管理纳入软件层调度。利用OpenManage Enterprise Power Manager，管理员可以为服务器设置功耗上限，并根据业务优先级分配电力资源。结合Dell AIOps，系统还能对负载进行整合优化，识别季节性异常，并对能耗趋势进行长期预测，从而提升整体能源使用效率。

04 在硅片深处植入“信任锚点”，给服务器贴上“数字封条”

硬件散热和能源管理得到保障之后，下一步的挑战便是，如何在分布式、无边界的环境下，重建设备与系统的可信基础。

随着计算资源广泛分布在数据中心、边缘节点和多云环境中，物理边界不复存在，服务器安全面临新的挑战。从生产到运输，固件或关键组件都有可能被篡改，传统黑客可利用物流漏洞植入恶意模块，破坏系统完整性。其次是物理攻击风险，边缘设备缺乏现场保护，容易遭非法接入或篡改。再者是传统网络边界的失效，在设备分散、边界模糊的场景下，依赖防火墙和局域网络的安全策略已难以奏效。

席与琛指出：“在无边界、全分布的环境中，传统的安全手段已经行不通了，企业必须从源头、从设备底层开始重新建立信任。”事实上，戴尔科技的安全理念就是自底而上，从源头保障信任，覆盖了硬件和软件全链路，在无边界、分布式的环境中，这一理念尤其关键。

一方面是建立硅片级信任根（Silicon Root of Trust）。PowerEdge服务器在开机时，BIOS和固件启动链会通过硅片信任根校验完整性，如果固件被篡改，校验将失败，服务器就会拒绝启动。整个启动链全程受保护，确保系统从开机即可信，这正是企业构建零信任体系的第一道防线。

另一方面是SCV安全组件验证（Secured Component Verification），这可理解为服务器的“数字封条”。在生产、运输和交付环节，服务器组件可能被篡改。SCV功能通过加密证书，让企业验证各部件是否与原始配置一致。这就像给服务器贴上一张撕毁即失效的电子封条，让运输过程中的安全威胁无所遁形。

在此基础上，戴尔科技还构建了覆盖软件和虚拟化层的多层零信任体系。iDRAC 10支持TLS 1.2、SELinux，以及SHA-384/512高强度加密，并集成安全密钥管理（SEKM）；此外，新一代PowerEdge亦可结合SGX/TDX技术进行内存隔离，强化虚拟化环境的边界安全；同时，通过Cyber Recovery数据避风港，隔离保护备份数据，即便生产环境遭受攻击，也能快速恢复业务，抵御勒索和破坏。

整体来看，这套安全策略，形成了从底层硅片到整体硬件，再至软件的全链条防护，让企业在边缘和多云环境中自由部署服务器，也为业务连续性提供坚实保障。

05 形态追随负载，服务器“殊途同归”

解耦架构落地之后，服务器产品的分化开始加速。在以前，企业更关注“这一代服务器比上一代强多少”。而在算力、存储和网络可以独立演进的前提下，问题变成了，不同负载，是否需要不同形态的服务器。

席与琛的判断很明确，新一代Dell PowerEdge服务器围绕典型工作负载进行角色化设计，直接体现在产品形态的分化上。

在面向现代化应用与HPC的场景中，PowerEdge R7725与PowerEdge R6725的优先级较高。这两款服务器均搭载AMD EPYC第五代处理器，分别采用2U与1U双路设计，核心目标是在有限机架空间内，最大化释放并行算力与I/O能力。两款服务器可作为高密度算力节点存在，适合深度学习和高性能计算等重负载场景。在解耦架构下，这类服务器更像是“算力模块”的物理载体，强调可快速部署、可快速扩展。

从极致算力转向成本结构时，产品逻辑随之发生变化。PowerEdge R7715与PowerEdge R570对应的是虚拟化和软件定义存储的场景。PowerEdge R7715采用2U单路架构，充分利用处理器的多核优势，在保持I/O与存储扩展能力的同时，用单路形态替代传统双路服务器，从而显著降低虚拟化环境中的单位算力成本。PowerEdge R570则为企业部署软件定义存储节点提供了高性价比选择，强调性能、容量与成本之间的平衡，为大规模虚拟化和SDS部署提供稳定、可控的基础能力。

当企业的采购取向回到“稳态优先”时，PowerEdge R770成为更合适的选择。该机型搭载英特尔至强6处理器，主要面向ERP、CRM等核心业务系统。这类负载并不追求极限算力，而是更依赖平台成熟度、运行稳定性，以及长期能耗表现。PowerEdge R770的定位，正是在解耦架构体系中为这些关键系统提供持续、可靠的计算底座，充当支撑业务长期运行的“锚点”。

当计算进一步向云原生场景延伸，企业对服务器的选择，就需要衡量空间、密度与部署效率。PowerEdge R470采用的1U单路设计，主要应用于端Web应用和微服务架构，兼顾存储容量与配置灵活性；PowerEdge R670则是1U双路高密度机型，针对大数据和高并发场景，可在有限机房资源内实现更高的算力密度，支持算力池的快速扩展。此外，PowerEdge R6715，作为1U单路服务器，面向多核工作负载进行了针对性优化，适合对性能与空间同时敏感的数据中心环境。

06 写在最后：戴尔科技正帮助企业级IT掌握“进化的主动权”

透过PowerEdge的技术参数，会发现戴尔科技新一轮基础设施更新，是在帮助企业级IT重新掌握“算力的定义权”与“进化的主动权”。

在过去很长一段时间里，企业IT面临着“被动式”的增长焦虑，为了迎合日新月异的现代化应用，被迫接受硬件设施的整体快速折旧。但戴尔科技通过解耦架构、全栈智能与内生安全的重构，正在向业界展示“可持续的现代化”路径。这是企业级计算底座从“消耗品”向“战略资产”的属性跃迁。

具体来说：第一，资产管理的“颗粒度”从粗放走向精准。戴尔科技引入OCP DC-MHS标准并推行解耦架构，其价值在于实现了IT资产管理的“颗粒度”细化。在传统模式下，企业的投资是以“整机”为单位的粗放式投入。而在解耦架构模式下，企业获得了对算力、存储、网络进行“微分级投资”机会。这对于CFO和CIO而言，意味着CAPEX（资本支出）效率的质变，资金不再被捆绑在那些不需要升级的机箱和电源上，而是可以精准地投向最能产生业务价值的计算模块上。

这种设计不仅赋予了服务器“弹性”，对企业来说更是“财务的弹性”，让基础设施的更新节奏，能够完美匹配业务创新的步伐，让IT预算的每一分钱都变成了业务增长的助推器。

第二，算力设施的“超大规模化”。Dell PowerEdge的此次进化，实际上是将互联网巨头享有的“超大规模（Hyperscale）”技术红利，进行了“下放”。通过将模块化设计、液冷技术，以及遥测流式传输引入通用企业市场，戴尔科技帮助传统企业抹平与科技巨头之间的基础设施代差。这意味着，一家传统制造企业，也能在自家的私有数据中心里，构建起一套像公有云一样灵活、高效且具备高密度计算承载能力的架构。

第三，运维角色从“保运转”到“优算力”。当监控颗粒度持续下沉，当管理手段从被动响应转向预测性维护，IT运维团队的价值就转型为“算力效能的精算师”。在10kW+高密度机柜与边缘计算并存的复杂环境下，IT团队利用戴尔科技提供的智能化工具链，精确地优化工作负载的能效比（Performance per Watt），在物理极限内最大化业务产出。这种“基于数据的算力运营能力”，是现代化转型深水区企业的核心竞争力之一。

第四，自下而上的“确定性”。最后，从硅片信任根到服务器“数字封条”，戴尔科技提供了对企业而言最稀缺的资源——确定性。在算力无边界延伸的今天，企业需要将业务拓展到边缘、多云等不可控环境，通过戴尔科技自底向上的全链路防御体系，为企业构建了“可移动的安全锚点”。这本质上消除了企业在物理和逻辑边界上的顾虑，让业务创新可以无后顾之忧地延伸到任何有数据产生的地方。

这一轮升级之下，戴尔科技传递出一个理念——好的计算底座，不是最昂贵的，而是最灵活的，其能随业务生长而生长，随技术迭代而迭代，随环境变化而适应。

所以，戴尔科技将灵活性（Agility）、效率（Efficiency）与信任（Trust）统一在一套架构之中，为企业赢得了在现代化变革之下长跑的底气。

毕竟，在技术日新月异的今天，唯有能够适应变化的架构，才能在变化中保持不变的竞争力。