今天我们来聊点特别的,量大、神秘的大厂网络。
网络这东西,是个理论为底、实践为本的经验知识体系,如果不是天天摸它、盘它、挊它,很快就忘掉。
为什么大厂网络比园区网神秘,就是因为它规模够大,并不是每个甲方都需要,接触的网工自然就少。
从今天开始,我打算在特大号起个专栏,陆陆续续写些小文,把大厂网络的特点介绍一下,让这个领域“卷”起来。
01、大厂网络分类
规模大才能称得上大厂,网络至少20万个接入端口,也就是10万台服务器,是个门槛,再往上还有20万、50万、100万台服务器这几个档位。
量变引起质变,所以对网络的分类自然和以办公为主体的园区网络有了本质变化↓
一、DCN,数据中心网络,专门伺候一个数据中心园区内的服务器高速互联用的,这几年因为AI的发展,概念上也有了分化。
①front-end或者TCP或者机头网络:
每家大厂都会有自己的命名体系,当看到不同厂的文档时,需要读者进行理解上对齐。
这就是传统的DCN,服务器的业务网络,承载Overlay的Underlay,同时跑也存储这类大流量,也支持不那么高性能的RDMA。
②back-end或者RDMA或者HPN或者scale-out网络或者IB网络或者RoCE网络:
也有叫计算平面、参数平面的,名称非常多,AI时代的产物,专门用于GPU或者加速卡之间的高性能RDMA通信。
③scale-up网络或者超节点网络:
顾名思义,超节点才需要的内存总线网络,通常由GPU或者加速卡厂商绑定,大厂也会自研这部分网络。
这部分网络通常要跨界计算体系结构,纯网工已经完全不够用了。
④互联器件:
和股市反映的现实一样,光模块等互联器件在DCN中无比重要,通常会有专门的小分队来跟踪互联器件的技术路线。
二、DCI,数据中心互联,也就是把不同的数据中心连起来,并且通过自建的OTN给够带宽,也根据OTN的类型分为以下几种。
①城域DCI,裸纤资源较充沛,通常会自建OTN来满足想扩就扩的带宽需求
②骨干DCI,跨省的裸纤就不那么好找了,会根据实际带宽需求的TCO成本来考虑是租用运营商线路还是自建OTN。
OTN,物理层的技术体系,通常也是一个单独的架构,量大了就会采取更为自主可控的技术路线。
三、公网或者外网,有的厂会独立架构,也有的厂因为多地域出口需要用骨干DCI提供调度也会放到DCI里。
大厂不会给所有服务器提供直接的公网接入,所有公网都通过专用的网关或者代理网元提供,这类网元都是基于服务器集群或者专用可编程硬件集群,构造了一个性能无限、更为自主可控的公网访问控制体系。
①国内公网:
国内公网就3大,静态和BGP互联可选,覆盖分布较为简单,运营模式较内网复杂N倍。
②国际公网:
运营商覆盖分布零散,自由的BGP互联,有穿透和非穿透互联,也有专线互联和IX互联。
每种互联选项都有不同的覆盖质量和服务等级,如果是国产网工要上手这部分,背景知识就得花好几个月,应该是国内公司的N倍复杂度。
四、边缘网络,有的厂也会加入到DCI里头,主要是随着CDN、边缘计算等业务的兴起,需要一个专门的网络分类来满足这部分需求。
①边缘内部网络,类似迷你的DCN + 迷你的公网。
②边缘回源网络,属于DCI的毛细分支,有的厂为了有更好的回源质量用了专线,有的厂则直接复用边缘庞大的公网出口。
五、虚拟网络,也有叫容器网络或者云网络的,熟知的Overlay。
①VS网元,部署在服务器上,实现计算资源的Overlay的接入。
②网关网元,分布式的各类网元,提供虚拟组网路由、NAT、4/7层代理、限速、访问控制、专线接入、VPN等功能。
这些网元通过Underlay实现互联,Overlay挂载相同的VPC实例,这个VPC就变成一个逻辑功能不亚于物理网络的虚拟网络了。
六、带外网络,这部分是最接近园区网络的分支,通常会和办公网络打通,会独立一套组网资源,避免与生产网络形成相互依赖。
七、研发体系,这不是具体的网络类型,但对大厂却很重要,这部分代表了自主可控,所有网工智慧结晶与优秀代码的结合产物,阵型划分每个厂都有自己的偏爱,大家理解上对齐就好了。
资产管理,固态数据;配置管理,静态数据;监控管理,动态数据。
告警管理,处理不同数据的专家策略,代替人眼快速感知网络的健康状态。
自动化,代替网工执行成熟的SOP。
SDN,可能也不用这个词,定位已经不是取代路由协议了,而是作为一个高级工具,简单来说就是能够代替专家看懂全局网络,并且能够基于全局网络做一些流量调度以提供更高级的网络运营能力。
高性能网络,专长在拥塞控制算法、RDMA协议栈的网络开发专家,与熟练的网络工程人员密切配合,在HPN网络上跑出让大模型满意的性能。
自研体系能力,只要量够大,万物皆可自研或者自定义,不论是咱们的军工体系还是大厂抄作业的对象——Google都有力地证明了这一点。
通常是从自研交换机OS开始的,统一各种管控面拔高可靠性和效率指标的上限,这也是园区网络的网工很体会到的点,如果量够大,评估收益够可观,自研光模块、自研OTN、甚至联合研发硬件、芯片都不在话下。
02、如何评价大厂网络的水平
建得好不好,通常不由自己说了算,也不由同行说了算,而是看公司业务发展有没受影响。
公司业务发展没受制约,说明不错,再横向对比一下同行的同维数据,那基本上就知道段位了。
大厂网络的独特性本质是来说是评价体系造就出了技术框架↓
一、可靠:
衡量网络的首选要素,故障多不多、出了故障修复得快不快,就这2个朴素的指标。
为了满足这2个指标不影响业务发展,多少网工掉了多少头发去填坑补漏,优秀的网工都是趟过最多坑的那一群人。
二、经济:
在满足业务基础要求的前提下,在指定范围内的单位TCO成本,有的场景是接入端口,有的场景则是带宽。
作为一个类似小区水电工的纯成本角色,毕竟量这么大,这也是老板们最爱的指标。
环比、同行比、拆细了维度再比,很多园区网络不理解地方都是因为没受这样的成本模型考核。
三、效率:
主要考虑的是能不能交付、交付够不够快。
可能大家认为这就是堆人的活,但如果考虑到芯片断供、某个供应商服务能力很差严重影响业务这些黑天鹅,并且要把这些可能的问题从事前规避而非事后教训,这也是园区网络很难体会的一个点。
四、经营:
比如用兼顾以上3个维度要求的技术方案去满足业务需求、QoS服务的可不可以靠差价赚点微薄利润、在业务还没有明确的要求的时候要不要推广200G接入端口……
一个好的经营,需要综合调研、精算、方案论证和立项等策划工作,也需要设计、项目管理、执行、运营等长期落地工程,还需要长期跟踪这个产业五花八门的技术动态以达到借鉴作用,甚至有没有必要冒一定的风险在业界吃一口螃蟹。
能做好经营的网络团队,那都是大厂中的顶流,说明团队阵型合理、技术储备充分、同时有明确的技术战略路线作为指引、并且可以把相应的战略目标落实实现等等……
经营,可以说是大厂网络和园区网络最为全面的区别。
好了,第一期就介绍这些基础概念吧,后面再挑些具体的点来管中窥豹。
也欢迎大家在评论区留言或者加我微信,共同交流探讨。
热门跟贴