从“有算力”进化到“好用且用得起”。
2025年12月3日,「甲子光年」在北京万达文华酒店圆满举办“轰然成势,万象归一”2025甲子引力年终盛典。
在下午的AI模型、基础设施与生态建设专场中,「甲子光年」特邀六位来自基础设施关键环节的实践者——庭宇科技联合创始人&CTO陶清乾、清程极智联合创始人&产品副总裁师天麾、GMI Cloud工程VP钱宇靖、Zilliz合伙人&产品负责人郭人通、科杰科技联合创始人兼副总裁朱建勇,在主持人共绩科技联合创始人&CMO杜昔熺的引导下,围绕主题《AI基础设施建设下一步的着力点在哪里?》展开了一场务实而前瞻的对话。
从算力调度、数据治理到软件栈优化,AI基础设施的成熟度,直接关乎技术能否从演示走向规模化,从成本中心转化为生产力引擎。
然而,当前的基础设施版图仍充满挑战:算力是否“好用且用得起”?数据如何真正“就绪”?软件栈又如何弥合硬件与场景的鸿沟?
本场圆桌直击核心矛盾:在算力、数据、软件栈与商业模式的“木桶”中,究竟哪一块是最短的木板?嘉宾们从边缘云调度、推理引擎优化、全球化算力服务、向量数据库演进、数据平台重构等多重维度,剖析了当前制约AI规模化落地的真实瓶颈。
讨论进一步延伸至对未来杀手级应用的预测——无论是视频生成、企业智能体还是AI编程助手,其爆发都将对现有基础设施提出更为苛刻的要求。
从识别短板到构筑长板,从应对当下到备战未来,这场对话不仅勾勒出AI基础设施演进的技术图谱,更揭示了其背后深刻的产业逻辑与全球化竞争态势。
以下是本场圆桌的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。
杜昔熺(主持人):各位嘉宾、朋友们下午好,我是主持人杜昔熺(主持人),也是共绩科技联合创始人。今天很荣幸与各位专家在甲子光年盛会中探讨关键议题——在全面迈向AI+时代、构建开放协同生态的进程中,扎实的AI基础设施正是这一切的根基。首先,请各位用一分钟简单介绍自己和公司,从陶总开始。
陶清乾:大家好,庭宇科技成立于2019年,是一家边缘云技术服务商,专注于分布式算力与网络场景。近年来重点布局AI算力基础设施与Agent Infra解决方案,已积累多项行业落地经验。很高兴在此与各位交流。
师天麾:大家好,我是清程极智师天麾。公司于2023年底成立,团队源自清华大学高性能计算所,专注于AI Infra系统软件层,提供训练、推理、微调的端到端优化。目前客户涵盖多家国产芯片厂商、算力中心,以及石油、金融等行业企业,助力实现降本增效。
钱宇靖:大家好,我是GMI Cloud钱宇靖。GMI Cloud是全球首发六大Reference Platform NVIDIA Cloud Partner之一,总部位于硅谷,业务覆盖从GPU集群建设、基础设施即服务到模型即服务的全链条;主要服务美国本土及出海企业,目前正在建设亚洲首个万卡GPU集群的AI Factory。
郭人通:大家好,我是Zilliz的郭人通。Zilliz专注于向量数据库赛道,开源项目Milvus广泛应用于RAG、Agent等场景。我们已实现商业化,产品与服务覆盖全球。面对AI数据指数级增长,我们正探索将向量数据库演进为AI数据上下文数据库,以应对基础设施层面的挑战。
朱建勇:大家好,我是科杰科技朱建勇。科杰科技专注于人工智能-数据基础设施领域,核心产品数据智能平台KeenData Lakehouse服务于大型央国企,构建Data与AI一体化底座,推动数据要素流通与发展。目前已服务超200家客户,覆盖20多个行业,并拓展至东南亚、中东等海外市场。很高兴今日与各位同行交流。
1.AI基础设施如何制约AI应用的规模化落地?
杜昔熺(主持人):谢谢几位嘉宾。接下来进入核心环节:如果把AI基础设施比作一个木桶,算力、数据、软件栈、人才等都是木板。大家认为,当前制约中国AI应用规模化落地的最短的那块木板是什么?为什么?
陶清乾:我认为是软件技术栈和工具链。国内AI应用落地速度很快,算力等基础设施也具备优势,但应用层仍多停留在聊天、问答等场景。要让Agent真正在“执行层”上替代人、完成任务,实现“最后一公里”,还有很长的路要走。这是我们庭宇科技正在努力探索的方向。
师天麾:我认为短板在算力硬件与软件栈之间的协同。国内常讨论算力紧缺,但实际上不少算力并未被充分利用,核心在于硬件与软件的适配不够好,导致硬件“不好用”。我们开源的“赤兔推理引擎”,正致力于屏蔽底层硬件差异,统一接口,让国产GPU能先被方便地用起来,再逐步优化性能与性价比。
钱宇靖:从出海视角来看,判断短板其实很简单——就看token的生命周期:从一个token的需求发起,到它被及时返回,总耗时有多长?空置的token又被浪费了多少?
国内企业出海,首先面临算力掣肘;其次对海外算力不够了解,不知道通过什么渠道获取;当算力不足时,又该如何通过托管服务等方式找到平价替代方案。这正是我们GMI Cloud致力于解决的问题:帮助企业最大化GPU利用率,匹配最合适的算力,从而优化整个token的生命周期。
郭人通:在讨论 AI 在国内的大规模落地时,大家通常会从数据、算力、软件栈等基础设施维度去寻找瓶颈。但如果只聚焦单一市场,例如仅从中国市场来看,这些要素本身往往并不会构成不可逾越的障碍。真正的问题出现在全球化视角下:当企业不再只服务单一市场,而是面向多区域、多国家同步推进 AI 应用时,人才、组织能力与基础设施之间的协同短板便会被迅速放大。
如今,行业更多从全球化视角思考问题,例如出海或国际化。AI应用迭代必须迅速,一旦试点成功,就需快速向全球复制扩张。我们看到许多客户同时耕耘中国市场,并计划同步拓展欧美、东南亚等地。在运营模式上,有的设立国内外双实体,有的则将成本中心置于国内,业务面向全球。
无论采取何种模式,在高速扩张过程中,我刚才提到的那些基础设施要素——我不希望每个市场都成为彼此割裂的“烟囱”。恰恰在此处,现有的基础软件栈存在显著缺口:每进入一个新区域,都不得不重新构建许多组件。此时,短板效应便尤为突出。
以我们所在的向量数据库领域为例,关键在于能否在不同区域快速部署同一套系统,以支持业务的全球高速扩张,同时满足各地区的合规、安全与隐私要求。我认为,这些在落地实践中浮现的问题,比通常讨论的技术瓶颈更值得关注。
朱建勇:我认为在AI时代,算法、算力和数据是影响落地的三大核心要素。从产业结构看,国内已建设大量超算与智算中心,算力层面并无明显差距。算法层面,无论是DeepSeek、通义等大模型,国内外也并无本质差异。
最核心的短板在于数据。要将数据真正货币化,必须首先解决“数据就绪”问题。当前面临三大挑战:
第一,过去互联网和移动互联网积累的海量数据,在AI时代如何更高效地存储、计算和流通利用。
第二,从数据库、数据平台到AI基础设施时代,多元异构数据的融合处理问题。
第三,AI落地需要规模化推进,传统数据仓库或平台已无法满足大规模、广泛落地的需求,这对基础设施提出了全新挑战。
杜昔熺(主持人):接下来请陶总从边缘云与算力调度的视角回答:除了规模扩张,下一代算力基础设施需要在调度与服务层面实现哪些关键突破,才能让我们从“有算力”进化到“好用且用得起”?
陶清乾:这个问题很多企业都在面对。结合庭宇科技在分布式算力领域的实践,我认为需要实现三层突破:
第一层是异构适配与池化。无论是早期布局的渲染算力,还是当前的推理算力,核心逻辑都是将分散的算力集中池化使用。因此,首先要解决异构硬件、IDC环境与网络的通用化接入问题,这是基础。
第二层是性能与效能的工程优化。在推理算力领域,如何通过软件工程与大规模实践,将推理效用最大化,是让算力“好用”的关键。这需要深厚的技术积累与工程化能力。
第三层是场景化调度与服务性价比。基础设施要具备持续竞争力,最终要看服务性价比。这就需要基于多样化场景需求,在不同时间、不同场景下灵活调度同一批算力,通过覆盖更多行业应用来提升整体利用率。
从渲染算力到推理算力,我们始终遵循这三个层次的实践逻辑。
庭宇科技联合创始人&CTO陶清乾
杜昔熺(主持人):谢谢陶总。我们可以进一步聚焦到具体的计算任务和集群内部——如何将每一块GPU的潜力压榨到极致,这是个工程上的硬骨头。钱总,您之前在硅谷顶尖实验室和科技公司有过全栈经验,现在在GMI Cloud负责面向全球开发者的高性能推理平台。在您看来,若要构建一个全球统一的推理引擎,当前制约性能与成本的核心瓶颈是什么?GMI Cloud如何应对?
钱宇靖:这个问题可以从两个方向看:调度层与推理软件栈。
首先是调度层。对出海企业而言,业务往往按区域推进,需要在每个区域部署充足算力,或考虑将负载调度到较远的算力节点。调度层的效率直接影响成本——客户按卡时计费,既不愿算力闲置,也怕流量高峰时无算力可用。因此,我们建立了涵盖自运维集群与第三方数据中心的统一管控平台,以实现高效的GPU全局调度。
其次是推理软件栈。这方面的优化已从一两年前的实验室阶段快速普及,如今开源社区的性能已逐步逼近闭源方案。因此,软件栈层面的性能差距会持续缩小、趋于充分竞争,潜力将被不断挖掘。
综合来看,软件层的优化空间会越来越趋于饱和,而硬件调度层的全局优化,仍然是提升推理性能与成本效率的关键。
GMI Cloud工程VP钱宇靖
杜昔熺(主持人):谢谢钱总从出海视角的分享。师总,您在清程极智专注于大模型落地,在您看来,当企业将大模型投入生产环境时,在推理性能、成本和稳定性方面,最常见的瓶颈是什么?在推理基础设施层面,我们应该优先解决哪些问题,比如延迟、吞吐还是资源隔离?
师天麾:关于性能,关键在于结合具体场景、硬件条件与应用需求进行优化。相同硬件经不同调优,效果可能差距显著。为此我们通常与客户深入沟通,明确其硬件配置、并发规模及延迟要求,并由专家协助实现目标性能。
成本问题通常更为根本,主要体现在两方面:一是算力成本。我们通过软件优化降低硬件需求,例如将所需机器数量从二十台减少至十台。但目前许多企业尚未充分认识到软件在GPU时代的关键作用——不同水平的代码可能导致数十倍甚至上百倍的性能差异。值得欣慰的是,AI基础设施软件层的重要性正日益获得重视。
二是隐性成本,尤其是人才成本。AI基础设施领域人才稀缺、薪酬高昂,且培养周期长,企业自建团队难度大、成本高。因此,我们常与算力运营商合作,整合其硬件资源与我们的软件能力,形成互补。
至于稳定性,推理阶段相比大规模训练更易把控,局部故障通常不影响整体服务,因此并非主要瓶颈。我们更关注的,始终是在性能与成本之间为用户实现最优平衡与增效。
清程极智联合创始人&产品副总裁师天麾
杜昔熺(主持人):谢谢师总。郭总,我们知道推理服务离不开对模型及数据的管理。RAG是目前增强大模型知识的主流方案,向量数据库是其核心。但此前业界曾有质疑,认为向量数据库可能只是过渡方案。站在当下,您认为向量数据库在AI基础设施中的核心价值是什么?与一两年相比有何变化?下一步发展的关键点又是什么?
郭人通:这个问题在去年讨论很多,但近半年已很少听到。当前AI落地主要分两个方向:一是大模型厂商追求的通用智能,二是企业在垂直领域解决大模型不擅长的问题。
如今大家更倾向于将模型能力与外部知识分开:模型负责决策,垂直领域的事实性知识则通过向量数据库等方式提供。这不仅是为了对抗幻觉,行业还在结合知识图谱乃至更严格的逻辑建模方法来提升可靠性。
我们观察到,AI处理复杂任务时所依赖的上下文数据正呈指数级增长。仅看向量数据,头部客户的规模每年就以约十倍的速度增长。从成本与效果上看,将所有事实知识都编码进大模型是不现实的。因此,未来一定是数据基础设施与上层大模型决策能力紧密协作的格局。
Zilliz合伙人&产品负责人郭人通
杜昔熺(主持人):确实,无论是训练还是RAG,根基都在于高质量的数据。没有可靠的数据,再好的算力和模型都是空转。朱总,在AI时代,传统的数据湖、数据仓库与新兴的AI数据管理需求之间,您认为出现了怎样的差距?
朱建勇:当前企业推进AI落地时确实感受到明显挑战。传统数据库主要处理结构化数据,用于经营分析;数据湖技术则引入了非结构化数据处理能力。而AI时代的需求更进一步,需要统一存储和处理多模态数据,并实现数据工程与AI工程的深度融合。
从技术产品层面,新一代AI基础设施需解决四个核心:
1.多模态数据的统一存储计算与底层GPU算力的动态调度;
2.数据全生命周期(从采集、清洗到模型调优、Agent部署)与AI工程流程的深度融合;
3.依托数据治理与AI能力,构建高质量、可实时响应的数据集;
4.实现数据资源的高效管理与运用。
此外,面向大型组织落地时,仅有优秀的产品技术还不够,更需要一套适配AI时代的工作方法论——将工程能力、技术产品与具体业务场景结合,形成可推广的AI运营与落地体系。因此,产品技术与方法论的结合,是AI时代与传统数据管理最本质的区别。
科杰科技联合创始人兼副总裁朱建勇
2.下一个杀手级AI应用在哪里?
杜昔熺(主持人):谢谢朱总。刚才我们探讨了数据、应用、推理引擎等多个层面。现在想请五位嘉宾共同思考:除了当前的C端应用(如聊天机器人、文生图),下一波杀手级的AI应用可能出现在哪个领域?它又会对AI基础设施提出哪些今天尚未准备好、更为苛刻的新要求?
陶清乾:从人机交互形态来看,我们会从文字、图文走向更丰富的视频、3D乃至虚拟现实交互。因此,AI应用也将从聊天、文生图演进为支持双向、多模态的拟真互动。
其次,AI将逐步替代人在终端上执行的重复性、低价值或易出错的任务。这要求Agent具备规划与执行复杂任务的能力。下一波应用爆发时,必然需要更完善的Agent基础设施和行业解决方案来突破“复杂任务执行”这一关键瓶颈。
师天麾:刚才陶总说的交互式,包括元宇宙、虚拟现实这些,我觉得会是一个未来,只不过这个未来可能会稍微远一点。近一点的未来看,互联网发展到现在,技术可以变,人的需求是不会变的,大家最后喜欢的形态还是视频,比如现在短视频、短剧,这个力量非常大。所以我感觉下一个出现点是更好的图片和视频的生成。
现在最大的问题是又慢又贵,慢是一个点,但贵是很要命的。我之前跟一个动画导演聊过,他们是做动态漫画的,把文字先变成图片,再动起来,比普通漫画感官好一点。但我看了他们的全流程,有50%以上都可以用AI来降本增效。可他说实际上只有20%-30%能用AI,其他还得靠人工。为什么?因为AI太贵了。如果放到二三线城市,人工成本没那么高,但用AI生成视频的话,可能两分钟就把人一天的工资给干完了。这个时代太贵了,尤其像图片、视频还有抽卡机制,生成一次效果不行,得生成四次甚至十次,本来一次成本就高,十次真的扛不住。
因此,基础设施必须围绕图片、视频等多模态架构,在软件、硬件与算法层面进行系统性协同优化,切实提升速度、压低成本,这是必然的发展路径。
我们去年就跟生数科技一起合作,帮他们把图片生成工作流从30秒降到6秒。今年我们也继续在多模态上优化,明年应该也会做出更好的效果。
钱宇靖:从出海视角看,海外AI软件服务市场前景广阔,这一点已成为共识。但近期一项研究报告指出,目前可能仅有5%的企业真正用上了AI,其余95%的尝试均告失败。
这一现象值得关注。当前以传统软件服务模式引入AI,无论在基础设施还是产品形态上,或许都尚未成熟。我认为下一个杀手级应用必然是企业内部AI的大规模普及,无论是通过AI Agent实现自动化,还是借助生成式模型推动行业整体升级。
无论何种形式,都必须从行业内部出发,形成自上而下的应用路径,而非依赖外部推销软件。从AI基础设施的角度看,这带来了明确的挑战:私有化部署、企业内部算力整合、数据安全与合规要求,以及全球化场景下的多租户解决方案支持。
这正是当前AI基础设施层面最突出的问题,也是GMI Cloud持续致力于解决的——帮助企业以合规、安全的方式,在全球范围内落地AI基础设施。
郭人通:我最期待Coding领域的突破。现在更多是小型项目,但如果Coding加Agent能handle中型甚至大型项目,整个故事就完全不一样了。
现在基础设施标准化,业务千变万化。如果AI和Agent在底层也有强能力,厂商拼的就是复杂度控制。早些年超大型C语言分布式系统项目,我们能控制的复杂度很低。如果Agent进来,能帮我们抬金字塔高度,负责很多力气活和规模化复杂度,我们就有能力构建更复杂软件系统。
另外,国内做私有部署和定制化反而是优势,有能力接受这些定制化,而且不是以人力方式支撑企业营收增长。我确实很期待这个方向突破。
朱建勇:最近Databricks新融资估值1300亿美金,透露两个信息:
第一,接近40亿美金年化收入,50%年化增长支撑1300亿估值。
第二,基于传统Lakehouse能力引入AI人才,包括Agent,形成数据加模型加Agent一站式企业级服务战略。
这个定位对行业有颠覆性。很多组件型厂商面临挑战,比如数据库厂商、标注企业厂商、模型厂商、垂类Agent厂商等。
我认为这个定位蛮OK的,AI落地一定是基于数据加模型加Agent端到端的形式。
杜昔熺(主持人):感谢各位分享。时间关系,圆桌接近尾声。最后请每位嘉宾用一句话总结:贵公司致力于打造的不可替代价值是什么?客户为何选择你们?
共绩科技联合创始人&CMO杜昔熺
陶清乾:庭宇始终坚持分布式算力路线,在两大场景优势突出:一是为智能体提供运行所需的基础设施环境;二是未来大规模、高性价比的推理需求将逐步下沉至边缘。这是我们持续深耕的方向。
师天麾:清程极智专注于根据客户实际场景与硬件需求(无论国产或海外),提供定制化性能优化。凭借在性能优化领域的持续深耕,我们旨在成为企业不可或缺的算力合作伙伴。
钱宇靖:GMI致力于提供AI原生的一站式出海算力解决方案,核心是服务好客户的每一个Infra 需求,无论是Baremetal,还是Token。
郭人通:Zilliz作为AI原生数据库基础设施,关键词是“扩展”。一方面助力出海客户实现全球化服务的扩展;另一方面,当AI应用流量爆发时,确保底层基础设施能稳健承接,应对每周可能出现的指数级数据增长与超大规模系统挑战。
朱建勇:科杰科技始终致力于成为企业级Data&AI技术引领者。我们面向大型组织,构建数据底座以支撑其转型;同时,积极响应国家数据要素流通战略,以基础设施能力为数字经济发展贡献力量。我们坚信,中国科技企业有能力和担当走向全球,在AI时代竞争中做出应有贡献。
杜昔熺(主持人):谢谢朱总,也再次感谢各位嘉宾的精彩分享。希望台上台下都有所收获。祝大家工作顺利,万事如意!
(封面图及文中配图来源:2025甲子引力年终盛典)
热门跟贴