火山引擎云基础设施如何支撑大模型应用落地|大模型应用|推理|火山引擎云|罗浩

作者｜cici

2024年被普遍认为是“大模型落地应用元年”，而要让大模型真正落地应用到企业的生产环节中，推理能力至关重要。所谓“推理能力”，即大模型利用输入的新数据，一次性获得正确结论的过程。除模型本身的设计外，还需要强大的硬件作为基础。

在8月21日举办的2024火山引擎AI创新巡展上海站活动上，火山引擎云基础产品负责人罗浩发表演讲，介绍了火山引擎AI全栈云在算力升级、资源管理、性能和稳定性等方面做出的努力，尤其是分享了针对大模型推理问题的解决方案。

罗浩表示，在弹性方面，与传统的云原生任务相比，推理任务，以及面向AI native应用，由于其所对应的底层资源池更加复杂，因此面临的弹性问题也更加复杂。传统的在线任务弹性，主要存在于CPU、内存、存储等方面，而AI native应用的弹性问题，则涉及模型弹性、GPU弹性、缓存弹性，以及RAG、KV Cache等机制的弹性。

同时，由于底层支撑算力和包括数据库系统在内的存储都发生了相应的变化，也导致对应的观测体系和监控体系出现不同的变化，带来新的挑战。

在具体应对上，火山引擎首先在资源方面，面向不同的需求，提供了更多类型的多达几百种计算实例，包括推理、训练以及不同规格推理和训练的实例类型，同时涵盖CPU和GPU。

在选择实例时，火山引擎应用了自研的智能选型产品，当面训练场景或推理场景时，在给定推理引擎，以及该推理引擎所对应的模型时，都会给出更加适配的GPU或CPU实例。该工具也会自动探索模型参数，包括推理引擎性能等，从而找到最佳匹配实例。

最后，结合整体资源调度体系，可以通过容器、虚拟机、Service等方式，满足对资源的需求。

而在数据领域，目前在训练场景，最主要会通过TOS、CFS、VPFS支持大模型的训练和分发，可以看到所有的存储、数据库等都在逐渐转向高维化，提供了对应的存储和检索能力。