Together AI打造全球首个5000 词/s云智能平台：整合分散GPU,开发Transformer替代模型|ai|gpu|transformer|云智能平台|算法

本文为 1047字，建议阅读 3分钟

together.ai是一个为AI创业公司提供训练，推理服务云平台的公司，事实上，它也是一个拥抱开源生态的全栈AI公司

成立于2022年6月的Together AI，自诞生之日起就秉持着开放与独立的人工智能系统理念，致力于打造一个支持开源、为独立用户所有模型的开发平台，为非大型实验室前沿模型提供强大的技术支持。随着公司快速发展，在2023年11月成功完成了约1亿美元的A轮融资，估值区间高达3.6亿至5.65亿美元，展现了其在新一波AI热潮中不可忽视的地位。

Together AI的独特之处在于其全栈式的研发模式，从底层内核到高级数学抽象，全面优化AI推理算法和新型模型架构。短短一年间，该公司在多个领域取得了突破性进展，例如发布了RedPajama系列开源预训练数据集，以及一系列SOTA模型如RedPajama-INCITE-3B和7B、FlashAttention-2等。尤其是首席科学家Tri Dao主导研发的FlashAttention-2

与此同时，Together AI积极推动并资助Transformer替代方案的研究。Hyena状态空间模型与Transformer模型融合而成的StripedHyena就是一个典型的例子，而Medusa则提出了一种多头解码机制以取代传统的推测解码方式。此外，MonarchMixer作为NeurIPS 2023上的热门口头报告之一，通过用Monarch矩阵替换Transformer模型的核心部分，实现了计算效率的显著提升。

在云计算服务方面，Together AI独树一帜地提出了“分散式GPU”的概念，不同于传统云服务商将大量GPU集中部署，他们整合全球异构计算资源，构建了一个统一的开发者接口层。截止至2024年2月，平台上已拥有约8000块A100和H100 GPU，总计算能力超过20 exaflops。这一创新之举让客户能够根据任务需求灵活利用各类GPU资源，无需成为硬件专家也能轻松实现模型推理

尤其值得关注的是，Together AI着重强调硬件感知算法的重要性，例如FlashAttention和Mamba等，它们旨在进一步优化资源使用，并通过与硬件协同设计推动整体性能提升。同时，Together AI还致力于推进混合架构的研发，认为未来的AI可能并非完全告别Transformer，而是形成“半Transformer”结构，即包含Transformer层与状态空间模型层的组合体。

针对当前AI推理速度的关键挑战，Together AI正努力追求5000 tok/s的目标速率，这不仅能解决GPU算力瓶颈问题，还能极大地提高服务效率，使得同一台GPU设备可以服务于比现在多出30倍的客户群体。这一愿景对于任何云端服务商而言，无疑具有巨大的吸引力和商业价值。