本文为 1047字 ,建议阅读 3分钟
together.ai是一个为AI创业公司提供训练,推理服务云平台的公司,事实上,它也是一个拥抱开源生态的全栈AI公司
成立于2022年6月的Together AI,自诞生之日起就秉持着开放与独立的人工智能系统理念,致力于打造一个支持开源、为独立用户所有模型的开发平台,为非大型实验室前沿模型提供强大的技术支持。随着公司快速发展,在2023年11月成功完成了约1亿美元的A轮融资,估值区间高达3.6亿至5.65亿美元,展现了其在新一波AI热潮中不可忽视的地位。
Together AI的独特之处在于其全栈式的研发模式,从底层内核到高级数学抽象,全面优化AI推理算法和新型模型架构。短短一年间,该公司在多个领域取得了突破性进展,例如发布了RedPajama系列开源预训练数据集,以及一系列SOTA模型如RedPajama-INCITE-3B和7B、FlashAttention-2等。尤其是首席科学家Tri Dao主导研发的FlashAttention-2
与此同时,Together AI积极推动并资助Transformer替代方案的研究。Hyena状态空间模型与Transformer模型融合而成的StripedHyena就是一个典型的例子,而Medusa则提出了一种多头解码机制以取代传统的推测解码方式。此外,MonarchMixer作为NeurIPS 2023上的热门口头报告之一,通过用Monarch矩阵替换Transformer模型的核心部分,实现了计算效率的显著提升。
在云计算服务方面,Together AI独树一帜地提出了“分散式GPU”的概念,不同于传统云服务商将大量GPU集中部署,他们整合全球异构计算资源,构建了一个统一的开发者接口层。截止至2024年2月,平台上已拥有约8000块A100和H100 GPU,总计算能力超过20 exaflops。这一创新之举让客户能够根据任务需求灵活利用各类GPU资源,无需成为硬件专家也能轻松实现模型推理
尤其值得关注的是,Together AI着重强调硬件感知算法的重要性,例如FlashAttention和Mamba等,它们旨在进一步优化资源使用,并通过与硬件协同设计推动整体性能提升。同时,Together AI还致力于推进混合架构的研发,认为未来的AI可能并非完全告别Transformer,而是形成“半Transformer”结构,即包含Transformer层与状态空间模型层的组合体。
针对当前AI推理速度的关键挑战,Together AI正努力追求5000 tok/s的目标速率,这不仅能解决GPU算力瓶颈问题,还能极大地提高服务效率,使得同一台GPU设备可以服务于比现在多出30倍的客户群体。这一愿景对于任何云端服务商而言,无疑具有巨大的吸引力和商业价值。
Together AI如何从零开始发展成为一个兼容并蓄的研究机构、精细调优服务平台和定制模型服务提供商,也揭示了他们对开放数据共享、模型标准化和AI护城河建设等方面的独特见解。
结语:
together.ai对我们中国的AI初创公司发展有很好的启示,中国百模大战序幕早已经拉开,但是我们也希望能够诞生像together.ai这样平台型的生成式AI初创公司
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
一起AI
热门跟贴