自上周DeepSeek推理模型首次亮相以来,人工智能世界仍在嗡嗡作响,该模型以低廉的价格展示了领先的性能。虽然中国人工智能开发方法的细节仍在确认中,但行业人士已经开始反思可能影响人工智能未来发展的宝贵经验教训。
自从ChatGPT引发了GenAI淘金热以来,模型开发人员一直在竞相构建更大、更昂贵的模型,以处理更广泛的任务。这就需要使用更多GPU的更大集群在更多数据上进行训练。大小绝对很重要,无论是银行账户金额大小、GPU还是集群。
但DeepSeek的崛起表明,并非规模越大越好,规模更小、更灵活的玩家可以与大型人工智能巨头匹敌,并有可能超越他们。
埃默里大学教授Joe Sutherland说:“DeepSeek揭示了我们急于采用人工智能的一个巨大盲点。”
DeepSeek的突然成功也强烈表明,未来表现最佳的模型将是开源的。Altair的首席技术官Sam Mahalingam表示,这最终对客户和人工智能建设者有利,并将有助于人工智能的民主化。
Mahalingam说:“通过使开发人员能够利用有限/成本效益高的资源和高效的训练方法构建特定领域的模型,它为创新开辟了新的途径。”“在我看来,突破在于开源许可模式。这与智能训练方法相结合,将大大加快大型语言模型(LLM)的开发。我相信这种方法表明,构建特定领域的小型模型是在各种应用程序中更深入地集成人工智能的下一个关键步骤。”
Rancher首席执行官Ali Ghodsi表示,DeepSeek创建一个较小的模型,该模型是在一个价值550万美元的集群的数据子集上训练的,这个集群只使用了Nvidia性能第三的GPU,这一事实让所有人都感到惊讶。
周二,Ghodsi在YouTube上接受采访时表示:“没有人能预测到这一点。”“正在发生范式转变。游戏正在发生转变。规则正在彻底改变。”
人工智能的旧缩放定律——即你在人工智能模型上投入的钱越多,它就越好——已被正式推翻。
DeepSeek对GPU意味着什么?
“我们已经将投入的美元和GPU的数量扩大了1000万倍,”Ghodsi说。“但现在很明显,在未来10年里,我们很难比过去10年扩大1000万倍。”
展望未来,人工智能构建者将使用其他技术,例如对专业数据的小子集进行训练和模型蒸馏,以提高准确性。
Ghodsi说:“DeepSeek在数学领域有特定的数据……他们能够使模型非常擅长数学。”“所以我认为这是一种专业领域智能,你有真正好的领域,这将是前进的道路。”
由于DeepSeek的R1推理模型是经过数学训练的,因此尚不清楚该模型的泛化能力。到目前为止,人工智能开发人员已经从用于训练大型基础模型的大量数据的副产品中受益匪浅。Ghodsi说,这些新类别的推理模型的泛化程度是“万亿美元的问题”。
Ghodsi说,模型蒸馏,或在现有模型的输出上训练一个新模型(DeepSeek模型被怀疑使用了该模式)是“非常有效的”,并且是一种非常受大公司和实验室现在关注的推理模型类型青睐的技术。事实上,就在过去的一周里,DeepSeek的许多开放式模型蒸馏都是在过去一周内创建的。
这导致了Ghodsi的最后观察:所有模型现在都有效地开放了。
Ghodsi说:“我们可能在法律上不被允许使用一个模型的输出来训练一个新的模型,但这并不能阻止许多公司和一些国家这样做。”他说:“所以本质上,这意味着所有的数据都将被传播,每个人都将提取彼此的模型。”“这些趋势很明显。”
DeepSeek的崛起也标志着我们构建人工智能应用程序的方式发生了转变,尤其是在边缘领域。Forrester首席分析师Carlos Casanova、Michele Pelino和Michele Goetz表示,AIOps(AI运营)和可观察性将得到提升。它还将把资源需求从数据中心转移到边缘。
分析人士表示:“如果DeepSeek和其他一些技术进步继续发展,这可能会改变边缘计算、AIOps和可观察性的游戏规则。”“这种方法使企业能够在边缘充分利用人工智能的潜力,推动更快、更明智的决策。它还允许建立更敏捷、更有弹性的IT基础设施,能够适应不断变化的条件和需求。
Casanova、Pelino和Goetz继续说道:“随着企业接受这一新范式,他们必须重新思考其数据中心和云战略。”“重点将转向混合和分布式模型,在边缘设备、数据中心和云环境之间动态分配人工智能工作负载。这种灵活性将优化资源,降低成本,增强IT能力,将数据中心和云端战略转变为更加分布式和敏捷的环境。中心将保持可观察性和AIOps平台,其任务是实现数据驱动的自动化、自动中介和跨越整个IT领域的广泛上下文洞察。”
热门跟贴