今天凌晨, AI 初创公司 Magic 发布了世界上第一个支持 100M 上下文窗口的模型 LTM-2-mini。

这是什么概念呢,简单来说,该模型能够处理并理解相当于约 750 本小说的文本量,亦或者 1000 万行代码。

与其他模型相比,LTM-2-mini 在处理这些 tokens 时更加高效。 比如,当处理同样多的 tokens 时,它的算法比 Llama 3.1 模型的注意力机制便宜约 1000 倍。

不仅如此,LTM-2-mini 对内存的需求也小得多。例如,运行 Llama 3.1 需要 638 个高性能 GPU 来存储这些数据,而它只需要其中的一小部分 GPU 内存就能做到同样的事情。

在此之前,世界上公开可用的 LLM 中,独一档的上下文窗口来自 Gemini 1.5 的 1M tokens,甚至其内部也已经成功实现了高达 10M tokens 的上下文窗口,相当于能一口气看完 9 个小时的《指环王》三部曲。

而现在,LTM-2-mini 将这场技术竞赛卷到了 100M。

想象一下,当你沉浸在一本小说的某个章节时,为了完全理解这个章节的内容,你可能需要回顾前几章的内容。这是因为故事的情节、角色的发展和主题都是相互关联的,只有通过了解前面的内容,你才能更好地理解当前章节的深意。

在 AI 模型中,上下文窗口的作用与之类似。

它能够让模型在处理当前的文本信息时,参考之前的文本内容,从而能够理解单词、短语或句子在特定上下文中的含义,而不是孤立地看待它们。

Magic 官方认为,目前缺乏一种合适的长下文窗口评估方法,即便是传统的「大海捞针」实验,即通过在大量文本中隐藏一个特定事实或信息(针),然后要求模型找到这个特定信息的方法也并不理想。

在他们看来,这种测试方法存在一些问题。如果测试中的「针」(即需要检索的事实)非常显眼,模型可能会通过识别这个「针」的特征从而轻易找到它,而不是真正地理解和处理整个上下文。

这就好比在一部关于鲸鱼的小说中,将「针」设置为「两个人在一家咖啡店喝咖啡」,这明显与小说的主题(鲸鱼)不相关,因此很容易被识别。

而现实世界的数据通常又不会像测试中的「针」那样显眼。

为此,Magic 也特别设计了一种名为「HashHop」的测试方法,目的是让模型在没有提示的情况下学会处理随机信息。

具体来说,哈希值(Hashe)就是一些随机生成的代码片段,模型需要记住并正确地关联它们。

Magic 研究团队会给模型一对哈希值,然后要求它去完成另一对哈希值的关联,有时还会让它一次性跳过多个步骤直接给出结果。通过使用哈希对和哈希链来测试模型的多步推理能力,这反而接近于现实世界中处理复杂信息的方式。

LTM-2-mini 只是一个开始,Magic 目前正在超级计算机上训练全新的大模型 LTM-2。

在今年 2 月份的时候,Magic 也宣称开发了一种具有类似 OpenAI Q * 主动推理能力的 AI 模型,将有助于解决现有大模型在逻辑推理方面的不足。

此外,通过与 Google Cloud 合作,Magic 还构建了由英伟达 GB200 NVL72 GPU 组成的强大集群,以及配备了 H100 Tensor Core GPU 的 Magic-G4 和 Magic-G5 超级计算机。

简言之,长上下文军备竞赛或许已经没有意义了, 因为 LTM-2-mini 杀死了比赛。

更多信息欢迎查询官方博客:
https://magic.dev/blog/100m-token-context-windows