长长长长长长！世界上首个支持 1 亿上下文的模型正式发布

AppSo

2024-08-30 12:33 ·广东 ·AppSo官方网易号

今天凌晨， AI 初创公司 Magic 发布了世界上第一个支持 100M 上下文窗口的模型 LTM-2-mini。

这是什么概念呢，简单来说，该模型能够处理并理解相当于约 750 本小说的文本量，亦或者 1000 万行代码。

与其他模型相比，LTM-2-mini 在处理这些 tokens 时更加高效。比如，当处理同样多的 tokens 时，它的算法比 Llama 3.1 模型的注意力机制便宜约 1000 倍。

不仅如此，LTM-2-mini 对内存的需求也小得多。例如，运行 Llama 3.1 需要 638 个高性能 GPU 来存储这些数据，而它只需要其中的一小部分 GPU 内存就能做到同样的事情。

在此之前，世界上公开可用的 LLM 中，独一档的上下文窗口来自 Gemini 1.5 的 1M tokens，甚至其内部也已经成功实现了高达 10M tokens 的上下文窗口，相当于能一口气看完 9 个小时的《指环王》三部曲。

而现在，LTM-2-mini 将这场技术竞赛卷到了 100M。

想象一下，当你沉浸在一本小说的某个章节时，为了完全理解这个章节的内容，你可能需要回顾前几章的内容。这是因为故事的情节、角色的发展和主题都是相互关联的，只有通过了解前面的内容，你才能更好地理解当前章节的深意。

在 AI 模型中，上下文窗口的作用与之类似。

它能够让模型在处理当前的文本信息时，参考之前的文本内容，从而能够理解单词、短语或句子在特定上下文中的含义，而不是孤立地看待它们。

Magic 官方认为，目前缺乏一种合适的长下文窗口评估方法，即便是传统的「大海捞针」实验，即通过在大量文本中隐藏一个特定事实或信息（针），然后要求模型找到这个特定信息的方法也并不理想。

在他们看来，这种测试方法存在一些问题。如果测试中的「针」（即需要检索的事实）非常显眼，模型可能会通过识别这个「针」的特征从而轻易找到它，而不是真正地理解和处理整个上下文。

这就好比在一部关于鲸鱼的小说中，将「针」设置为「两个人在一家咖啡店喝咖啡」，这明显与小说的主题（鲸鱼）不相关，因此很容易被识别。

而现实世界的数据通常又不会像测试中的「针」那样显眼。

为此，Magic 也特别设计了一种名为「HashHop」的测试方法，目的是让模型在没有提示的情况下学会处理随机信息。

具体来说，哈希值（Hashe）就是一些随机生成的代码片段，模型需要记住并正确地关联它们。

Magic 研究团队会给模型一对哈希值，然后要求它去完成另一对哈希值的关联，有时还会让它一次性跳过多个步骤直接给出结果。通过使用哈希对和哈希链来测试模型的多步推理能力，这反而接近于现实世界中处理复杂信息的方式。

LTM-2-mini 只是一个开始，Magic 目前正在超级计算机上训练全新的大模型 LTM-2。

在今年 2 月份的时候，Magic 也宣称开发了一种具有类似 OpenAI Q * 主动推理能力的 AI 模型，将有助于解决现有大模型在逻辑推理方面的不足。

此外，通过与 Google Cloud 合作，Magic 还构建了由英伟达 GB200 NVL72 GPU 组成的强大集群，以及配备了 H100 Tensor Core GPU 的 Magic-G4 和 Magic-G5 超级计算机。

简言之，长上下文军备竞赛或许已经没有意义了，因为 LTM-2-mini 杀死了比赛。

更多信息欢迎查询官方博客：
https://magic.dev/blog/100m-token-context-windows

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴