MiniMax-M1打造“最长”上下文窗口

MiniMax开源全球首个混合架构模型M1,该模型支撑全球最长的上下文窗口,包括100万token输入,8万token输出。其性价比突出,仅用380万元、3周时间就完成训练。

这个模型有多猛?直接上数据:

  • 原生支持100万token的输入长度,约是DeepSeek R1的8倍。

  • 同时支持8万token输出,超过Gemini 2.5 Pro的6.4万,成为世界最长输出。

  • 生成10万token时,推理算力只需要DeepSeek R1的25%。

不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任务上甚至超越了OpenAI o3和Claude 4 Opus。

MiniMax-M1的一大技术亮点是采用了Lightning Attention机制的混合注意力架构。

传统的Transformer架构计算复杂度是平方级,这意味着当模型进行更长的推理时,计算成本会急剧上升。但Lightning Attention把注意力计算分成块内和块间两部分,块内用传统注意力计算,块间用线性注意力的核技巧,避免了累积求和操作(cumsum)拖慢速度。

Lightning Attention还采用了分块技术(tiling)充分利用GPU硬件,让内存使用更高效,训练速度不随序列长度增加而变慢。MiniMax-M1在每7个Lightning Attention的Transnormer块后接1个传统Softmax Attention的Transformer块。这种设计理论上可以让推理长度高效扩展到数十万个token。

除了架构创新,MiniMax团队在提升训练效率上采用了全新的CISPO(Clipped IS-weight Policy Optimization)算法。与传统方法裁剪token更新不同,CISPO选择裁剪重要性采样权重,这样可以保留所有token的梯度贡献,特别是在长响应中至关重要。在基于Qwen2.5-32B模型的对照实验中,CISPO不仅显著超越了GRPO和DAPO,还实现了2倍的训练加速,也就是用一半的训练步数就能达到DAPO的性能

图源:MimiMax-M1完整评估结果

快来抄作业!微软发布700+智能体应用案例

近期,微软发布了700个真实的Agent智能体、Microsoft Copilot应用案例,帮助大家真实地了解到底AI是如何改变我们的工作模式。

这些客户有世界500强企业,有各领域的独角兽,也有世界常青藤名校,业务范围涵盖金融、医疗、科技、教育、汽车制造、零售、电商、能源、航空航天等众多领域。这一创新或为跨物种交流开辟新途径,为未来人与动物深度交流提供新的可能性。

以下是部分案例:

  • 埃森哲为其客户构建了一个自主智能体,以自动化和简化逾期付款加快收款并提高利润。该智能体能解释客户数据,自动化跟进,并帮助收款员采取下一个最佳行动。埃森哲的客户更快地收回未偿债务,最终将销售未清天数降低高达20%。

  • 毕马威的智能体ComplyAI能帮助识别相关义务,以自然语言生成义务声明,评估控制有效性并重新起草控制描述。一家领先的电信公司和毕马威客户使用ComplyAI来提高合规成熟度、问责制和信任,实现控制和风险描述改善70%,合规计划时间表减少18个月,持续合规工作减少50%。

  • XP使用AI来自动化任务,通过节省超过9000小时,提高了审计团队效率30%。AI工具还通过实时转录为工作中的员工增强包容性和无障碍性。

  • Architecht开发了OBA套件,这是一个基于微服务架构的云平台。该平台还集成了先进的AI能力。凭借低代码/无代码能力,用户界面/用户体验原型制作时间从两天缩短到25分钟。OBA套件通过人工智能驱动的助手和个性化服务增强了用户体验。

  • Arthur D.Little开发的智能体能帮助顾问快速整理和理解复杂的文档格式,同时保持严格的数据保密性。这帮助顾问更快地为与客户会面做准备,并将策划内容的速度提高了50%。

  • Onepoint开发的安全对话智能体,在所有业务线中提供了10%到15%的生产力提升。

智谱AI发布首个拥有"记忆"的企业自主Agent

近期,智谱AI推出企业级智能助手CoCo,与通用代理不同,该助手具有三大企业级特性,全流程辅助工作,以最终成果为衡量标准,其具备“记忆能力”,能记住员工互动并根据部门职能提供差异化服务。同时可集成企业知识库、数据库和系统工具,无缝嵌入企业原有工作流

在接收到任务后,CoCo和大部分智能体不同的是,它会选择先基于全部任务进行整个任务规划节点的梳理,在进行整体任务规划后同时给出对应的编辑选项,企业可以自行修改其中的任何规划,也可以调整其中的规划节点顺序,点击“确认规划”后,CoCo才会最终进行执行。

此外,在CoCo的整个执行中,不仅可以看到全部运算流程,同时还能看到大量的行业垂直信息检索和中间对信息准确性的不断确认

在这些之外,CoCo还可以基于特殊的记忆能力,成为企业内不同角色的专属助理。智谱在CoCo内部专门嵌入的感知记忆能力,可以自动感知企业用户画像和企业知识资源,根据长短期记忆能力自动抽取和精准召回过往资料和企业资料,为不同的人提供不同的AI服务,真正做到千人千面、个性化定制

OpenAI推出o3-pro模型,推理模型之王再次易主

基座模型圈迭代不止!OpenAI上线o3-pro模型。据悉,其在数学基准测试中超越了谷歌最强的模型Gemini 2.5 Pro。作为推理模型o3的升级版,其集长思考、超长上下文和工具调用于一体,在科学、教育、编程、数据分析和写作等关键领域表现出色。

根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌最强的模型Gemini 2.5 Pro,在博士级科学测试GPQA Diamond中击败Anthropic最强的Claude 4 Opus,展现出推理模型领域的领先性能。

图源:OpenAI官网

目前o3-pro已取代o1-pro,面向ChatGPT的Pro和Team用户开放。而对开发者来说,o3-pro已经可以通过API接入——每百万输入tokens收费20美元,每百万输出tokens收费80美元。

智源开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。相较于上一版本的Video-XL,该模型在多个维度全面优化了多模态大模型对长视频内容的理解能力

• 效果更佳:Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先水平。

• 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。

• 速度更快:Video-XL-2大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速长视频理解流程。

目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

Video-XL-2的模型架构示意图

图源:智源研究院

谷歌上线开源手机本地AI运行器

手机本地运行AI模型成现实!谷歌发布应用程序Google AI Edge Gallery,允许用户在手机上本地运行来自Hugging Face的AI模型。

用户可通过该应用实现图像生成、问题解答、代码编写与编辑等功能。所有模型均可离线运行,无需互联网连接,直接调用手机处理器完成计算。

Google将该应用定位为“实验性Alpha版本”,并已在GitHub发布安装说明。应用主界面列出几大核心功能,如“图像问答”“AI对话”等。点击某一功能后,系统会推荐多个适配模型,用户可一键运行。Google自研轻量模型Gemma 3n也包含其中。

图源:Github

相比云端模型,本地部署模型虽然在性能上略逊一筹,但数据无需上传,更适合注重隐私或处于无网络环境的用户。目前该应用已开源,使用Apache 2.0协议,允许在商业和非商业场景自由使用。

更多AI前沿信息,点击视频了解