智东西2月12日消息,春节将至,国产AI大模型之战愈发火爆。
短短1天多时间,DeepSeek、智谱、字节等多家厂商模型密集更新,MiniMax-M2.5正式上线,其重点提升了Agent和编程能力。
▲MiniMax-M2.5已可选
MiniMax AI相关负责人在X平台上发文称,他想尽快发布M2.5,已经迫不及待想回家过年了,但随着他们投入的训练计算增多,模型效果也越来越好,这是一个痛并快乐着的问题。
▲MiniMax AI工程负责人Skyler Miao在X平台发文
智东西第一时间体验了MiniMax-M2.5在定时任务、网页制作、调研报告撰写、视频生成、PPT制作等任务执行上的能力。
从结果来看,网页制作是其强项,尤其在可视化表达方面,网页的视觉呈现效果较好,比如我可以一句话让它生成一家公司的投资分析仪表盘。
▲关于苹果公司的可视化仪表盘分析网页
做一个“黄金矿工”网页版游戏,MiniMax-M2.5也可以给出不错的结果。
▲网页版黄金矿工小游戏
定时任务方面,其可以按照要求按时完成任务,但不同任务呈现的结果质量有一定差异。此外,不论是PPT制作还是调研报告生成,其生成结果的详实程度都较好,输出篇幅较长。
有X平台用户提前三天拿到了内测资格,他发文称,MiniMax-M2.5提升明显,和Opus 4.6打的有来有回,其模型体积小,据传Mac mini也能部署。他还晒出了MiniMax-M2.5制作的网页版“macOS系统”。
▲X平台用户评价
截至2月12日港股收盘,MiniMax股价涨幅14.62%,总市值1622亿人民币,其股价盘中曾一度涨幅超23.5%。根据官网信息,MiniMax将于3月2日公布全年业绩。
▲截至2月12日收盘,MiniMax港股股价情况
一、网页设计是强项,一句话做“黄金矿工”小游戏
首先,在考察编程能力的网页制作环节,我们让模型创建一个网页仪表盘,对苹果公司进行可视化分析,内容必须涵盖财务健康状况、技术面/市场情绪、竞争对手比较以及战略估值(SWOT/内在价值),以提供明确的投资建议。
从结果来看,需求中提到的基本指标都有较好覆盖,SWOT分析给出的较为具体,整体网页设计比较简洁、美观,基本的动效都已做好,数据展示较为直观,鼠标悬停在统计图表上会有对应数据呈现。
接着,我们让模型为一家AI创业公司设计官方网站,融入太空主题元素,使用黑、白、灰作为主色调,营造出酷炫、精致且充满科技感的氛围,特别要有一个能让用户感到震撼的精美地球动画。
从结果来看,网页焦点处确实有地球动画效果呈现,且地球本身可以跟随鼠标进行一定程度的运动。
但网页本身并没有实现主色调的要求,对于精致、科技感的要求没有明确呈现,地球动画本身带有一些类似“粒子光效”的表现,但整体感觉并未达到“震撼”的水平。
网页游戏制作令我们印象比较深刻,虽然第一次的生成效果“翻车”,游戏无法交互游玩。
▲初次生成的版本无法游玩,仅有首页封面
但重新生成后,游戏本身完成度还是比较高的:
▲同样提示词,第二次生成的结果
基本的游戏模式、游戏说明、游戏关卡、游戏操作都按照要求完成了,并且确实可以游玩,游戏过程还配合了对应的音效。
二、专业报告一键生成,PPT制作学会用比喻润色
此外,我们通过几个任务测试了模型生成专业研究报告的能力,比如全面梳理AI开源推理生态、分析应用场景、对应方案并分析原因。
从结果来看,其输出内容逻辑清晰,在展示不同框架异同时用了表格进行对比,内容较多比较详实,约6000字。
▲AI开源推理生态相关研究报告生成
对于“计划开发一款针对初学者的AI 3D建模工具”这一需求,我们让模型分析目标用户画像和用户在主要场景下的核心痛点,并推导出对应的潜在功能需求,写出MVP需求文档和初期运营增长路径。
▲AI 3D建模工具产品MVP需求文档
从结果来看,所有需求要点都有比较准确的对应信息,需求文档和运营增长路径都有多个表格呈现梳理的内容,路径规划较为具体。
▲AI 3D建模工具初期运营增长路径
PPT制作环节,我们要求PPT“让学生真的能听进去”,举的例子能让他们产生共鸣,对于这一需求,模型在PPT制作中用了很多“比喻”,融入了一些当代元素,比如“唐朝朋友圈”、将长安城比作“北上广深”、将杜甫比作关注民生的“新闻记者”。
不过模型在PPT制作的美观程度和细节严谨程度方面还有待提升。
三、新闻报告成“旧闻汇总”,视频生成仍有优化空间
Agent能力方面,我们还测试了两个定时任务,包括每日科技要闻摘要和TikTok热门趋势周度分析。
虽然需求强调了是24小时内新闻,但给出的8个新闻全部为“过时消息”,基本均为2025年旧闻。这样即便总结的新闻内容较为准确,但已经失去了最根本的“新闻”属性。
▲每日科技新闻摘要
同时,对于检索来源的标注只标明了媒体名称,并未带上对应的网页链接。
在TikTok热门趋势周度分析任务中,模型首先总结了核心趋势动向,接着对热门挑战、热门音频、热门话题标签、重要创作者等部分进行了分析总结,最后按照要求给出了内容创作建议。
▲TikTok热门趋势分析报告
最后,我们简单尝试了视频生成,从结果来看,模型并没有对需求中狗的品种有准确呈现,不过画面的氛围、主物体动作、背景元素都有准确还原。
提示词:
结果:
结语:编程和Agent能力仍是模型竞赛焦点
虽然MiniMax-M2.5尚未官宣发布,但从实际体验和公开评价来看,其提升的重点仍然是Agent能力和编程能力,这也是当前主流大模型竞争的焦点。
从生成结果来看,“拿来即用”仍然存在一定距离,大部分结果仍然需要修改校对,对需求的准确呈现仍然存在优化空间。
热门跟贴