Vide Coding概念的提出者Andrej Karpathy大神前段时间说今年可能不是AI Agent的元年,而只是Agent10年的开端。
英伟达CEO黄仁勋则认为Agentic AI是万亿美元的机遇。
是的,Agent几乎是2025年AI领域的代名词。而且,常常和邀请码、全球首个xx等概念联系在一起。毕竟,所有人都能看出这个赛道有多大,机会有多么的多。
显而易见的大赛道所面临的有趣情况是,这早晚会在大厂,尤其是头部模型公司的射程范围内。果不其然,一阵喧嚣之后,国内AI六小龙之一的MiniMax出手了,搞出了MiniMax Agent。
我对大模型公司亲自下场做Agent有很强的期待,毕竟才是最懂自己模型特点,甚至能根据Agent需求定制大模型能力来服务特点场景的,所以他们做Agent有天然的优势:比如ChatGPT和Gemini拥有世界上最好的案头研究、或者说信息整理方面的垂类Agent——Deep Research;而Anthropic新出的Claude Code则可以认为是AI Coding方向的Agent,最近已经把Cursor干得死去活来了。
所以,上个月底,MiniMax Agent一推出,我就觉得应该值得试试,很快丢了一堆案例做测试。
一波测试下来,我自己的体感是MiniMax Agent有四个比较突出的特点:
特点1:深度研究和上下文管理能力极强,MiniMax Agent可以轻松完成一个复杂任务所需要收集的全部信息,并且中间完全不出错,没有出现token溢出导致任务无法继续的情况;
特点2:多模态输出能力出色,尤其是语音生成的表现,我听到后瞬间懵了;
特点3:编程能力超出预期,尤其是对接了Supabase,能轻松搞定后端开发,包括注册登录和API的调用;
特点4:能执行定时任务,实现自动化的工作流,这部分能解锁很多有趣的场景,我在文章最后会提到。
特点1:深度研究和上下文管理能力
案例一是和我的爱好有关,老粉们可能知道我爱看网球,去年我就在巴黎奥运现场见证了郑钦文的夺冠,最近也是到了伦敦看温网,所以我为难MiniMax Agent,提了一个很烦人的网球相关任务要求:
给我生成一个网球爱好者的网站:
1、介绍网球四大满贯和ATP/WTA全年赛程的信息;
2、提供男子和女子单打前100排名的信息;
3、并且为让我可以跟踪了解其中中国选手接下来的赛程情况。这个任务的难点是涉及到的信息实在是太多了,包括网球全年的上百项赛事,200名ATP/WTA选手的信息,以及再从中捞出中国选手的赛程。
我之前也拿别的Agent测过,基本上任务跑到一半就因为上下文长度溢出而无法继续的。
而MiniMax在这个任务过程中执行了不下上百次的搜索,居然给我一次性搞定了。
案例1链接:https://agent.minimax.io/share/288416437637201
在案例二中,因为最近准备去看新上映的《侏罗纪世界:重生》,我让MiniMax Agent帮我完成以下任务:
给最近上映的电影《侏罗纪世界:重生 Jurassic World: Rebirth (2025)》开发一个官方宣传网站,提供包括但不限于以下信息:
1、《侏罗纪世界》系列电影的历史,包括主创信息、豆瓣评论、票房等
2、新版《侏罗纪世界:重生 Jurassic World: Rebirth (2025)》在拍摄过程中的趣事,电影的主要卖点等
3、网友对这部电影的评价情况
4、实时票房信息
5、其他任何你觉得有助于吸引观众去收看这部电影的内容这个任务也是涉及到大量信息,尤其是除了文字之外,还有大量图片、视频等多模态信息的收集,MiniMax Agent给我整出的网站首页英雄区背景就是个电影相关的视频。
我本来还以为“观看预告片”那个按钮是假的,就像很多AI Coding一次性做出的界面一样,只是给你做个实例,但没想他还真把官方预告片给我找到并且切入到网页中来了,
案例2链接:https://agent.minimax.io/share/288417684095061
特点2:出色的多模态输出能力
在MiniMax Agent之前,我平时主要会用的其实是MiniMax Audio(海外版)的语音复刻/生成工具和AI视频生成工具海螺。他们这在这两个赛道也基本是SOTA级别的表现。尤其是我做视频的时候,经常遇到需要补录一些语音的时候,会直接把当期视频的语音丢给MiniMax,让他克隆后生成我需要补录的语音,实在是给我省了太多事了。甚至可能比我自己补录的效果还好,因为新录制会有录制空间环境的差异,容易导致音调和声音的空间感挺不一样的,但是MiniMax Audio的复刻好像考虑到了环境音的问题,效果尤其好。
扯远了...
这部分想说的是,MiniMax确实有很的多模态模型,并且他们把这部分多模态的能力集成在MiniMax Agent中了。所以我给MiniMax Agent整了这么个任务:
我最近在伦敦,想去逛大英博物馆,帮我生成一个给我做导览的网站;
我希望上面有大英博物馆主要的展品信息,点击后可以查看或者收听相应的中文讲解说实话, 初看这个界面的时候,我觉得是有些平平无奇的,毕竟现在AI Coding搞定这么一个信息容量和结构复杂度不高的小网页还是很容易的,首页一眼能看出的主要优点是每个展品的图片都是准确的,没有随便找或者瞎生成一些无关的图片。
但是当我点进详情页去听讲解的时候,我有点被吓到了...
这播音腔和背景噪音感,如果不是看到讲解内容和AI生成的介绍文案一模一样,我甚至都怀疑这是不是直接入侵了博物馆的讲解机给我下载的了。
我录了个包含声音的视频,答应我,一定要把视频和声音都打开看看,好么
案例3链接:https://agent.minimax.io/share/288441068265562
特点3:能轻松搞定后端开发
最后,我们再上点强度,让MiniMax Agent给我们开发个带「后端」的网站。
说到后端我印象最深刻的是,原来这事不止我这种不会写代码,纯靠AI Coding的AI Native开发者苦恼,其实很多CS出身的大神也是很困扰的。像Andrej Karpathy之前通过Vibe Coding开发了一款叫Genmenu的拍照生成含图片菜单的小app,他提到他做完那个产品的基础功能只花了几小时的时间。但是为了搞定注册、登录、数据库和支付等系统,他也花了一两周的时间才搞定。
其实现在AI写后端难倒不是AI不擅长写后端代码,而是后端涉及到的很多流程都非常的不标准化,需要人类阅读大量的文档资料才能搞定。
而MiniMax Agent显然感受到了独立开发者在这部分的痛,他们在产品上集成了Supabase,以及诸多MCP,也让后端API的调用都变得可视化和简单了很多,基本做到了你只需要授权和输API,其他大部分工作都是通过Agent搞定了,这部分的能力在目前Agent生态中还真算是一股清流。
我给的任务是这样的:
基于《掌控习惯》这本书的理念,帮我设计一个帮助用户养成写作、记录习惯的网站;
需要包含完整的注册、登录,以及数据存储系统。在任务的第一步,MiniMax就让我登录授权Supabase的账户和项目信息,然后再继续完成后续的任务:
后面,他则表现得很像一个成熟的Agent了,自己规划技术栈,逐步完成前端开发、后端开发,甚至开发之后自己还做了个测试,不需要我介入分毫。
最终登录后的效果如下,我测试了一圈,不管是添加任务,还是在过程中新建、记录,居然全无bug(AI Coding过程没bug说实话都整得我有点不习惯了)
你也可以来试试我这个帮你培养写作习惯的小产品https://tiropfoo4q.space.minimax.io/
特点4: 能执行定时任务
MiniMax Agent让我挺意外的一点是,他们还提供了执行定时任务的能力。这个概念有点像ChatGPT task,你可以让AI定时提醒你某件事,或者定时帮你收集整理一些信息。
但是MiniMax Agent融入这个功能的方式不太一样,他是能让Agent生成的网页都具备定时更新的能力,而且因为他是通过代码实现的,可以更灵活地调整更新频率,整合你不同的需求。这能解锁太多有趣的场景了。比如:
你是AI从业者的话,可以去建一个每天给你自动汇总更新AI资讯的网站;
你是投资者的话,可以让Agent定时给你追踪你所投资的企业或行业的信息,不错过任何热点机会;
你是体育迷的话,可以获得一个你专属的喜欢球队或者体育项目的资讯网站;
以及,我永远记得我在职场时有段时间要定期开早会,去解读前一天的行业资讯和产品运营数据,AI这个能力早两年来多好。
我很喜欢这个MiniMax网站上的官方案例,他们搞了个可以每6小时更新OpenAI消息的网站,作为AI博主,终于可以试试不用去刷各种不同的平台找资讯了:https://cth57sk0va.space.minimax.io/
2025年的夏天或许仍不是AI Agent的元年,但它注定是节点之一。更强大的模型、更具协同能力的MCP生态、更细腻的多模态输出,所有这些都预示着:这个赛道刚刚拉开帷幕,想象力才刚开始被点燃。
你也可以试试。不是说为了体验技术多厉害,而是把你脑子里那个「一直想做但不知道该怎么做」的想法扔进去——让AI接住它,让Agent为你建构出雏形。
在这个人人都是Product Owner的时代,一个点子,一次动手,也许就是你和这个新世界的第一次真正握手。
热门跟贴