打开网易新闻 查看精彩图片

01

重大发布(新模型/产品/开源)

ChatGPT手机版更新:切换“标准思考”与“扩展思考”

12月29日,OpenAI对安卓端的ChatGPT进行更新,允许手机用户设置模型的思考深度,在“Standard Thinking(标准思考)”和“Extended Thinking(扩展思考)”中进行切换。

在此之前,由于算力访问限制,手机端用户只能使用标准思考模式,无法进行长时间的深度推理,一定程度上限制了其实用性。与此同时,PC端的UI界面也得到了布局上的优化。不过,经过更新后,仍然只有Plus级别以上的订阅会员才能享受到这些权限。

作为对比,OpenAI目前的最大竞争对手Google Gemini的手机端和PC端都早已具备这一功能,免费版用户即可使用,UI界面清晰。

(Gemini手机端)
打开网易新闻 查看精彩图片
(Gemini手机端)
(Gemini PC端)
打开网易新闻 查看精彩图片
(Gemini PC端)

短评:允许庞大的手机端用户群体使用更深度的推理服务证明OpenAI的算力变得更加充足,界面的优化也有助于改善现有用户的使用体验。但对于技术层面已经没有领先优势的OpenAI来说,维持现有用户的活跃度远远不够,诸如此类的小型更新无法拉新,GPT-5.2的大型更新又“差评如潮”。这也印证了先前的判断:OpenAI在做的事情是“别人有的我们也要有”,而不是“我们做了别人没有的”。

②双端同步+定时提醒,腾讯元宝上线任务功能

腾讯的元宝同样迎来了一次产品功能的迭代:手机端和电脑端同步添加了任务功能,用户仅通过一句话就可以设置循环定时任务,让AI帮忙记事、提醒甚至是陪聊。

这次功能更新看似简单,但也表明腾讯正在把元宝“问答工具”的定位修改为“日常陪伴型AI,通过人们生活中高频且刚需的定时任务,让用户生态进一步牢固。

打开网易新闻 查看精彩图片

根据产品功能描述,任务功能需要让AI完成以下流程:理解模糊的指令、生成可执行的计划、跨端侧同步以及在提醒后继续对话。因此,AI需要具备不仅限于以下技术能力:

一是根据“一句话”生成结构化的计划:用户为了方便,给出的指令往往是模糊的,但AI则需要精确完成时间抽取、意图分类、动作生成等关键环节;

二是任务的持久化存储,并在手机端和PC端实现同步,这就需要轻量级的用户任务数据库;而提醒的触发则需要后台具备调度服务的功能;

三是具备上下文记忆,这也是AI普遍面临的一大问题,AI要实现提醒后继续陪聊就必须配备更大的上下文窗口,以实现任务状态的记忆、动态响应和多轮对话的管理。

短评:

腾讯的用户基数毋庸置疑,元宝诞生在这个温床中具备非常大的竞争优势。不过,虽然任务功能的上线蕴含不少技术层面上的提升,但对于财大气粗的腾讯来说,其AI研发进度仍然略显缓慢。

02

技术进展(论文/SOTA/算法)

①通义MAI-UI开源:首个通用GUI智能体基座直接刷新SOTA纪录

前段时间,豆包手机助手在互联网上掀起风浪,引起了腾讯、阿里等科技巨头公司的警惕。

如今,阿里通义团队也推出了自己的手机管家,其开源的MAI-UI宣称为全球首个面向“真实手机生活”的通用GUI智能体基座模型,并在5项权威性测试(如Android World和MobileWorld等)中全部登顶SOTA,战胜了以Gemini为首的国际领先大模型。

打开网易新闻 查看精彩图片

项目地址:https://github.com/Tongyi-MAI/MAI-UI

根据阿里云官方社区内的用户体验反馈,这一智能体基座模型主要有如下几个引人注目的亮点:

一是拒绝揣测用户意图,主动询问用户归还决策权,避免“自作主张”的现象;

二是能够调用API而非“点击屏幕”,善于使用高德、Github、钉钉等结构化的工具,通过显著降低操作次数有效提升了准确率;

三是实现了端侧和云侧的分离,日常任务在手机端运行2B参数的小型模型即可完成,复杂任务则依靠云端的32B大模型完成,支付密码等隐私操作只在本地运行,绝不上传;

四是强大的抗干扰能力,通过在动态环境中引入在线强化学习机制,解决手机环境中的各种意外状况。

短评:

字节的豆包手机助手发布仅一天后,腾讯的微信和阿里的淘宝等APP就以安全性为由拒绝其访问;而阿里的MAI-UI目前能够调用的,也只是阿里系的产品(高德、钉钉)和Github等开放平台。因此,AI能帮人做事的前提是App愿意“开门”,其行动的自由度,仍然与母公司的软件生态控制力高度关联。

短期内,手机助手类产品仍然只能在特定的生态环境中得以流畅运行。即便是通过商业合作等方式实现了类似淘宝和微信的协同,银行这种高风险的政府App也绝不会轻易开放权限。因此,AI助手在真实世界中,目前还“寸步难行”。

②文生图门槛再降低:FLUX.2 Turbo开源,刷新文生图速度

今天凌晨,生成式AI媒体平台fal开源了名为FLUX.2 [dev] Turbo的文生图模型,瞬间登顶Artificial Analysis的开源模型排行榜。值得注意的是,阿里的Z-image Turbo在一周前刚刚成为这一榜单的霸主。截至30日下午,Flus.2 [dev] Turbo模型仍位于开源榜第一,全榜第十。

打开网易新闻 查看精彩图片

项目地址:https://fal.ai/models/fal-ai/flux-2/turbo

该模型是fal基于Black Forest Labs的FLUX.2 [dev]模型优化推出的Turbo版本,主打极快的生成速度,一张高清图仅需花费约5秒,全流程推理步骤从50步压缩到8步,速度提升超过6倍,且画面质量更加稳定可控。

目前这一模型已经开放在线免费体验,但更重要的是:该模型的硬件需求并不高,RTX 4090的用户即可本地部署并进行微调;生成一张1024×1024像素的图像成本仅为0.008美元,创下文生图成本最低记录。

短评:

这一开源文生图模型的发布,让文生图能力彻底从“大厂提供的收费服务”变成了“人人可用的生产工具”。如此低廉的成本,无异于在宣告AI巨头们“闭源+高质量”路线的终结。

尽管文生图在当下看来毫无疑问已经是赔本买卖,但是当此类开源模型大规模普及后,它就可以摇身一变,成为可编程且易于私有化部署的模型底座,走向工作流和智能体的商业化路径。

03
商业动态(融资/合作/财报)

①主打“通用智能体”的Manus Meta 收入麾下

今天上午,Manus官方发布消息:Manus已被Meta收购。两天前,Manus团队放出的立项初期会议纪要中强调的“通用性”,如今已经成功变为最大的卖点。根据官方数据,Manus上线至今处理的Tokens超过147万亿,创建了超过8000万台虚拟计算机,而其三年内顺利完成四轮融资、两年内估值增长超过30倍、上限仅9个月ARR破亿等利好消息则已经向市场证明:通用智能体具备盈利能力。

尽管Meta的这次收购具体交易细节尚未公布,但这一举动显然是为了抢占智能体赛道的入口。事实上,Meta在先前的AI大模型竞争中已经处于落后地位,其Llama系列大模型的综合能力虽然也处于第一梯队,但与文本领域的巨头Gemini和GPT系列存在明显差距,而多模态领域也被Gemini以及国内字节的Seedream和阿里的Qwen甩开。因此,Meta没有在以前的赛道上加速追逐,而是选择成为“通用性Agent”新赛道的领跑者。

短评:

如此看来,Manus的定位与Meta就显得极为匹配。Manus也面临着类似的问题,虽然能够覆盖的应用范围较广,但智能程度无法与顶尖模型竞争,从消耗的Tokens数量来看更是与豆包这种“庞然大物”存在数量级的差距。

根据Manus首席执行官肖弘的说法,Meta的这次收购并不改变Manus的运作方式和决策机制,但若是双方仍然遵循原先的路径,恐怕“通用性Agent”市场中的蛋糕很快就会被分走,毕竟对于Google和字节等公司来说,实现通用性并非技术难题。“全面但不精通”是Meta与Manus下一步必须解决的问题。

②智谱港股上市:坚持AI模型能力的竞争

同样是今天上午,国产AI初创公司智谱确定了1月8日于港股上市。全球发售3741.95万H股,每股发行价格116.2港元。

打开网易新闻 查看精彩图片

招股书中,智谱对公司的定义为“中国领先的人工智能公司,致力于追求通用人工智能(AGI)创新”。目前,智谱的产品体系涵盖范围较广,大语言模型(GLM-4.7)和智能体(AutoGLM)等领域均实现了一定程度上的覆盖。

目前,智谱的亏损情况仍然在加重。其2022、2023、2024年和2025年上半年的亏损额分别为1.44亿、7.88亿、29.58亿和23.58亿,研发投入数额也在不断增加。不过,值得注意的是,国内AI初创企业中,仍然能在模型智能化程度上保持竞争力的企业已经为数不多,而智谱则是其中之一:其最新版模型GLM-4.7在Artificial Analysis的榜单中拿下了相当不错的成绩。

打开网易新闻 查看精彩图片

短评:

作为软件生态与硬件资源均面临限制的国内AI初创企业,在多家AI公司选择将模型的研发重点迁移至多模态的背景下,GLM系列产品能够与Gemini和GPT保持竞争实属不易。但是,智谱要面对的对手,不仅是国外这两大巨头,国内的阿里、字节和腾讯也不容忽视。

在大模型领域内,暂时还无法确定智谱的核心竞争力。但是,开源的AutoGLM则起到了一定的补充作用,Agent成为未来的关注重点已成事实,智谱开源的基座模型或许会成为其发展的坚固基石。