更新通知弹出来那一秒我就知道深度求索这波是真想抢用户记忆。

打开网易新闻 查看精彩图片

我刚扫完门口快递,手机就推送“极速版升级,记忆翻倍”。点开后发现它把上下文直接抬到一百万级,响应首字提速到零点八秒,还宣称免费用最新资料库到二零二五年五月。这种配置以前只在发布会吹,现在直接塞进日常版,语气也变了,不再自言自语说“用户是不是生气了”,反倒像一位效率控的同事。

架构介绍那段挺夸张,什么专家共享、无限透镜、显存织物,我只能凭体验感受:长文输入没崩,内存占用也没把我老电脑扯趴。官方说显存省一半,我晚上跑项目时特意盯了下监控,确实比旧版轻,虽然我不敢百分百下,但至少耳机里风扇声没飙上去。

打开网易新闻 查看精彩图片

为了确认它是不是只会喊口号,我照例上陷阱题:家门口二十米有洗车店,走过去还是开车?这类问题豆包和另一家国产模型都翻车过,新版直接答“当然得开过去,不开怎么洗车”。这种反应别看简单,能守住逻辑就说明它内部反思链真的上线了,不然早被绕晕。

长文本测试是关键。我把五十万字的连载塞进去,在里面埋了虚构的店主信息,问它老板姓啥。上传完后它沉默大概十秒,答案对上了。接着我又逼它解释人物关系,顺带改写了段落再问一次,它还是抓到了我硬塞的角色。看得出新模型会耐心沿着改写版往回推,这种韧劲倒是让我想到上周另一个图像工具为了宣传也说能读长文,结果我刚贴完楼盘合同,它直接给我跳图标,区别可太大。

打开网易新闻 查看精彩图片

数学运算是我心里的分水岭。我拿圆周率小数位互乘,结果要精确到十六位,很多模型卡在浮点误差。深度求索思索了一会儿就报出九点八六九六零四四零一四六七六四九,和计算器一致。多步运算也顺利,这意味着我那些贴着税率的表格、以前不敢交给AI核算的部分,可以开始尝试交给它。说真的,这个规定听着挺好,就是不知道落地咋样,怕就怕一忙就算错。

然后轮到它薄弱的地方——高仿真编程。我让它写火山喷发效果,三维画面要有岩浆溅落和温度渐变。隔壁的美企旗舰模型一次就给出色彩渐变、落地溅射的代码,另一款海外双子模型甚至把热量扩散规律写进去了。深度求索这回却怎么调都不到位,岩浆像红色烟花,循环逻辑老是卡在粒子系统。这大概跟训练素材有关,国产环境对仿真类代码积累确实薄。有人说再提示几次就好,可我试了半小时,把火山都说成炒辣椒了,效果还是不行。

打开网易新闻 查看精彩图片

不过它的多模态理解倒是给了我惊喜。我把一堆店铺库存表拍照上传,它能识别手写的“欠账”二字,还自动把OCR出来的数据和我口头描述对齐。那会儿电饭锅在旁边滴滴叫,我忙着掀锅,它照样在对话里主动提示“我看到第三页有批量入库数字”。这种“自己会找重点”的能力,明显比旧版更像合作伙伴。

我顺嘴问了它一句“知识库是不是换成新的”。它回答更新到二零二五年五月,还提醒我实时联网搜索也做了语义增强。我临时查了一条地方政策,它给出的摘要比新闻稿短,附了一句“具体执行细则落地仍需观察”。看到这句我笑出声,感觉像我妈唠叨“文件好是好,你们单位真能执行吗”。

打开网易新闻 查看精彩图片

整体体验下来,我能感觉它在长文本、推理、数学这些生产力场景里真的是往前迈了一步;但在需要大量物理模拟、细腻交互的编程场景,仍然追不上老牌对手。短期内我可能会把它当成处理文本和表格的主力,图形仿真还是得交给海外模型。至于它宣称的多专家结构、显存织物,我就当是工程团队的自信,等下一次更新看能不能把可视化也补上。

假如你需要长文档推理,却偶尔写仿真程序,你会先把核心任务交给深度求索试水,还是继续依赖海外模型只求稳妥?

打开网易新闻 查看精彩图片