2000多张选票,53%的人把票投给了同一个选项——“更好的答案”。在关于AI工具到底该往哪个方向发力的争论里,这个数字格外冷静。我的同事Karandeep前不久写了一篇文章,说他被 Gemini Notebooks 和 NotebookLM 的组合拳打动,甚至开始重新考虑 ChatGPT 的地位,这引发了我们内部的一个疑问:那些越来越像八爪鱼一样、触手伸进每个应用的 AI 工具,到底有没有戳中用户的真正需求?于是我们发起了一次投票,结果出乎很多人的意料——大家最想要的,朴素得近乎乏味。

具体来看,投票收到了超过2000份回复,分布相当集中。53% 的读者认为“回答质量更好”是 AI 工具最重要的升级方向;排在第二的是“像 NotebookLM 这样的集成功能”,获得了 22% 的票;紧随其后的是“有组织的工作流”,占了 17%;只有 8% 的人选择了“哪个好用就用哪个”,差不多是只要不太难用就行。这个比例分布像一份冷中有热的诊断报告:一边是主流用户对着准确度死死盯住不放,另一边是近四成人对集成和工作流产生了兴趣,但暂时还只把它看作“加分项”,而不是“生死线”。

打开网易新闻 查看精彩图片

评论区里的声音,比投票数字更尖锐。一位叫 Chris Joseph 的读者没给 Gemini 留情面:“在聊天机器人里,Gemini 是最让人抓狂的,NotebookLM 是它唯一的可取之处。” Phillip Warner 则更直接地表达了反复失望:“我给了 Gemini 一次又一次机会,但它就是不行。”这两种评价背后,不是对某个产品的一时气话,而是对“答案质量”的反复验证失败后积累的不满。不过,也有读者从工作流里找到了反向证据。Markthomasbernhardt 指出,可以把 Google Deep Research 的深度研究报告放进 NotebookLM,作为后续工作的指导文档,这种组合让工具变成了一个参谋部,而不是简单的一问一答机器。两种声音对冲之下,问题变得清晰了:集成和工作流能让一个已经够准的 AI 变得更好用,但无法弥补一个还经常出错的 AI 的核心缺陷。

如果只是看 53% 这个单一数字,可能会得出一个“不要花里胡哨,只要基本功”的结论。但把集成和工作流的票数加起来,就会看到另一个 39% 的群体。他们不是不在乎准确度,而是在准确度已经达到某个底线之后,开始追问“然后呢”。这群人很可能就是 Karandeep 所代表的早期探索者,他们每天和 AI 工具黏在一起,对单一问答框的效率上限心知肚明,所以才会对 Notebooks 的持久记忆、自定义来源、以及跨文档整理能力如此敏感。对他们来说,集成不是锦上添花,而是把零散的“正确”串成一条可重复执行的生产线。

这恰恰解释了为什么 Google、OpenAI 这些公司并不是在白费力气。他们一面死磕模型准确率、幻觉率和推理深度,一面铺开类似于 NotebookLM、代码解释器、第三方插件这样的功能网络。前者解决的是“能不能用”的问题,后者解决的是“好不好用”的问题,两个并行推进,对应着不同阶段用户的心理账户。调查反映出的矛盾更像是时间差的错位:目前多数用户还处在“被错误答案伤害”的阶段,所以把票投给准确性;而少数已经跨越了信任门槛的用户,则开始索要乘数效应。两者并不互斥,只不过产品经理们需要知道,在绝大部分人那里,集成和工作流还不具备一票否决权。

回顾一下整个讨论的起点,Karandeep 的“个人转向”并非没有根据,只是他代表了一个前哨群体的体验。当越来越多的人像他一样,在几个主流 AI 工具之间反复切换,最终留下的那个,往往是既能给对答案、又能帮他把事做完了的那个。但这里有一个严格的先后顺序:先把答案做对,再来谈怎么把流程做顺。投票说得很清楚,53% 的人在说“先做到那个最简单的承诺”,剩下的 47% 则在等一个更庞大的工作台。而最有趣的部分可能是,那些连选项都懒得深究、直接选“哪个都行”的 8%,或许才是最真实的市场边界——他们需要的不是更聪明,而是更不费脑子。这恰好说明,AI 工具的终极演化,不是变成张牙舞爪的章鱼,而是变成一堵能随时应答的墙,没有多余的触手,但永远立在那里,不经提醒,从不缺席。