打开网易新闻 查看精彩图片

编辑 | 泽南、杨文

春节还没到,「过年的气氛」已经渗入科技圈每个人的毛孔。单说 AI 大模型这一块,刚刚发布的有 kimi 2.5 和 Step 3.5 Flash,即将发布的据说还有 DeepSeek V4,GPT-5.3、Claude Sonnet 5、Qwen 3.5,GLM-5,说不定一觉醒来,现有的技术就要被颠覆。

再看看千问和元宝发的红包,组团上春晚的机器人,所有厂商在春节期间都摆出一副志在必得的架势。

正因为如此,我们在这个临近长假的时间段,又遭遇了很多的变数。很多人的行程调了又调,不到最后一刻不知道哪几天有空,难不成这场 AI 的革命,反而会让我们忙到忘了过节?

或许 AI 的事还是用 AI 来解决,今年春节的安排,必须得上「深度研究」了。

说来也巧,我们发现美团大模型 LongCat 刚刚上线了这个功能。

打开网易新闻 查看精彩图片

LongCat(龙猫)系列大模型,最近才火起来的,在 AI 圈里它的口碑主要是速度快,工具调用出色,走「实用主义」路线

作为大模型领域的后来者,美团进度追赶得很快,1 月份的上一次升级已经搞出了「重思考」模式,当时网友们的反响很不错。

打开网易新闻 查看精彩图片

这一次的 「深度研究」(DeepResearch)上,LongCat 又把实用化推向新的高度。

正好,我们就用它来安排一下春节的事儿。值得注意的是,该功能每日最多能生成 10 次。

  • 体验链接:https://longcat.ai/

大脑放空

让 AI 去研究

稍微一想,过年要办的事情还分挺多种:我们要吃好吃的,要走亲送礼,要出去玩,要看电影…… 这些需求看似简单,但需要使用大量信息检索,且要求深度的本地化理解。

当下 AI 助手遍地开花,大多都在卖力展示自己能回答多少问题、生成多少内容,但真正能解决实际生活难题的,少之又少。此次美团上线的 LongCat 深度研究功能,似乎正在改变这一现状。

选择「深度研究」,输入这样一段需求:

过年全家要去广州玩三天,住在天河区,想去体验最正宗的「老广」生活。帮我找 3 家隐藏在老城区巷子里的老字号餐厅(非网红连锁店),要求是当地老街坊常去,5 人总预算 1000 元以内,对比这些老字号的招牌菜和价格,对比服务和餐厅环境等优劣势,并给出参考建议。

https://longcat.chat/share-web/14e876cf-ec2b-490c-aea4-c9699a794125

LongCat 并没有贸然作答,它先抛出几个关键问题:具体哪几天去广州?更偏好哪种类型的老广美食?对环境有什么特殊要求?能接受多远的交通距离?

打开网易新闻 查看精彩图片

待信息补充完整后,它才开始真正的信息搜集和分析工作。最终生成的调研报告不仅罗列了三家老字号的招牌菜和价格,还直接给出预算内的配菜方案、交通路线,甚至用代码写了个 2026 春节晚餐时段避峰指南。

打开网易新闻 查看精彩图片

LongCat 最大的优势,在于它背靠美团在本地生活领域沉淀的数据。报告中提到的每家餐厅,都有真实的交易数据作为支撑。谁家的招牌有 155 人推荐、谁家环境评分 4.1、谁家春节延长营业时间…… 这些均来自美团真实用户的消费反馈和商家实际经营数据。

报告末尾罗列的信息来源,点击即可跳转至大众点评,下单或核查信息都很方便。

一到过年,自然少不了走亲访友,带些什么礼物也是颇为讲究。

我们设置这样一个情景:

过年要回杭州老家走亲戚,需要准备三份礼物。父母 50 多岁,爸爸爱喝茶,妈妈血糖高要控糖;姨妈和姨夫身体还不错但牙口不太好;姑妈 58 岁很注重养生,姑父喜欢书法。每家预算 600 元左右,要求礼品体面有档次、适合长辈、最好能体现杭州特色,帮我在杭州市区或周围商圈找找,每家推荐 1-2 种礼品组合方案,标注购买地点、价格明细,对比实用性和心意表达,给出最优搭配建议。

https://longcat.chat/share-web/59811426-763a-48d0-84cc-63f7124d5290

我们来看下 LongCat 整个信息搜集过程。它先从提示词中提炼关键词进行网页搜索,再把网页推荐的杭州特产礼品拿到大众点评上进行本地搜索,继而精准定位到具体商家。

打开网易新闻 查看精彩图片

在礼物选择上,它将三组长辈按健康状况、饮食限制、文化偏好分类,再匹配对应的礼品策略。父母需要控糖就配低糖燕窝,姨妈牙口不好就选软糯糕点,姑父喜欢书法就推荐邵芝岩毛笔配西泠印社文创。

LongCat 还标注了商家间的距离和步行时间,规划出高效采购动线。考虑到春节期间网红店会提前关门,建议除夕前完成采购,甚至连软糯糕点需要冷链运输、龙井要认准防伪标这些容易忽略的细节也都照顾到了。

打开网易新闻 查看精彩图片

「AI + 本地生活」就这样被重新定义了。「LongCat 深度研究」不仅能够通过调用真实工具链,完成高难度的生活服务搜索与规划任务,同时也做到了可信、专业、量身定制。

据近期一项测试显示,LongCat 「深度研究」功能在实用性和可靠性得到用户的广泛验证。

该测试邀请全国 36 个城市的 60 名用户参与吃喝玩乐攻略的横向盲测,评估各 AI 产品生成的旅游攻略质量。

数据显示,在「保存分享率」(用户认为攻略非常有用,愿意直接保存或分享)指标中,LongCat 以 31.1% 的占比位居第一,而 ChatGPT 仅有 16.7%;在「整体可用率」(用户认为攻略大部分或完全可用)指标中,LongCat 达到 61.1%,高于 ChatGPT 42.8% 等其他主流 AI 产品。

这表明,在这类任务中 LongCat「开箱即用」的程度和整体可用性,已在超越了包括 ChatGPT 在内的通用型 AI 产品。

就给人一种感觉,以后吃喝玩乐这些事,你只管起个念头,剩下的交给它就行。

不过,别以为 LongCat 只懂吃喝玩乐,它干正事同样在行。

最近《太平年》上映,不少观众对剧中那位「十朝元老」、「政坛不倒翁」冯道褒贬不一。有人说他是忠贞之士,有人骂他是奸臣之尤,那么冯道究竟是怎样一个人?我们把这个严肃的历史评价问题抛给 LongCat。

https://longcat.chat/share-web/ec2e7dff-0054-4720-baa9-4d77b59e72cd

它没有简单地贴上「好人」或「坏人」的标签,而是将冯道置于五代十国「合法性真空」的大背景下审视:半个世纪里五个王朝轮替,军阀以武力夺权,「忠君」的对象本身就在不断变化。接着拆解冯道的政治哲学,他将效忠对象从具体君主转向文明存续,以「安民」为最高目标。

LongCat 指出,冯道主持刊刻《九经》历时 22 年,跨越三个朝代从未中断,这是中国首次由国家主导的大规模图书出版工程。它为宋代「文治」奠基,开创了官刻图书先河。

报告还梳理了历史评价的流变。欧阳修批判冯道「无廉耻」,司马光斥为「奸臣之尤」,但苏辙认为这是「乱世生存」,李贽盛赞他「重民而不重君」。LongCat 把这种分歧放在宋代重建儒家伦理的时代背景下解读,冯道被符号化为批判靶子,其实是政治建构的产物。

打开网易新闻 查看精彩图片

可以看出,LongCat 能够平衡不同观点,从政治、文化、道德多维度分析,最终给出「在忠君与仁民冲突中做出艰难抉择的悲剧性人物」这样深刻的结论。这种能力,已经接近专业研究者的水准。

LongCat 的技术方法论

让大模型「学好理工」

在深度研究能力的背后,是 LongCat 强大的逻辑推理和复杂任务处理能力。

新版本的 LongCat 具备超长程、高并发的任务处理能力,支持最多 400 轮交互 与 256K 的上下文,这意味着它能够持续理解并拆解复杂的个性化需求与长文档研究。

工程人员为 LongCat 构建了多智能体的自动化工作流,实现了从信息收集(Search Agent)、研究分析(Report Agent)到可视化呈现(Render Agent)的专业化协作分工,从而交付直接可用的专业报告。

在权威评测基准 BrowseComp 上,LongCat 的智能体搜索能力达到了 73.1 分,性能已逼近顶级闭源模型,这意味着 LongCat 已经具备行业领先的复杂任务决策与推理能力。

打开网易新闻 查看精彩图片

再往技术细节里看,从生成架构、训练到后训练,LongCat 都具备一定的独特之处。

首先,LongCat 模型训练的过程,强调真实与原生。在训练过程中,背靠美团在本地生活领域的原生积累,模型搭建了一套覆盖 POI 搜索、地图路线规划、评论 / 笔记检索的真实工具集,让 Agent 一直在与真实环境的交互中完成训练。

这正是 LongCat 最具特色的地方,通过围绕真实场景的训练,该模型在 Agentic Search(智能体搜索)和工具调用方面表现出色。它非常善于理解复杂的 API,并能准确地调用工具来完成任务(比如查询库存、修改订单等),这就有效提升了其在线上处理实际任务时的表现。

打开网易新闻 查看精彩图片

其次,LongCat 学会了人类写报告的方式。通过多步骤渐进式生成架构,AI 会先基于全网搜索摘要生成全局 「报告大纲」,确保逻辑框架的严密性,随后通过「递归生成」 (Recursive Generation) 的策略,把当前章节大纲、相关搜索文档与前序章节上下文联合输入,逐章撰写。

这种机制有效解决了 AI 在长文本生成中的逻辑断层与上下文遗忘的问题,让 LongCat 的文章不会一开始有逻辑,越往后越离谱,同时也能保证你所提需求的每个细分方面都能获得足够的信息挖掘。

打开网易新闻 查看精彩图片

再往下,LongCat 通过多种校验机制,进一步保证了生成内容的准确性。在数据清洗与强化学习阶段,LongCat 引入了 Rubrics-as-Reward 机制,建立了包含引用准确率、信息召回率、报告深度、指令遵循度及可读性在内的多维评分体系,对训练数据进行高标准的清洗与筛选。

该机制强调资料引用的准确率,大幅减少了大模型幻觉问题,可以确保 LongCat 给出的每一条本地生活建议(如店铺营业时间、价格、地址)都有据可查。

最后,LongCat 的 DeepResearch 版还强调了「跨域知识融合的合版训练策略」,给大模型这个「文科生」补足了「理科」课程,使其变成了一个拥有工程师思维的旅行规划师。

在该混合训练策略下,Report 与 Render 的垂直领域数据,与通用语料、数学、代码等数据进行了联合训练。代码和数学数据的严谨逻辑特征,被用于反向增强生活类报告生成的条理性与任务规划能力。

通过「通专结合」的方式,强大的逻辑推理能力被注入到生活决策场景中,使智能体不仅能写文章,还能有条理地拆解复杂需求。

综上所述,LongCat 这次解决了很多以往 AI 写报告、攻略「看起来很美,真去执行全是坑」的问题,让大模型变成了能真正帮你把复杂需求拆解清楚,还能算明白账的专业分析师。

结语

真正理解现实世界,能解决问题的 AI 原来是这样。

不得不说,在大模型技术逐渐成熟的当下,LongCat 面向实用化发力的方法让我们看到了一个 AI 落地的新解法:在模型架构之外,把 AI 能力充分嵌入已有生态,能够产生前所未有的能力。通过连接供给丰富、反馈真实的本地生活网络,AI 大模型可以精准直连用户的需求,提供真实、个性化且实时可用的信息。

这两天,LongCat APP 即将上线「探索本地生活」,让深度研究能力聚焦于美团业务上,成为专业的 AI 地陪。

打开网易新闻 查看精彩图片

这或许会引发一场真实性的质变。在不远的未来,我们的生活或许会是这样子:把脑海中闪过的念头交给 AI 来实现,看看攻略,就可以一键出发。