AirJelly 发布了内测版本。

这是一款桌面端 AI 助手——通过屏幕截图捕捉你的工作上下文,理解你的意图,并主动帮你执行任务。

开发团队叫「持续低熵」(Low Entropy AI),创始人柏特是一名 00 后。去年他在字节主导了一款名为 MineContext 的上下文工程产品,随后便离职创业,很快拿到了来自五源资本的第一笔融资。

「MineContext 是 AirJelly 的脚手架。」

AirJelly 的核心理念是:不追求全量记录用户行为,而是以 Enter 键为锚点,捕捉用户每一次表达意图的瞬间。基于这些意图,AI 将行为建模为任务,主动推送下一步建议,甚至直接帮你完成。

「人的行为是一条轨迹,全量收集所有线条不方便,但记录其中的关键点,点和点之间 AI 是能补出来的。」

从「回答你的问题」升级到「预测你的下一步」,AirJelly 的口号是「Next Enter Prediction」,野心很大,但很让人期待。

打开网易新闻 查看精彩图片

以下是 Founder Park 与 AirJelly 创始人柏特的对话,经编辑整理。

产品官网:https://www.airjelly.ai/

⬆️关注 Founder Park,最及时最干货的创业分享

超 22000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的 AI 产品曝光渠道

0100 后团队,从字节出走

Founder Park:介绍一下你们整个团队,以及之前的一些经历。

柏特我 2021 年在西安电子科技大学读的本科,人工智能专业。本科期间,在 SwanLab、DataWhale 有一些开源项目经历。

大二那年,我去奇绩创坛做 Campus Scout,看了不少项目。当时对创业的认知更多来自奇绩的理念。大三在西电,也有幸获得了挑战杯的国金,因此积攒了不少创业的技能点

后来保研拿到了复旦的 offer,但因为一些机缘巧合没去成。2025 年,去西湖大学做了几个月 research intern,本来准备再申请博士,这两段宝贵经历也让我接受了一些简单的科研训练。

大概在去年 5 月底,我之前在字节实习过的团队说要招一个负责开源的产品经理,day1 就能直接 lead 项目。我当时判断,在字节这样的平台能直接负责项目是最宝贵的机会,在经过了漫长的七轮面试之后,我加入了字节。

入职后,我看了一些前沿方向,决定瞄准 Context Engineering,做一个开源应用叫 MineContext。花了两个多月时间,发布了产品。这个项目在社区内有了一定知名度,一路上曲折的经历,让我积攒了运营,商业,产品,开源以及科研相关的技能点,加上机会非常难得,于是过往的人生 connect the dots,命运的推背感促使我决定出来创业了。出来花了不到一个月融了第一笔钱,初始团队就是在字节一起共事过的小伙伴,大家意愿都不错,几个人就一起出来了。

Founder Park:团队现在大概什么规模,是线下还是远程?

柏特团队算上正职和实习生总共 11 个人,都在北京线下办公。我们认为线下沟通更高效、更敏捷,很多事可以直接讲掉,不需要专门拉会议。

我们团队最大的特点,可以拆成三个 A:

第一个是 Agency,高度自驱。我们没有打卡制度,同事经常半夜看到有意思的东西也会在群里发。我们总结了一个「两点半定律」,当然不是强迫的——有人版本开发得爽了可能自己就干到两三点。我们最新的版本是昨天凌晨 3:56 一个同事自己打磨完发出来的。

第二个是 Ambitious。大家都待过字节,是那种对大厂祛魅的年轻人,希望在 AI 时代做出更伟大的事情。

第三个是 AI Native。团队基本都是 00 后,高度使用 AI 工具来最大化工作效率。所有 AI 工具都支持报销,如果有人发现好的工具安利给大家用上了,还会拿到额外奖励。

Founder Park:团队现在还在招人吗?

柏特求贤若渴。第一个是 Agent 开发,我们希望能招更多 10 倍乃至 100 倍 AI 工程师;第二个是算法岗,VLM 后训练、记忆系统、Proactive 触发,都有不少需要算法优化的部分;第三是 Marketing 相关的人才,我们认为这会是未来科技行业至关重要的岗位,attention is all you need!

我们团队偏通才,全员都有 Coding 背景,包括我们的设计师,之前就在百度做过前端。

02纯记录 Context 工具卖不出钱
AI产品必须能交付结果

Founder Park:在字节时,你们做了 MineContext,到现在出来创业做了 AirJelly,中间的变化以及思考过程是怎样的?

柏特MineContext 最早的规划不止做应用,底层框架也要做,但我们觉得应用是最好收集用户反馈的方式,基于应用可以迭代出更敏捷的框架,所以先做了应用,叫「MineContext」,因为做的是上下文工程。

MineContext 到 AirJelly 有很大的不同。AirJelly 某种程度可以理解为,MineContext 是它的脚手架,但不是说优化一下就变成 AirJelly 了。中间我们也思考过很多方向,比如 Claude Code 的简易化、任务管理编排、人机协作等等。

OpenClaw 出来之后,我们仔细研究了它背后那套 Pi 框架,发现效果非常棒。我们把它接入了原有的流程,再结合 MineContext 对屏幕理解和上下文捕捉的理念,产生了 1+1 大于 2 的效果。整个方向,大概在今年 2 月初定下来的。

Founder Park:之前的尝试都跟 Context 相关吗?

柏特:我们最核心的理念一直没变,就是要获取更多的 Context,也用了很多屏幕截图做额外补充。唯一的区别是,我们之前在纠结做纯粹记录的工具、编排类工具,还是带有很强执行能力的工具。后来经过了大量用户访谈,决定了目前这个形态。

Founder Park:MineContext 是收集上下文,到现在的 AirJelly 是直接交付结果,为什么要做这个转变?是觉得单纯收集上下文在现阶段不太够了吗?

柏特对,MineContext 核心做的是收集和分析,产出各种报告,日报、Insight、提示等等。AirJelly 最初也曾想过只做收集不做执行,但后来发现几个问题。

第一,纯粹收集分析这种形态,过去互联网有过先例,但你会发现它卖不出去钱——用户付费意愿非常低,最多接受一次性永久付费。但 AI 时代我们需要消耗 Token,这根本不成立。

第二,纯记录的东西使用频率会很低,可能偶尔想着去看一眼。一直在幕后,很难让用户注意到它,天花板也比较低。

后来我们试着接入了 Pi 框架,发现结合上我们的上下文,它能交付的结果非常棒。同时我们一直想做 Proactive,如果有很棒的 Context,把它建模成用户的意图和行为轨迹,再加上强大的底层 Agent 能力,就有望迈向一种非常通用的 Proactive Agent。所以最终决定要做 Proactive Agent。

03全量记忆记录,对用户来说毫无价值

Founder Park:从你们最开始对于产品的设想到现在的最新版本,在功能或者方向上有什么大的调整吗?

柏特第一个是,我们一开始想完全不做 chat 的形式,因为当时感觉这个形态太老套了,大家都在做。后来 Pi 框架之后,发现有 chat 的能力确实非常强,加上我们的记忆也能更大化地利用,所以最后还是把 chat 加回来了。

另一个是,我们最早是做全量记录的,有一系列智能策略,比如防抖、判断什么时候该截什么时候不该截。后来做了一个实验:换成只在按 Enter 时截图,结果发现效果还可以。

全量记录可能收集到 60 分的信息,但有 5 分的错误。换成 Enter 后可能剩 50 分信息,但错误只有一两分。人对错误的容忍度很低,一个错误推送比少记几件事更容易让用户觉得产品不好。

举个例子:你在刷朋友圈,刚好看到朋友发了一个帖子,全量截图可能把这个截下来,以为你要做这件事,这就是 5 分的错误,实际上对用户来说毫无价值。

同时,在成本上有巨大下降的。没有 Enter 机制前,每天截图大概约 1500 张,有了之后平均 300 张,成本直接降为了原来的五分之一。再有就是,用户可控性也更好,有 Enter 的话,用户大概知道什么东西是会被截图的,有这个感知。

Founder Park:在产品前期阶段,你们会看哪些关键指标来判断功能设计是否达到预期了?除了日活、使用时长。

柏特我觉得最核心的是两个点。第一是 Token 消耗量,尤其是用户用 Agent 做任务时的消耗,这能证明我们的 Agent 能力,也能证明记忆加 Agent 能力给用户带来了真实价值。日常分析的消耗是偏固定的,做任务的消耗才是核心指标。

第二是 Proactive 接收率。我们的整条链路是:截图 → 分析 → 建模成 Event → 归纳成 Task → 推断 Next Step → 触发 Proactive → Agent 执行 → 推送给用户。如果用户愿意接收这个 Proactive,代表整条链路基本都是好的;如果不愿意,可能整条链路某个环节做错了。

我们最早的版本,Proactive 和截图、Task 没有完全打通,用了一些其他机制。后来把整条链路打通之后,对整体优化来说是更理想的情况。

Founder Park:你们会预期用户用 Agent 完成什么任务?

柏特理论上 OpenClaw、Cowork 的用户能做什么,我们都能完成得更好,因为有更多的 Context。

我自己日常基本就只用我们这个产品了,之前还会用 Manus、Gemini、Cursor,现在基本都不用了,不管是调研、写产品文档、还是写代码提交,都在这里闭环。我现在所有融资的 PPT 都是让 AirJelly 做的,因为它知道我比较全量的信息,而且能力也比较强。

Founder Park:怎么让用户觉得可以把重要的事情放进来?会有一些引导吗?

柏特对,而且这是所有企图做通用 Agent 的人必须面对的一个问题。你拿 OpenClaw 干什么,拿现在的 ChatGPT 干什么?其实未必一下子能完全说得出来,不同的人,有不同的用法。

一是,我们提供一个更全量的 Context 捕获和记忆;其次是,我们能提供一个很好的 Agent 执行。我们内置了一些模板,比如你可以让它分析你的工作情况,给你出一些下一步的计划,或者出日报。下一步,根据不同职业或行为习惯的人,探索出一些有意思的用法。

Founder Park:所以,你们会根据用户的一些行为,主动给他推一些可能跟场景相关的典型案例?

柏特对。我们的一个设计原则是,AI 时代,不是一个设定死的 workflow。它能输出什么,拿到不同的 Context 能达到什么样程度,都是一个很难说的状态。

我们相信两个东西:第一是相信 AI,第二是相信用户。用户也许能发现更有意思的东西。包括我们自己也是用户,最早也没想着直接用它来给产品经理写代码,是用着用着后来发现可以的。很多东西未必是你预设好的,很多也是用户探索的,但前提是你要提供给他很棒的 Context 收集和很棒的 agent。

04只需要记录意图的关键点,就能补出中间的「轨迹线」

Founder Park:你们自己是怎么理解 Context 的?

柏特过去做 Context 的人,一般把它分为画像和事件两类,通过聊天来收集。我们现在更关注的是捕捉用户的「意图」,由意图推导事件,再组织成任务。

过去的 Episodic Memory(事件记忆)就是「某人在某个时间做了什么事」,本质上是召回性的,知道某个时间点做了什么。但我们觉得一个事情最好能把它完整推下去、完整建模。

Founder Park:截图想记录的真正东西是什么?是用户的决策过程吗?

柏特举个例子:你在某个场合,基于某些已知上下文说了一句话。把这句话和前一句联系在一起,AI 大概就能知道你在了解什么信息,进而推断出你的意图。两次 Enter 之间,基于截图的上下文,AI 能推断出中间大概发生了什么。再有就是人的意图表达,某种程度上也已经暗含了一些信息了。

我们把这些串起来组织成 Event,再基于 Event 推断 Task。这样不管是对用户回顾、还是做 Proactive 推送都更有价值。散乱的「我做了什么」价值不大,但建模成 Task 之后,用户方便回顾继续,AI 也方便做主动触发。

Founder Park:选择「Enter」的形式,是觉得它代表用户「确定要做某件事」的起点吗?

柏特Enter 不完全是一个开始,也可以是一个阶段性的节点。你可以把人的行为理解为一条轨迹,全量收集这些轨迹不那么方便,但如果记录其中的关键点,通过点和点之间 AI 能大概把中间的线补出来。同时基于这些点,也能预测你的下一个点可能是什么,然后做 Proactive 触发。

我们最早是定时截图,后来想能不能加入关键帧,比如 Enter 或点击或 Ctrl+C/V。再后来发现 Enter 这一帧的价值最大,而且损失也没那么多,就换成了 Enter。

Founder Park:不同软件里的 Enter 行为差别很大,你们是怎么处理的?

柏特我们除了屏幕权限之外还获取了 Accessibility 权限,能知道 Enter 那一刻光标在哪里、在哪个应用。微信输入框里的 Enter 和浏览器输入框的 Enter 是不一样的,Word 或 Notion 那种多行文本也能拿到背景信息。

所以按下 Enter 那一刻,我们会把「在什么应用里、输入框是什么类型、当前在做什么、相关上下文」一起输进去,不只是简单截个图做 OCR。

Founder Park:Cursor 记录的是 Tab 键行为,你们记录的是 Enter 键,有什么区别吗?

柏特Cursor 的 Tab 我觉得很大程度上是一个早期传播和用户心智的事情。你看他现在其实也都是用右侧的 Agent 窗口,基本没人用那个 Tab 了。但它最早能想到「通过 Tab 这个动作来触发 AI」,说明这个洞察还挺好的。

我们也想打造类似的形象:人和 AI 的交互、搜索,都是通过 Enter。我们也想通过 Enter 这个动作,让用户直觉上把「输入意图」和「触发 AI 感知」关联在一起。

我们之后还会上一个功能叫「Next Enter Prediction」,就是基于你过去的行为轨迹,预测你下一次 Enter 要回什么、要提交什么。这个功能某种程度也是对 Enter 作为意图锚点的进一步延伸。

05Task 是比时间线更好的记忆组织方式

Founder Park:AirJelly 现在的记忆系统大概是怎么样的?怎么区分当下重要的和上周重要的东西?

柏特数据库都是在本地的,记忆系统分两块:静态的信息建模成 Entity,比如某个人是谁、某个项目是什么,类似 Graph 的形式。动态的信息建模成 Task,了解这个事情的前因后果、做得怎样、之后可以怎么做。

召回时会综合向量检索和关键词检索并叠加一些 Agentic RAG 的机制,在记忆权重上我们会有一套时间衰减机制,比较远,召回少的记忆的时间权重低一点。

Founder Park:现在的记忆机制,和你们去年做 MineContext 时相比,有什么大的区别?

柏特MineContext 是「平铺直叙」的——你的意图、行为、过程,所有东西都平铺着存,只用一个字段做区分。

AirJelly 是有进一步加工的:把你跟事件相关的东西,一步步加工成 Task,一个 Task 里包含了多条小的行为记录。我们有一个洞察:Context 也有高低之分。首先是「意图 Context」比较重要,其次是「Context 的组织程度」也有高低之分——就像 Coding Agent 把代码组织成目录结构,目录本身隐含的信息量非常大。

我们把截图和行为组织成 Task → Event 的层级,你先召回 Task,再看它下面有哪些 Event、意图和截图,然后做进一步的分析,这比全散着一股脑召回要好非常多。

Founder Park:这个「Task」里面包含什么?

柏特大概包含:标题、核心摘要、创建时间、完成情况、Progress、Next Step、关键词(用了什么应用、大概什么内容),以及下方的 Event 列表,各个小阶段做了什么,怎么拼接成了当前的 Task 状态。这些全由 AI 来判断和写入。

同时,之后 Task 和用户自己创建的 Todo 也会是打通的:用户主动添加的 Todo,日常被自动识别的相关行为也会自动吸附上去。

Founder Park:为什么选择用数据库的形式,不是 Markdown 文件?

柏特Markdown 是一种挺好的形式,但在我们这个场景下有点偷懒。OpenClaw、Rewind、Dayflow 很多产品最核心的是时间,某个时间做了什么事。但在 AI 时代,你做事情未必是连续的,你可能早上做一下,下午再做一下。按时间记录不完全合理,还是应该按任务记录。

再有就是 Token 消耗问题。Markdown 的方式,你想找某个东西可能得大量地读,修改也得把内容扔给 AI 分析再改,有大量隐性消耗。而我们用数据库,召回时筛选最相似的部分就行,不需要把所有内容都读一遍。

06下一步,想做「Next Enter Prediction」

Founder Park:怎么理解你说的「Next Enter Prediction」?

柏特比如你在某个微信群回了一条消息,然后切去 ChatGPT 或 Gemini 讨论了一会儿,再切回这个微信群,这时候你大概要说什么?如果上下文足够,AI 是能推理出来的。

我们未来可能会实现这样的效果:基于你的 Session 切换和记录的上下文,等你下次切回某个聊天窗口时,直接推断「你可能想回复 XX」,提供几个选项,你通过一个简单的交互确认就发出去了,不需要自己打字了。

Founder Park:如果这个设想再进一步,能不能在你还没切回来页面的时候就直接替你做了?

柏特对,其实我们现在的 Proactive 已经是在推断你的下一步可能是什么,然后帮你做了。但「直接帮你想好要回什么」这件事,它其实并不比直接帮你做更多,但给人的感受会更妙,让用户感知到了「AI 在这个时刻知道你要干什么,而且把内容都给你准备好了」。而且通过不断选择选项,也能越来越准确地建模用户的偏好。

Founder Park:你们现在是怎么判断,什么时候弹一个 Proactive 推送的?

柏特我们现在的做法是:只要触发了新的 Task 或者 Task 有更新,就会有新的 Next Step 进入推送池。然后判断两个条件:推送的阈值够不够、最近是不是太频繁了。两个都满足,就弹出来了。

我们其实没有完全判断用户是不是在专注。这个设计来自我在字节的一个灵感,我们在字节不开会的时候大家做自己的事,你在专注工作,旁边的人突然说「黄柏特这个东西你帮我看一下」,或者「黄柏特这个我搞完了你看下」。这种打扰程度其实还好,但它是非常高效的协作方式。我们想实现类似的效果。

最终决定权还是在用户手里,你可以选择现在处理,或者先忙完手里的事再处理。

Founder Park:现在截屏的时候,桌面的水母会有一个小的喂食设计。

柏特对,触发的时候水母喂一块饼干或者小龙虾这种形式,有一种通过 enter 养水母的感觉。这样既让用户有感知,又不会太突兀。

Founder Park:你预想的 Proactive 终极画面是什么样的?

柏特我们能收集你的意图、最近的 Task 列表、在什么工具里完成的、一般通过什么方式完成的,这些我们都能收集到。加上强大的 Agent 能力,理论上可以 7×24 小时执行。

现在的任务是人设定的,所以执行偏单线程。但假如 Agent 能基于你的行为建模出你可能有 5 个任务要做,这 5 个任务你真的需要做但你不知道,同时帮你把这 5 个任务都执行了,那就是多线程的 Proactive 人机协作,效率会大幅提升。

Founder Park:帮人类发现可能漏掉的、值得去做的事,甚至 agent 直接把这个事帮你完成了。

柏特对,比如说我今天有几件确定的事,跟 Founder Park 的专访、下午去聊融资、以及要准备发邀请码。这几件事各自还会有前置任务,比如准备怎么回答、准备一版 PPT。理论上这些确定性都比较强的事情,Agent 都可以并行跑起来。

过去的主动式 Agent 产品能在 15 分钟内推一件事就不错了,多了就是打扰。但如果足够准、跟你的任务足够相关,5 分钟推 5 件事也不是不可能。甚至不需要固定时间,判断出你在准备这个大纲的内容就直接帮你写了。执行可以做得更激进,但需要 Task 识别和 Proactive 接受度都得达到一个阈值。

07Aha Moment,是让用户第一次感受到「AI 真的懂我」

Founder Park:你们做用户调研的时候找了哪些人?核心用户画像是谁?

柏特前期调研了 MineContext 的早期核心用户,找了产品经理、在读博士生和 Marketing 从业者。我们认为这几类人能提出更有价值的见解。

理论上对所有知识工作者都有价值,人都有记录的需求。但如果一定要有画像,最核心的三类是:

第一是超级个体(OPC),就是那种多线程、高度自驱的独立工作者;第二是 ADHD 人群,他们天然多线程、频繁切换,对记录和组织有强需求。我们其实最早第一版 BP 就预设了面向 ADHD 人群的场景;第三是初创公司团队,他们需要知道自己时间花在哪里,跟哪些内外部的人产生联系,高效记录并在之后使用。

我们自己团队的设计师、产品经理就是高强度用户。随着 AI 的发展,多线程工作的人也会越来越多。

Founder Park:你们希望在哪个环节让用户感觉到这个产品的 aha moment?

柏特我自己有两个 aha moment。第一个是直接让 AirJelly 给自己写代码——因为它有很强的记忆能力,知道 AirJelly 本身的进展,能通过本地文件或群聊了解到信息,再加上比较强的 Coding 能力,可以直接自己分析、交流、写代码。

但这个可能不是面向通用用户的。对通用用户来说,产品初始状态是一个普通的对话界面。在你按了几次 Enter 记录了一些信息之后,它会有更多你的上下文,然后弹出一个 Proactive,我觉得这个应该是第一个能让用户感受到 aha 的时刻。

我们现在的 Onboarding 做法是让用户选择职业,选完之后右侧会展示这类职业常用的场景,以及基于这些场景可能出现的 Proactive 效果,让用户提前感知到。

我们在寻找两种 case:第一种是「很快」,用了几分钟、按了几次 Enter 之后,它能出一个跟你刚才在做的事相关的 Proactive,哪怕比较简单,也能让用户感知到「它在关注我」。第二种是「最 magical」,一定是只有 AirJelly 才能实现的场景。

Founder Park:你们的产品想给新用户呈现什么样的感觉?比如,他刚刚安装完之后,应该怎么用?

柏特我们其实想给用户带来的感觉是,有了 AirJelly 之后,你不需要有任何额外的操作,你只是像往常一样与人交流,使用 AI,检索信息。你的全部意图都能被记录下来,你可以随时查看自己在什么时间做了什么,自己在推进哪些任务,偶尔还会有 AI 伙伴出来主动帮你完成任务。

此外产品会有一个「养水母」的概念,桌面上有一只水母,有点像皮卡丘或者超能 nono。水母记录了你的 enter 次数,以及它最近给你提的 Proactive,你可以选择执行或忽略,通过这种方式让水母和你的同步越来越准。

08最终目标是降低用户日常工作、认知的「熵增」

Founder Park:你们团队的名字有什么寓意吗?

柏特我们团队的中文名叫「持续低熵」,英文叫 Low Entropy AI。熵在物理学里是热力学第二定律,衡量混乱和有序,是非常第一性的原理,某种程度比万有引力还要更本质。

名字有三层含义。

第一层是产品层面:我们希望产品能给用户带来有序,

第二层是生物学层面:薛定谔说过「生命以负熵为食」,保持低熵代表一种活力。我也希望团队能始终保持活力,哪怕以后变大了也不会得大公司病。我们的公司 Slogan 是「Context,Not Control」——多给上下文,少搞控制。这也借鉴了字节和亚马逊的管理哲学。

第三层是人工智能层面:交叉熵损失函数代表预测分布和真实分布之间的距离。我们希望通过人机协作,让人逐步更深刻地认识自己的行为和工作本质。

Founder Park:熵这个东西其实还蛮好玩的。之前 Elys 的创始人也说过,想用 AI 来减少人与人之间交互的熵增。我觉得你们有点异曲同工之妙。Elys 想解决的是人与人之间去除干扰和误解后的高效交流。

你们的低熵指的是人和人之间的,还是人和各种事物之间的?

柏特我们认为第一层肯定是人和人之间的,第二层是人和 AI 之间的,以及未来可能会有 AI 与 AI 之间的。但我们现在最希望的是第一层:用我们这个产品能把日常工作的认知负载尽量结构化、尽量有序。

Elys 这个产品我们也测试过,他们公司叫「自然选择」,也提过用人机协作来降低熵——他们想解决的是人和人之间的,去除干扰和误解之后的高效交流。我们瞄准的是人在工作和认知上的有序状态,异曲同工。

「持续低熵」这个名字在投资圈里反应很好,当你把它扔给对方,他会觉得「这还挺妙的」。水母的意象我们也觉得很好,快人一步抢注了这两者我们还是非常兴奋的。

Founder Park:明白了,就是追求在各种关系里面都达到一个更稳定、更高效的状态。

柏特对,我们公司的 slogan 也是。第一条是「Context,not control」,更多的上下文,更少的控制,这个既是产品理念,也是我们公司的哲学。还有一点是「Clarity,from chaos」,从混乱到秩序。

我们希望保持的其实不是一种僵死的有序,希望拥抱一定的混乱,然后从混乱中诞生出有序。这也是我们的一个追求,因为某种程度的混乱也能带来更多的可能性,但我们最终是要把它塑造成一种低熵、一种秩序。

Founder Park:AirJelly 的名字是怎么来的?

柏特AirJelly 的名字来源于设计理念。

首先是我们希望产品能够连接各处的 Context,有一种无处不在有足够轻灵的感觉,就像空气一样,于是想着带上 Air;另外我们做屏幕截图和理解,这是一个比较激进的事情,需要在设计上做大量工作来降低用户的心理负担。我们最早想叫 Aether,以太是光的介质,感知能力很强。但后来觉得最好做一个动物形象——从 LLama 开始很多 AI 项目都用动物形象,在传播上和用户感知上也更好接受。找了大量动物形象之后,发现水母感知能力很强,同时又非常简单,叠加上「轻灵」的理念,就叫了 AirJelly。

用户调研时,我们拿了具体的水母形象设计给一些人看,大家的反应是「一看就非常可爱」,就用了目前这个版本。

Founder Park:水母的形象太可爱了,有些用户会不会把它当桌面小宠物,影响对工作助手的认知?

柏特我们这代人都知道宝可梦和数码宝贝,那些形象也很可爱、随身携带,但能力非常强。OpenClaw 是龙虾形象,大家不会因为觉得它可爱就觉得它没能力。能力本身用户实际体验是不受影响的,但怎么让用户愿意丝滑地体验进来,第一步还是设计得温和可爱一些。

还有,OpenClaw 这一波传播挺有意思的,「养虾」都成了一个流行词了。我们也希望「养水母」能有类似的传播效果。

Founder Park:用户的隐私问题,现在你们是怎么解决的?

柏特我们有 PII(个人识别信息)脱敏技术,能涂掉或替换敏感信息。实际处理的图片也不是原始图片,我们会判断哪些是重心部分,只截取重心区域。这套涂抹机制目前还在评估中。

我们确实也想试探下「水温」,用户到底能接受到什么程度?这个问题其实连我们自己也不确定。

我们也做好了被骂的准备。被骂有两种情况:一种是做得太烂,那没得救;另一种是做得比较激进、具有变革性,这种也会被骂,但我觉得这不完全是坏事。

理想情况是达到 OpenClaw 那种状态:有人 concern,有人骂,但整体上可控。在 AI 时代,大家对激进产品的接受度和尝鲜意愿都比以前高了很多,这是有利的环境。

09ScreenMemory,在 PC 端仍然是一片「空白地带」

Founder Park:你们怎么看 AirJelly 的竞品?

柏特Rewind 和 Recall 现在基本都不做了。在 PC 端,其实是一个「空白地带」。

我觉得 Rewind 最有意思,他们刚出来的时候,VLM 还不行,用的都是 OCR。把数据沉淀下来之后,因为 Agent 能力不够强,加上用的是 OCR 图片,做不了太多事情,可能就是问问「什么时候做了什么」,价值非常有限。

在硬件方面,LOOKI 想做的故事跟我们有点像,All in Proactive。但我们和 LOOKI 不同的是,不做全量记录,更多是以意图为导向。

Founder Park:PC 端之前有很多尝试,但到今天好多都没做了。

柏特ScreenPipe 还在做,但产品化能力不太行。Dayflow 也是类似的问题。

现在的节点有一个很大不同的是,Agent 能力足够强了,模型加框架都强了很多,记忆也做得更好,召回的东西的价值能被更大程度体现出来。所以这是一个比较好的节点,但还是需要有执行能力,不能只做记录和分析。

MineContext 当时也有一个简单的对话,但用的是其他家的大模型,也没用上 OpenClaw 的底层框架,召回推断做得都不行。我们现在模型强了、框架强了、记忆做得更好,体验会比以前好非常多。

Founder Park:你们担心大厂来做同样的事吗?

柏特我在字节待过,对大厂的认知比较清楚。核心项目资源是够的,但流程很长;非核心项目,资源其实比创业公司少很多,MineContext 当时就是这种感觉。

再有一点是,大厂对隐私类产品决策很谨慎,未必敢第一个「吃螃蟹」。我们上了,他们可能才会跟上。

如果大厂下场,第一反应应该是:说明方向对了,我们估值要涨(笑)。其次,我们长期会是一个入口级的产品,大厂做了,大家也都会需要这样类似的机会。

最后还有一个点是,我们在大量存记忆,用户用得越久越舍不得离开,所以这是一个天然的护城河。

Founder Park:AirJelly 最终会是什么形态?

柏特长期会是一个入口级的产品。接下来,我们会做团队版,每个人有自己的 AI Agent,两个 Agent 之间可以相互交流,判断有没有需要同步的信息。如果你想了解同事最近的工作进展,直接问你自己的 Agent 就行。我甚至觉得这是一种未来的团队协作形态。我们内部已经在试用了,我们会在充分打磨好权限管理后推出这个功能,如果你想提前体验有两个方法,加入我们,或者成为我们的投资人哈哈。

Founder Park:你觉得 AI 个人助手在未来两年,会发生什么变化?

柏特从更长期的来看,未来每个人都要有自己的 Agent。

我觉得 Agent Network 是必然的一个方向。最近 Moltbook 被 Meta 收购了,Agent 之间可以互联互通的协议会逐渐成型。

Agent 之间通过开放协议连入某个公共平台进行交流和社交,可能是替你进行一些社交,或者代替你跟别人的 Agent 交换信息。这时候谁的 Agent 有最多、最有效的记忆,谁的个人助手就更不一样。协议是开放的,所以未必只能用某一个工具,记忆的积累才是最核心的壁垒。

打开网易新闻 查看精彩图片

转载原创文章请添加微信:founderparker