字节出来的 00 后团队，做了一款主动式 AI 桌面助手：只记录意图，想「预测你的下一步」|agent|上下文|代码|字节|电子表格|输入框

AirJelly 发布了内测版本。

这是一款桌面端 AI 助手——通过屏幕截图捕捉你的工作上下文，理解你的意图，并主动帮你执行任务。

开发团队叫「持续低熵」（Low Entropy AI），创始人柏特是一名 00 后。去年他在字节主导了一款名为 MineContext 的上下文工程产品，随后便离职创业，很快拿到了来自五源资本的第一笔融资。

「MineContext 是 AirJelly 的脚手架。」

AirJelly 的核心理念是：不追求全量记录用户行为，而是以 Enter 键为锚点，捕捉用户每一次表达意图的瞬间。基于这些意图，AI 将行为建模为任务，主动推送下一步建议，甚至直接帮你完成。

「人的行为是一条轨迹，全量收集所有线条不方便，但记录其中的关键点，点和点之间 AI 是能补出来的。」

从「回答你的问题」升级到「预测你的下一步」，AirJelly 的口号是「Next Enter Prediction」，野心很大，但很让人期待。

以下是 Founder Park 与 AirJelly 创始人柏特的对话，经编辑整理。

产品官网：https://www.airjelly.ai/

⬆️关注 Founder Park，最及时最干货的创业分享

超 22000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的 AI 产品曝光渠道

0100 后团队，从字节出走

Founder Park：介绍一下你们整个团队，以及之前的一些经历。

柏特：我 2021 年在西安电子科技大学读的本科，人工智能专业。本科期间，在 SwanLab、DataWhale 有一些开源项目经历。

大二那年，我去奇绩创坛做 Campus Scout，看了不少项目。当时对创业的认知更多来自奇绩的理念。大三在西电，也有幸获得了挑战杯的国金，因此积攒了不少创业的技能点

后来保研拿到了复旦的 offer，但因为一些机缘巧合没去成。2025 年，去西湖大学做了几个月 research intern，本来准备再申请博士，这两段宝贵经历也让我接受了一些简单的科研训练。

大概在去年 5 月底，我之前在字节实习过的团队说要招一个负责开源的产品经理，day1 就能直接 lead 项目。我当时判断，在字节这样的平台能直接负责项目是最宝贵的机会，在经过了漫长的七轮面试之后，我加入了字节。

入职后，我看了一些前沿方向，决定瞄准 Context Engineering，做一个开源应用叫 MineContext。花了两个多月时间，发布了产品。这个项目在社区内有了一定知名度，一路上曲折的经历，让我积攒了运营，商业，产品，开源以及科研相关的技能点，加上机会非常难得，于是过往的人生 connect the dots，命运的推背感促使我决定出来创业了。出来花了不到一个月融了第一笔钱，初始团队就是在字节一起共事过的小伙伴，大家意愿都不错，几个人就一起出来了。

Founder Park：团队现在大概什么规模，是线下还是远程？

柏特：团队算上正职和实习生总共 11 个人，都在北京线下办公。我们认为线下沟通更高效、更敏捷，很多事可以直接讲掉，不需要专门拉会议。

我们团队最大的特点，可以拆成三个 A：

第一个是 Agency，高度自驱。我们没有打卡制度，同事经常半夜看到有意思的东西也会在群里发。我们总结了一个「两点半定律」，当然不是强迫的——有人版本开发得爽了可能自己就干到两三点。我们最新的版本是昨天凌晨 3:56 一个同事自己打磨完发出来的。

第二个是 Ambitious。大家都待过字节，是那种对大厂祛魅的年轻人，希望在 AI 时代做出更伟大的事情。

第三个是 AI Native。团队基本都是 00 后，高度使用 AI 工具来最大化工作效率。所有 AI 工具都支持报销，如果有人发现好的工具安利给大家用上了，还会拿到额外奖励。

Founder Park：团队现在还在招人吗？

柏特：求贤若渴。第一个是 Agent 开发，我们希望能招更多 10 倍乃至 100 倍 AI 工程师；第二个是算法岗，VLM 后训练、记忆系统、Proactive 触发，都有不少需要算法优化的部分；第三是 Marketing 相关的人才，我们认为这会是未来科技行业至关重要的岗位，attention is all you need！

我们团队偏通才，全员都有 Coding 背景，包括我们的设计师，之前就在百度做过前端。

02纯记录 Context 工具卖不出钱
AI产品必须能交付结果

Founder Park：在字节时，你们做了 MineContext，到现在出来创业做了 AirJelly，中间的变化以及思考过程是怎样的？

柏特：MineContext 最早的规划不止做应用，底层框架也要做，但我们觉得应用是最好收集用户反馈的方式，基于应用可以迭代出更敏捷的框架，所以先做了应用，叫「MineContext」，因为做的是上下文工程。

MineContext 到 AirJelly 有很大的不同。AirJelly 某种程度可以理解为，MineContext 是它的脚手架，但不是说优化一下就变成 AirJelly 了。中间我们也思考过很多方向，比如 Claude Code 的简易化、任务管理编排、人机协作等等。

OpenClaw 出来之后，我们仔细研究了它背后那套 Pi 框架，发现效果非常棒。我们把它接入了原有的流程，再结合 MineContext 对屏幕理解和上下文捕捉的理念，产生了 1+1 大于 2 的效果。整个方向，大概在今年 2 月初定下来的。

Founder Park：之前的尝试都跟 Context 相关吗？

柏特：我们最核心的理念一直没变，就是要获取更多的 Context，也用了很多屏幕截图做额外补充。唯一的区别是，我们之前在纠结做纯粹记录的工具、编排类工具，还是带有很强执行能力的工具。后来经过了大量用户访谈，决定了目前这个形态。

Founder Park：MineContext 是收集上下文，到现在的 AirJelly 是直接交付结果，为什么要做这个转变？是觉得单纯收集上下文在现阶段不太够了吗？

柏特：对，MineContext 核心做的是收集和分析，产出各种报告，日报、Insight、提示等等。AirJelly 最初也曾想过只做收集不做执行，但后来发现几个问题。

第一，纯粹收集分析这种形态，过去互联网有过先例，但你会发现它卖不出去钱——用户付费意愿非常低，最多接受一次性永久付费。但 AI 时代我们需要消耗 Token，这根本不成立。

第二，纯记录的东西使用频率会很低，可能偶尔想着去看一眼。一直在幕后，很难让用户注意到它，天花板也比较低。

后来我们试着接入了 Pi 框架，发现结合上我们的上下文，它能交付的结果非常棒。同时我们一直想做 Proactive，如果有很棒的 Context，把它建模成用户的意图和行为轨迹，再加上强大的底层 Agent 能力，就有望迈向一种非常通用的 Proactive Agent。所以最终决定要做 Proactive Agent。

03全量记忆记录，对用户来说毫无价值

Founder Park：从你们最开始对于产品的设想到现在的最新版本，在功能或者方向上有什么大的调整吗？

柏特：第一个是，我们一开始想完全不做 chat 的形式，因为当时感觉这个形态太老套了，大家都在做。后来 Pi 框架之后，发现有 chat 的能力确实非常强，加上我们的记忆也能更大化地利用，所以最后还是把 chat 加回来了。

另一个是，我们最早是做全量记录的，有一系列智能策略，比如防抖、判断什么时候该截什么时候不该截。后来做了一个实验：换成只在按 Enter 时截图，结果发现效果还可以。

全量记录可能收集到 60 分的信息，但有 5 分的错误。换成 Enter 后可能剩 50 分信息，但错误只有一两分。人对错误的容忍度很低，一个错误推送比少记几件事更容易让用户觉得产品不好。

举个例子：你在刷朋友圈，刚好看到朋友发了一个帖子，全量截图可能把这个截下来，以为你要做这件事，这就是 5 分的错误，实际上对用户来说毫无价值。

同时，在成本上有巨大下降的。没有 Enter 机制前，每天截图大概约 1500 张，有了之后平均 300 张，成本直接降为了原来的五分之一。再有就是，用户可控性也更好，有 Enter 的话，用户大概知道什么东西是会被截图的，有这个感知。

Founder Park：在产品前期阶段，你们会看哪些关键指标来判断功能设计是否达到预期了？除了日活、使用时长。

柏特：我觉得最核心的是两个点。第一是 Token 消耗量，尤其是用户用 Agent 做任务时的消耗，这能证明我们的 Agent 能力，也能证明记忆加 Agent 能力给用户带来了真实价值。日常分析的消耗是偏固定的，做任务的消耗才是核心指标。

第二是 Proactive 接收率。我们的整条链路是：截图 → 分析 → 建模成 Event → 归纳成 Task → 推断 Next Step → 触发 Proactive → Agent 执行 → 推送给用户。如果用户愿意接收这个 Proactive，代表整条链路基本都是好的；如果不愿意，可能整条链路某个环节做错了。

我们最早的版本，Proactive 和截图、Task 没有完全打通，用了一些其他机制。后来把整条链路打通之后，对整体优化来说是更理想的情况。

Founder Park：你们会预期用户用 Agent 完成什么任务？

柏特：理论上 OpenClaw、Cowork 的用户能做什么，我们都能完成得更好，因为有更多的 Context。

我自己日常基本就只用我们这个产品了，之前还会用 Manus、Gemini、Cursor，现在基本都不用了，不管是调研、写产品文档、还是写代码提交，都在这里闭环。我现在所有融资的 PPT 都是让 AirJelly 做的，因为它知道我比较全量的信息，而且能力也比较强。

Founder Park：怎么让用户觉得可以把重要的事情放进来？会有一些引导吗？

柏特：对，而且这是所有企图做通用 Agent 的人必须面对的一个问题。你拿 OpenClaw 干什么，拿现在的 ChatGPT 干什么？其实未必一下子能完全说得出来，不同的人，有不同的用法。

一是，我们提供一个更全量的 Context 捕获和记忆；其次是，我们能提供一个很好的 Agent 执行。我们内置了一些模板，比如你可以让它分析你的工作情况，给你出一些下一步的计划，或者出日报。下一步，根据不同职业或行为习惯的人，探索出一些有意思的用法。

Founder Park：所以，你们会根据用户的一些行为，主动给他推一些可能跟场景相关的典型案例？

柏特：对。我们的一个设计原则是，AI 时代，不是一个设定死的 workflow。它能输出什么，拿到不同的 Context 能达到什么样程度，都是一个很难说的状态。

我们相信两个东西：第一是相信 AI，第二是相信用户。用户也许能发现更有意思的东西。包括我们自己也是用户，最早也没想着直接用它来给产品经理写代码，是用着用着后来发现可以的。很多东西未必是你预设好的，很多也是用户探索的，但前提是你要提供给他很棒的 Context 收集和很棒的 agent。

04只需要记录意图的关键点，就能补出中间的「轨迹线」

Founder Park：你们自己是怎么理解 Context 的？

柏特：过去做 Context 的人，一般把它分为画像和事件两类，通过聊天来收集。我们现在更关注的是捕捉用户的「意图」，由意图推导事件，再组织成任务。

过去的 Episodic Memory（事件记忆）就是「某人在某个时间做了什么事」，本质上是召回性的，知道某个时间点做了什么。但我们觉得一个事情最好能把它完整推下去、完整建模。

Founder Park：截图想记录的真正东西是什么？是用户的决策过程吗？

柏特：举个例子：你在某个场合，基于某些已知上下文说了一句话。把这句话和前一句联系在一起，AI 大概就能知道你在了解什么信息，进而推断出你的意图。两次 Enter 之间，基于截图的上下文，AI 能推断出中间大概发生了什么。再有就是人的意图表达，某种程度上也已经暗含了一些信息了。

我们把这些串起来组织成 Event，再基于 Event 推断 Task。这样不管是对用户回顾、还是做 Proactive 推送都更有价值。散乱的「我做了什么」价值不大，但建模成 Task 之后，用户方便回顾继续，AI 也方便做主动触发。

Founder Park：选择「Enter」的形式，是觉得它代表用户「确定要做某件事」的起点吗？

柏特：Enter 不完全是一个开始，也可以是一个阶段性的节点。你可以把人的行为理解为一条轨迹，全量收集这些轨迹不那么方便，但如果记录其中的关键点，通过点和点之间 AI 能大概把中间的线补出来。同时基于这些点，也能预测你的下一个点可能是什么，然后做 Proactive 触发。

我们最早是定时截图，后来想能不能加入关键帧，比如 Enter 或点击或 Ctrl+C/V。再后来发现 Enter 这一帧的价值最大，而且损失也没那么多，就换成了 Enter。

Founder Park：不同软件里的 Enter 行为差别很大，你们是怎么处理的？

柏特：我们除了屏幕权限之外还获取了 Accessibility 权限，能知道 Enter 那一刻光标在哪里、在哪个应用。微信输入框里的 Enter 和浏览器输入框的 Enter 是不一样的，Word 或 Notion 那种多行文本也能拿到背景信息。

所以按下 Enter 那一刻，我们会把「在什么应用里、输入框是什么类型、当前在做什么、相关上下文」一起输进去，不只是简单截个图做 OCR。

Founder Park：Cursor 记录的是 Tab 键行为，你们记录的是 Enter 键，有什么区别吗？

柏特：Cursor 的 Tab 我觉得很大程度上是一个早期传播和用户心智的事情。你看他现在其实也都是用右侧的 Agent 窗口，基本没人用那个 Tab 了。但它最早能想到「通过 Tab 这个动作来触发 AI」，说明这个洞察还挺好的。

我们也想打造类似的形象：人和 AI 的交互、搜索，都是通过 Enter。我们也想通过 Enter 这个动作，让用户直觉上把「输入意图」和「触发 AI 感知」关联在一起。

我们之后还会上一个功能叫「Next Enter Prediction」，就是基于你过去的行为轨迹，预测你下一次 Enter 要回什么、要提交什么。这个功能某种程度也是对 Enter 作为意图锚点的进一步延伸。

05Task 是比时间线更好的记忆组织方式

Founder Park：AirJelly 现在的记忆系统大概是怎么样的？怎么区分当下重要的和上周重要的东西？

柏特：数据库都是在本地的，记忆系统分两块：静态的信息建模成 Entity，比如某个人是谁、某个项目是什么，类似 Graph 的形式。动态的信息建模成 Task，了解这个事情的前因后果、做得怎样、之后可以怎么做。

召回时会综合向量检索和关键词检索并叠加一些 Agentic RAG 的机制，在记忆权重上我们会有一套时间衰减机制，比较远，召回少的记忆的时间权重低一点。

Founder Park：现在的记忆机制，和你们去年做 MineContext 时相比，有什么大的区别？

柏特：MineContext 是「平铺直叙」的——你的意图、行为、过程，所有东西都平铺着存，只用一个字段做区分。

AirJelly 是有进一步加工的：把你跟事件相关的东西，一步步加工成 Task，一个 Task 里包含了多条小的行为记录。我们有一个洞察：Context 也有高低之分。首先是「意图 Context」比较重要，其次是「Context 的组织程度」也有高低之分——就像 Coding Agent 把代码组织成目录结构，目录本身隐含的信息量非常大。

我们把截图和行为组织成 Task → Event 的层级，你先召回 Task，再看它下面有哪些 Event、意图和截图，然后做进一步的分析，这比全散着一股脑召回要好非常多。

Founder Park：这个「Task」里面包含什么？

柏特：大概包含：标题、核心摘要、创建时间、完成情况、Progress、Next Step、关键词（用了什么应用、大概什么内容），以及下方的 Event 列表，各个小阶段做了什么，怎么拼接成了当前的 Task 状态。这些全由 AI 来判断和写入。

同时，之后 Task 和用户自己创建的 Todo 也会是打通的：用户主动添加的 Todo，日常被自动识别的相关行为也会自动吸附上去。

Founder Park：为什么选择用数据库的形式，不是 Markdown 文件？

柏特：Markdown 是一种挺好的形式，但在我们这个场景下有点偷懒。OpenClaw、Rewind、Dayflow 很多产品最核心的是时间，某个时间做了什么事。但在 AI 时代，你做事情未必是连续的，你可能早上做一下，下午再做一下。按时间记录不完全合理，还是应该按任务记录。

再有就是 Token 消耗问题。Markdown 的方式，你想找某个东西可能得大量地读，修改也得把内容扔给 AI 分析再改，有大量隐性消耗。而我们用数据库，召回时筛选最相似的部分就行，不需要把所有内容都读一遍。

06下一步，想做「Next Enter Prediction」

Founder Park：怎么理解你说的「Next Enter Prediction」？

柏特：比如你在某个微信群回了一条消息，然后切去 ChatGPT 或 Gemini 讨论了一会儿，再切回这个微信群，这时候你大概要说什么？如果上下文足够，AI 是能推理出来的。

我们未来可能会实现这样的效果：基于你的 Session 切换和记录的上下文，等你下次切回某个聊天窗口时，直接推断「你可能想回复 XX」，提供几个选项，你通过一个简单的交互确认就发出去了，不需要自己打字了。

Founder Park：如果这个设想再进一步，能不能在你还没切回来页面的时候就直接替你做了？

柏特：对，其实我们现在的 Proactive 已经是在推断你的下一步可能是什么，然后帮你做了。但「直接帮你想好要回什么」这件事，它其实并不比直接帮你做更多，但给人的感受会更妙，让用户感知到了「AI 在这个时刻知道你要干什么，而且把内容都给你准备好了」。而且通过不断选择选项，也能越来越准确地建模用户的偏好。

Founder Park：你们现在是怎么判断，什么时候弹一个 Proactive 推送的？

柏特：我们现在的做法是：只要触发了新的 Task 或者 Task 有更新，就会有新的 Next Step 进入推送池。然后判断两个条件：推送的阈值够不够、最近是不是太频繁了。两个都满足，就弹出来了。

我们其实没有完全判断用户是不是在专注。这个设计来自我在字节的一个灵感，我们在字节不开会的时候大家做自己的事，你在专注工作，旁边的人突然说「黄柏特这个东西你帮我看一下」，或者「黄柏特这个我搞完了你看下」。这种打扰程度其实还好，但它是非常高效的协作方式。我们想实现类似的效果。

最终决定权还是在用户手里，你可以选择现在处理，或者先忙完手里的事再处理。

Founder Park：现在截屏的时候，桌面的水母会有一个小的喂食设计。

柏特：对，触发的时候水母喂一块饼干或者小龙虾这种形式，有一种通过 enter 养水母的感觉。这样既让用户有感知，又不会太突兀。

Founder Park：你预想的 Proactive 终极画面是什么样的？

柏特：我们能收集你的意图、最近的 Task 列表、在什么工具里完成的、一般通过什么方式完成的，这些我们都能收集到。加上强大的 Agent 能力，理论上可以 7×24 小时执行。

现在的任务是人设定的，所以执行偏单线程。但假如 Agent 能基于你的行为建模出你可能有 5 个任务要做，这 5 个任务你真的需要做但你不知道，同时帮你把这 5 个任务都执行了，那就是多线程的 Proactive 人机协作，效率会大幅提升。

Founder Park：帮人类发现可能漏掉的、值得去做的事，甚至 agent 直接把这个事帮你完成了。

柏特：对，比如说我今天有几件确定的事，跟 Founder Park 的专访、下午去聊融资、以及要准备发邀请码。这几件事各自还会有前置任务，比如准备怎么回答、准备一版 PPT。理论上这些确定性都比较强的事情，Agent 都可以并行跑起来。

过去的主动式 Agent 产品能在 15 分钟内推一件事就不错了，多了就是打扰。但如果足够准、跟你的任务足够相关，5 分钟推 5 件事也不是不可能。甚至不需要固定时间，判断出你在准备这个大纲的内容就直接帮你写了。执行可以做得更激进，但需要 Task 识别和 Proactive 接受度都得达到一个阈值。

07Aha Moment，是让用户第一次感受到「AI 真的懂我」

Founder Park：你们做用户调研的时候找了哪些人？核心用户画像是谁？

柏特：前期调研了 MineContext 的早期核心用户，找了产品经理、在读博士生和 Marketing 从业者。我们认为这几类人能提出更有价值的见解。

理论上对所有知识工作者都有价值，人都有记录的需求。但如果一定要有画像，最核心的三类是：

第一是超级个体（OPC），就是那种多线程、高度自驱的独立工作者；第二是 ADHD 人群，他们天然多线程、频繁切换，对记录和组织有强需求。我们其实最早第一版 BP 就预设了面向 ADHD 人群的场景；第三是初创公司团队，他们需要知道自己时间花在哪里，跟哪些内外部的人产生联系，高效记录并在之后使用。

我们自己团队的设计师、产品经理就是高强度用户。随着 AI 的发展，多线程工作的人也会越来越多。

Founder Park：你们希望在哪个环节让用户感觉到这个产品的 aha moment？

柏特：我自己有两个 aha moment。第一个是直接让 AirJelly 给自己写代码——因为它有很强的记忆能力，知道 AirJelly 本身的进展，能通过本地文件或群聊了解到信息，再加上比较强的 Coding 能力，可以直接自己分析、交流、写代码。

但这个可能不是面向通用用户的。对通用用户来说，产品初始状态是一个普通的对话界面。在你按了几次 Enter 记录了一些信息之后，它会有更多你的上下文，然后弹出一个 Proactive，我觉得这个应该是第一个能让用户感受到 aha 的时刻。

我们现在的 Onboarding 做法是让用户选择职业，选完之后右侧会展示这类职业常用的场景，以及基于这些场景可能出现的 Proactive 效果，让用户提前感知到。

我们在寻找两种 case：第一种是「很快」，用了几分钟、按了几次 Enter 之后，它能出一个跟你刚才在做的事相关的 Proactive，哪怕比较简单，也能让用户感知到「它在关注我」。第二种是「最 magical」，一定是只有 AirJelly 才能实现的场景。

Founder Park：你们的产品想给新用户呈现什么样的感觉？比如，他刚刚安装完之后，应该怎么用？

柏特：我们其实想给用户带来的感觉是，有了 AirJelly 之后，你不需要有任何额外的操作，你只是像往常一样与人交流，使用 AI，检索信息。你的全部意图都能被记录下来，你可以随时查看自己在什么时间做了什么，自己在推进哪些任务，偶尔还会有 AI 伙伴出来主动帮你完成任务。

此外产品会有一个「养水母」的概念，桌面上有一只水母，有点像皮卡丘或者超能 nono。水母记录了你的 enter 次数，以及它最近给你提的 Proactive，你可以选择执行或忽略，通过这种方式让水母和你的同步越来越准。

08最终目标是降低用户日常工作、认知的「熵增」

Founder Park：你们团队的名字有什么寓意吗？

柏特：我们团队的中文名叫「持续低熵」，英文叫 Low Entropy AI。熵在物理学里是热力学第二定律，衡量混乱和有序，是非常第一性的原理，某种程度比万有引力还要更本质。

名字有三层含义。

第一层是产品层面：我们希望产品能给用户带来有序，

第二层是生物学层面：薛定谔说过「生命以负熵为食」，保持低熵代表一种活力。我也希望团队能始终保持活力，哪怕以后变大了也不会得大公司病。我们的公司 Slogan 是「Context，Not Control」——多给上下文，少搞控制。这也借鉴了字节和亚马逊的管理哲学。

第三层是人工智能层面：交叉熵损失函数代表预测分布和真实分布之间的距离。我们希望通过人机协作，让人逐步更深刻地认识自己的行为和工作本质。

Founder Park：熵这个东西其实还蛮好玩的。之前 Elys 的创始人也说过，想用 AI 来减少人与人之间交互的熵增。我觉得你们有点异曲同工之妙。Elys 想解决的是人与人之间去除干扰和误解后的高效交流。

你们的低熵指的是人和人之间的，还是人和各种事物之间的？

柏特：我们认为第一层肯定是人和人之间的，第二层是人和 AI 之间的，以及未来可能会有 AI 与 AI 之间的。但我们现在最希望的是第一层：用我们这个产品能把日常工作的认知负载尽量结构化、尽量有序。

Elys 这个产品我们也测试过，他们公司叫「自然选择」，也提过用人机协作来降低熵——他们想解决的是人和人之间的，去除干扰和误解之后的高效交流。我们瞄准的是人在工作和认知上的有序状态，异曲同工。

「持续低熵」这个名字在投资圈里反应很好，当你把它扔给对方，他会觉得「这还挺妙的」。水母的意象我们也觉得很好，快人一步抢注了这两者我们还是非常兴奋的。

Founder Park：明白了，就是追求在各种关系里面都达到一个更稳定、更高效的状态。

柏特：对，我们公司的 slogan 也是。第一条是「Context，not control」，更多的上下文，更少的控制，这个既是产品理念，也是我们公司的哲学。还有一点是「Clarity，from chaos」，从混乱到秩序。

我们希望保持的其实不是一种僵死的有序，希望拥抱一定的混乱，然后从混乱中诞生出有序。这也是我们的一个追求，因为某种程度的混乱也能带来更多的可能性，但我们最终是要把它塑造成一种低熵、一种秩序。

Founder Park：AirJelly 的名字是怎么来的？

柏特：AirJelly 的名字来源于设计理念。

首先是我们希望产品能够连接各处的 Context，有一种无处不在有足够轻灵的感觉，就像空气一样，于是想着带上 Air；另外我们做屏幕截图和理解，这是一个比较激进的事情，需要在设计上做大量工作来降低用户的心理负担。我们最早想叫 Aether，以太是光的介质，感知能力很强。但后来觉得最好做一个动物形象——从 LLama 开始很多 AI 项目都用动物形象，在传播上和用户感知上也更好接受。找了大量动物形象之后，发现水母感知能力很强，同时又非常简单，叠加上「轻灵」的理念，就叫了 AirJelly。

用户调研时，我们拿了具体的水母形象设计给一些人看，大家的反应是「一看就非常可爱」，就用了目前这个版本。

Founder Park：水母的形象太可爱了，有些用户会不会把它当桌面小宠物，影响对工作助手的认知？

柏特：我们这代人都知道宝可梦和数码宝贝，那些形象也很可爱、随身携带，但能力非常强。OpenClaw 是龙虾形象，大家不会因为觉得它可爱就觉得它没能力。能力本身用户实际体验是不受影响的，但怎么让用户愿意丝滑地体验进来，第一步还是设计得温和可爱一些。

还有，OpenClaw 这一波传播挺有意思的，「养虾」都成了一个流行词了。我们也希望「养水母」能有类似的传播效果。

Founder Park：用户的隐私问题，现在你们是怎么解决的？

柏特：我们有 PII（个人识别信息）脱敏技术，能涂掉或替换敏感信息。实际处理的图片也不是原始图片，我们会判断哪些是重心部分，只截取重心区域。这套涂抹机制目前还在评估中。

我们确实也想试探下「水温」，用户到底能接受到什么程度？这个问题其实连我们自己也不确定。

我们也做好了被骂的准备。被骂有两种情况：一种是做得太烂，那没得救；另一种是做得比较激进、具有变革性，这种也会被骂，但我觉得这不完全是坏事。

理想情况是达到 OpenClaw 那种状态：有人 concern，有人骂，但整体上可控。在 AI 时代，大家对激进产品的接受度和尝鲜意愿都比以前高了很多，这是有利的环境。

09ScreenMemory，在 PC 端仍然是一片「空白地带」

Founder Park：你们怎么看 AirJelly 的竞品？

柏特：Rewind 和 Recall 现在基本都不做了。在 PC 端，其实是一个「空白地带」。

我觉得 Rewind 最有意思，他们刚出来的时候，VLM 还不行，用的都是 OCR。把数据沉淀下来之后，因为 Agent 能力不够强，加上用的是 OCR 图片，做不了太多事情，可能就是问问「什么时候做了什么」，价值非常有限。

在硬件方面，LOOKI 想做的故事跟我们有点像，All in Proactive。但我们和 LOOKI 不同的是，不做全量记录，更多是以意图为导向。

Founder Park：PC 端之前有很多尝试，但到今天好多都没做了。

柏特：ScreenPipe 还在做，但产品化能力不太行。Dayflow 也是类似的问题。

现在的节点有一个很大不同的是，Agent 能力足够强了，模型加框架都强了很多，记忆也做得更好，召回的东西的价值能被更大程度体现出来。所以这是一个比较好的节点，但还是需要有执行能力，不能只做记录和分析。

MineContext 当时也有一个简单的对话，但用的是其他家的大模型，也没用上 OpenClaw 的底层框架，召回推断做得都不行。我们现在模型强了、框架强了、记忆做得更好，体验会比以前好非常多。

Founder Park：你们担心大厂来做同样的事吗？

柏特：我在字节待过，对大厂的认知比较清楚。核心项目资源是够的，但流程很长；非核心项目，资源其实比创业公司少很多，MineContext 当时就是这种感觉。

再有一点是，大厂对隐私类产品决策很谨慎，未必敢第一个「吃螃蟹」。我们上了，他们可能才会跟上。

如果大厂下场，第一反应应该是：说明方向对了，我们估值要涨（笑）。其次，我们长期会是一个入口级的产品，大厂做了，大家也都会需要这样类似的机会。

最后还有一个点是，我们在大量存记忆，用户用得越久越舍不得离开，所以这是一个天然的护城河。

Founder Park：AirJelly 最终会是什么形态？

柏特：长期会是一个入口级的产品。接下来，我们会做团队版，每个人有自己的 AI Agent，两个 Agent 之间可以相互交流，判断有没有需要同步的信息。如果你想了解同事最近的工作进展，直接问你自己的 Agent 就行。我甚至觉得这是一种未来的团队协作形态。我们内部已经在试用了，我们会在充分打磨好权限管理后推出这个功能，如果你想提前体验有两个方法，加入我们，或者成为我们的投资人哈哈。

Founder Park：你觉得 AI 个人助手在未来两年，会发生什么变化？

柏特：从更长期的来看，未来每个人都要有自己的 Agent。

我觉得 Agent Network 是必然的一个方向。最近 Moltbook 被 Meta 收购了，Agent 之间可以互联互通的协议会逐渐成型。

Agent 之间通过开放协议连入某个公共平台进行交流和社交，可能是替你进行一些社交，或者代替你跟别人的 Agent 交换信息。这时候谁的 Agent 有最多、最有效的记忆，谁的个人助手就更不一样。协议是开放的，所以未必只能用某一个工具，记忆的积累才是最核心的壁垒。