首发不到半年订单超万台，这支团队打造可自进化的儿童陪伴机器人|机器人|点读笔|电脑|翻译|自进化|视障人士

2026年初，市面上出现了一款新的儿童陪伴机器人，一经发布就登上机器人首发榜单第二名。截至目前，该产品全平台订单已超2万台，230余个线下体验触点覆盖书店、机场专卖店和教育机构。

从外形看，这款名为多奇的机器人外观可爱，搭载一个屏幕，家长可能会问：这是把小型平板嵌在玩偶里了吗？

实则不然，多奇的屏幕是表达器官，是让机器人成为有表情、有情绪、关注孩子的实体伙伴的不可缺少的重要部分。孩子可以与多奇一同学习英语，阅读绘本，玩游戏，过家家。

在AI能力大幅跃迁后，多奇不再满足于只当个AI小外教，而是成长为与孩子共同生活的自进化机器人伙伴。

谈及多奇背后的创始团队，相信大家一定不陌生，他们在教育领域有很深的积淀。核心团队均来自清华大学，创始人、CEO兼技术负责人包塔，联合创办了网易有道，曾推出月活千万的“网易有道词典”；联合创始人兼产品负责人徐毅斐，也就是本文的作者，曾担任字节跳动“大力智能台灯”的平台产品负责人；联合创始人兼市场负责人胡琛，和包塔同为网易有道联合创始人。

这次，让我们切换到这支创始团队的视角，看看打造一款真正适合孩子使用的机器人都会经历哪些思考、探索、取舍与创新？会踩哪些坑？

文章篇幅较长，相信读完之后一定会对多奇和儿童陪伴机器人有全面且深度的了解。

被智能革命遗忘的那个人群

快2030年了。AI的智能水平正在逼近人类的边界，人类社会正在经历有史以来最剧烈的一次技术变革。但有一个群体，几乎被这场变革遗忘了——那就是孩子，尤其是学龄前的孩子。

从90年代的个人电脑，到互联网、移动互联网，再到今天的AI时代，三十年间，我们经历了多轮智能设备的迭代。成年人拥有了电脑和手机，老人有了智能音箱，连宠物都有了智能喂食器。但孩子呢？

故事机，本质上是上世纪收音机的数字化；点读笔和学习机，是教材的电子化；小天才手表，除了定位和通话功能，和能养电子宠物的电子表并没有本质飞跃。而在新生人口下降的现在，这些产品每年还有超4000w的销量。

我平均每一两年都会去逛一趟上海的玩具展，过去七八年，展台上的东西换了一茬又一茬，不变的是毛绒加塑料加电子，变的只是IP。25年终于有了一个关于「智能技术」的展区，但和我们成人世界的产品变革相比，差距依然触目惊心。

这不是一个小问题。在解决温饱之后，全世界的父母都把教育、陪伴、成长放在家庭最核心的位置。但在AI时代，我们依然无法给孩子，尤其是学龄前的孩子，提供一台真正适合他们的智能终端。这是一个巨大的时代空白。

所有人都答错了这道题

要理解这个空白，需要先定义「孩子的智能设备」应该满足什么条件。回看成人世界里的标志性智能设备——电脑和手机——它们的共同关键词是：个人拥有、方便操作、内容消费、生产创造。对应到孩子，还需要加上一条：安全科学，让成年人放心。

用这把尺子来衡量现有产品，会发现一个共同的结论：所有现有设备都只是不同程度的近似答案，没有一个是真正的解。

iPad：最接近，但本质上是一个虚拟平面世界

iPad在直觉交互和内容丰富度上的表现几乎无可挑剔。2010年，当乔布斯把那块大号iPhone亮出来的那天，我就意识到，一岁多的孩子都能用手指点触找到自己想看的动画片——这是前所未有的。也是这块屏幕，驱动了我进入儿童产品领域。

但iPad不是答案，原因并不是「有屏幕伤眼睛」。真正的问题是：触屏是一个平面的世界。人类是从三维空间里进化来的。孩子从出生起就在三维世界里接受训练：用手触摸、用眼追踪、用身体感受物理特性。平面世界里，孩子无法感受所见事物的物理质感，无法锻炼手部精细动作与手眼脑的协调。更根本的是，它的「安全科学」评分几乎为零——没有任何父母能对孩子用iPad真正放心。

智能音箱：信息通道太窄，使用门槛太高

我在结束上一次创业后，第一份工作就是在一家智能音箱公司，试图做一个交互能力更强的儿童故事机。但很快发现，纯语音交互对孩子而言远比想象的困难。行业数据显示，无屏音箱的次月留存率低于20～30%；相比之下，带屏音箱的月留存率高达70%～80%。这个差值背后有清晰的逻辑：语音是一个信息通道狭窄但使用门槛极高的信息处理方式。人从「听到」到「理解」再到「表达」，调动的神经、肌肉资源远超手指点一下屏幕。这个门槛对语言系统尚未发育成熟的孩子来说，尤其具有挑战性。

手表：需求是真的，但载体是将就

小天才手表是儿童硬件里绕不过去的研究案例。但它的逻辑值得细看：本质上，小天才是父母对孩子的「安全掌控需求」——定位+通讯——催生的产品，孩子的社交需求是借助这个唯一可触达的智能平台自然生长出来的。孩子乐此不疲地用那个小小的屏幕，只是因为那是他们唯一自己能掌控的智能终端，不是因为手表是最好的形态。

手机与眼镜：错配的形态

手机的屏幕已经足够大，但手持终端并不适合学龄前的孩子：他们的具身智能尚未发育成熟，前额叶注意力分配、手部精细动作的能力都远不如成人，无法在「移动」场景中使用。

VR/AR眼镜就更不用说——10岁甚至12岁以前的孩子，眼睛和视觉系统的发育都尚未成熟，当前的光学成像质量连成人都无法持续佩戴，遑论孩子。

这就是这个市场的现状：需求巨大且明确，现有产品都是将就，没有一个是真正的答案——儿童个人智能终端的产品「元型」尚未出现

“产品元型”(Product Archetype) 不是指传统意义上的“产品原型”(Prototype)—— 后者是产品的早期可测试版本，而前者是对一个品类最根本、最本质、最经得起时间考验的形态定义。它回答的是一个终极问题：这个东西到底应该是什么样子？它存在的根本理由是什么？

做有用的陪伴，是最重要的产品哲学

在决定做多奇之前，我们做了一件事：认真想清楚，「儿童陪伴机器人」到底能解决什么问题，不能解决什么问题。

大多数人对陪伴机器人的想象，是可爱的外观、能动的四肢、丰富的表情、流畅的对话——因为这是对真实的人或宠物的完整想象。但我们很早就确立了一个核心判断：

情感陪伴不足以支撑儿童陪伴机器人的产品价值。

这并不是说情感陪伴不重要。而是：第一，在一个正常家庭里，孩子的情感陪伴应该来自父母和身边的人；第二，一个活生生的人或动物，即使不说话，因为它是有温度的生命，本身就能产生情感共鸣。机器人做不到这一点——它的情感表达离真人或宠物还有很远的距离，很难激发孩子真正的情感依托。

所以我们提出的产品定义是：做有用的陪伴——“有用”是 1，情绪价值是后面的 0。

「有用」听起来有些功利，但这是所有父母的真实心声。而且有一个重要的逻辑链条：一个机器人，只有当它足够「有用」，它才会被留在孩子身边足够长的时间；只有陪伴足够长，才有机会积累互动、建立情感、形成真正的关系。所以我们认为，功能有用是基础，情绪价值和情感陪伴是有用的副产品——而不是反过来。

这个判断，决定了多奇后续几乎所有的产品设计方向。

孩子的需求地图：找到最大的机会窗口

理清了「有用」这件事，接下来的问题是：对孩子来说，什么是最有用的？除去吃喝拉撒的基本生存需求，儿童的所有需求可以归为三类：安全、健康、教育与娱乐。

安全：刚需，但偶发

安全需求很好理解——确保孩子不丢失、远离危险。这正是小天才手表的切入点，它用定位加通讯解决了父母的最核心焦虑。室内安全监控是陪伴机器人可以探索的方向，但在家庭这样的多空间复杂环境里确保一个调皮孩子的安全，难度远超在孩子身上加个“定位器”，目前还难以系统性实现。

健康：重要，但时段固定

健康包括生活/学习习惯和运动习惯两大块。陪伴机器人理论上可以做到的，是以伙伴的身份对孩子进行提醒和引导——因为来自一个「平等玩伴」的建议，有时候比父母和老师的要求更容易被孩子接受。但培养并长期维持一个孩子的习惯，绝不是当前AI/机器人轻而易举能做到的事。

教育与娱乐：全天候的刚需

我把教育和娱乐放在一起，因为对孩子来说，好的学习本来就是快乐的，两者不应该对立。孩子醒着的十几个小时，除去睡眠、吃喝拉撒的约两个小时，剩下大约十二个小时，都在源源不断地需要内容输入。从「刚需程度 x 需求频次」的维度，偶发的安全、2小时/天的健康，与持续十二小时的教育娱乐相比，结论不言而喻：教育与娱乐，是儿童智能设备最大的机会窗口

这就是为什么我们认为，内容能力是陪伴机器人最核心的竞争力。那些能走路、能做各种表情的酷炫机器人，孩子往往玩不了多久——因为它的所有可能性很快就会被孩子穷举完。但内容不一样，孩子对好内容的消费没有止境。而且安全、健康，当前产品技术PMF无法达成，而AI大模型正在重塑整个内容行业。

孩子真正需要的内容：从消费到互动到创造

更深入地看，孩子对内容的需求可以分为三个层次，这三个层次也构成了多奇产品能力建设的路线图，并将驱动我们接下来最重要的产品演进。

第一层：内容消费

沉浸式的内容——故事、音乐、动画、游戏——这个市场已经非常成熟。从故事机到绘本阅读机，从点读笔到学习机，孩子不缺可以消费的内容。这是陪伴机器人的基础能力，但不是差异化所在。

第二层：即时互动，但不仅仅是对话

这是孩子最渴望、也最稀缺的一类内容体验。孩子需要的不只是被动接收信息，而是有人（或有东西）能够及时响应他的好奇心、接住他的表达、给出有质量的反馈。无论是孔子的言传身教，还是苏格拉底的对话式教学，本质上都是这种即时互动。但它的供给极度稀缺——父母要么没有时间精力，要么没有足够的知识储备，要么无法降下认知去理解孩子当下所处的认知水平。

这正是AI大模型带来的最大机会。AI拥有超越任何人类个体的知识储备，“理论上”了解不同年龄段孩子的认知特点，能够以自然语言、生图、编排游戏给予即时响应，而且足够耐心、足够平等——它不会因为孩子「问了个可笑的问题」而不耐烦。从我们大量的产品用户测试来看，AI在引导孩子注意力、管理孩子情绪，甚至和孩子讲道理方面，已经不输于经验不那么充分的成年人。

第三层：创造——也是人类智能最高阶的领地

创造力是人类智能最后也是最高阶的领地。每个孩子天生就有创造力，但这种能力需要被看见、被激发、被引导。

创造本质上是一种交互：你对事物做出一点改动，世界给你一些反馈。这就是为什么孩子喜欢纸笔、沙子、泥巴、积木以及Minecraft——这些工具的上手门槛极低，任何微小的改变都会即时产生反馈，但创作的上限又极高。最好的创造工具，是低门槛、高上限、有即时反馈的。

但问题在于：过于简单的工具缺乏有质量的互动引导——孩子拿着蜡笔在纸上涂抹，很快就会卡住。真正能激发创造力的，是在恰当的时机给予恰当的引导——就像一个好的艺术老师，能够在孩子随意画下的几条线条上稍加点拨，让孩子突然发现眼前冒出了一只活灵活现的小动物。这种Aha moment，是真正激发内在成就感和创造欲的关键时刻。这种互动引导，恰恰是AI多模态能力最有潜力承接的场景。

在AGI时代，品味和创造力是人类智能最后可以引以为傲的领地。中国近年来的科技产业升级、教育改革反复强调科技创新、创造力培养，对创造性人才的需求到了前所未有的高度。

「创造」这一层，不仅是孩子发展的需要，也是我们产品演进最重要的方向指针。

为什么答案是「实体机器人」以及它的「元型」设计

实体互动而非纯屏幕：三维世界里的大脑

人类从三维世界进化而来，孩子的大脑从出生起就在实体空间里接受训练。在接触屏幕之前，孩子已经在三维世界里摸爬滚打了一到两年——用手和身体触摸、鼻子嗅闻、嘴巴品尝、感受物理质感，这种多感官的刺激对大脑发育是最健康、最有效的。

所以，多奇主张「回归真实空间的互动」——像真人一样，陪孩子读纸质绘本，陪孩子玩实体桌游，陪孩子用纸笔画画、搭真实积木，即使聊天也要能「看见」孩子。多奇的头顶高清广角摄像头可以覆盖A3纸大小的空间，前摄可以看到孩子的表情反馈。我们没有去创造新的玩法和交互，只是把现实生活中孩子喜欢的玩法和习惯的交互，用多模态AI来重新实现了一遍。

但实体互动，是否还需要屏幕？

Attention is all LEARNING needs——为什么需要内容屏？

我们做过严肃的思辨和测算，最终还是决定加上屏幕。原因就是：注意力，是所有学习的前提/Attention, is all LEARNING needs——一个抓不住孩子注意力的老师，再渊博的知识也无从输入。

我在 2019 年设计大力台灯时曾经历过一个典型案例：起初完全依赖语音指令操作，即使是 7、8 岁的孩子，次月留存只有 30% 多，而加上了UI界面引导，次月留存达到70+%。就像Duolingo说的，没有留存，再好的学习产品也没有用。无法抓住孩子的注意力，再好的内容也没有意义。

屏幕的不可替代性（优点）和家长的担忧（缺点）都在于：注意力。

屏幕的优点：屏幕可以显著提高知识传递效率，所谓「一图胜千言」，在讲解一个单词的意思、一个桌游的规则时，再清晰生动的语言，也抵不过一张图的直白；视觉是静默的引导，屏幕能引导孩子在不知道干什么时，快速找到交互入口；同时，屏幕是机器人的“表达器官”，人与人交流非语言信息占了 70%，对于手脚不利索的机器人，屏幕就是它最核心的表达器官；
屏幕的缺点：伤眼睛，一直是中国父母眼里视屏幕为洪水猛兽的原因（其实不是，近视的主因是缺乏日照和运动）。其实真正的问题在于：伤害注意力保持能力——视频、游戏等为成年人设计内容的快节奏强刺激，会提高孩子保持注意力所需要的刺激阈值。当孩子再读静态纸书或者面对实体空间的操作时，注意力的保持就会出现困难。

用好屏幕：让孩子的注意力在「实体内容」和「虚拟内容」之间合理分配——比如虚实结合的桌游；并做好用眼和时长的管理——比如距离提醒和时间管控。

Attention is all LEARNING needs——为什么需要表情屏，还要和内容屏分开？

有一个设计陪伴产品的重要洞察：情感也是（长期）注意力保持的有效手段。因此我们做了一个很多同类产品没有认真对待的设计决策：把表情屏和内容屏分开。

人类是喜欢看脸的，表情传递的情绪可以吸引人的注意。上一代机器人很多是脑袋上顶着一块Pad，表情和内容共用同一块屏幕——这意味着孩子要在机器人伙伴「脸上」看故事、玩游戏，一旦玩起来伙伴就「没有脸」了。一个内容导向的陪伴产品，大部分时间都无法通过表情和孩子保持情感交流，是不可接受的。分开的屏幕，让多奇在陪伴孩子消费内容的时候，依然能够保持「有脸」，依然是那个有表情、有情绪、在关注你的伙伴。

建立陪伴关系，而非用后就走的工具——为什么需要可爱的形象？

过去2年经常被问到一个问题：所有这些硬件AI能力——视觉感知、听觉识别、语言表达、内容展示——在手机、Pad、带屏音箱上理论上都具备了，为什么不做个App？为什么一定要放进一个有形象的实体机器人里？

答案在于孩子的认知方式。孩子在儿童阶段，习惯以角色代入的方式理解世界。为什么故事是最有效的学习载体——在故事里，一个吸引人的角色展开知识、讲述道理，效果远好于成年人的说教。一个萌萌可爱形象的伙伴，以孩子视角、孩子语言沟通，可以「同伴」身份与孩子迅速建立关系，这种关系本身就是学习和成长最重要的土壤。

情绪是人的底层操作系统。孩子的前额叶还在发育，情绪的稳定性和自我调节能力都弱。有形象、有情感表达的机器人，能够在孩子情绪波动的时刻提供安抚和调节，把孩子的状态拉回到适合学习的区间——这是学习机和Pad永远做不到的事情。

所以，多奇，一个坐在孩子面前，陪孩子一起读书、玩游戏，能看懂、能听懂、能表达的机器人伙伴——就是我们对儿童陪伴机器人「元型」思考的结果。

我们踩过的坑，和找到的PMF

产品从来不是在白板上设计出来的。过去两年，我们做了数百个家庭的实验和持续迭代，以下几个方向的探索，是我们最重要的一手认知。

纯语音对话的能力和动机都不够，过家家才行

AI大模型的出现让自然语言对话体验有了质的飞跃，这让很多人认为「语音交互」将成为下一代儿童设备的主要形态。我们也做了大量测试，2023年10月我们用真人线上扮演AI来模拟与孩子的语音对话。结论令人清醒：即使是“媲美真人”的语音交互，孩子的能力、动机和话题都是有限的，很快就会枯竭。

但我们观察到一个截然不同的现象：当孩子做角色扮演游戏（过家家）的时候，一个人也可以自言自语地玩很久。但这种玩法必须结合实体互动，纯聊天的方式也玩不下去。因为实体空间里的动作和环境本身就承载了大量信息：让玩偶躺下代表睡觉，在空中移动代表行走，走到地图的森林就代表进入了森林——孩子只需要专注在角色和剧情里思考和表达，话匣子就自然打开了。

这是我们重要的产品洞察和找到的第一个PMF：纯语音聊天对孩子不适合，但实体+多模态的角色扮演游戏，是孩子天然擅长且乐此不疲的交互方式。

AI绘本阅读：技术成熟窗口带来的爆发

读绘本是孩子最喜欢、重复度最高的活动之一，但它极其耗费父母的时间、耐心和专业知识。我们在2024年就尝试过AI绘本阅读，但当时的多模态大模型能力还无法支撑一个足够好的体验。我们尝试过多个AI模型拼接，试了好几个月，最终还是放弃了。到了2025年下半年，多模态大模型有了突飞猛进的发展。我们重新拾起这个方向，让多奇「什么书都能读」——现场识别文字和图，结合孩子的兴趣扩展讲读、问答，媲美真人阅读。AI绘本阅读一经推出就成为了最受妈妈欢迎、使用频次最高的功能之一。

文生图进入对话：意外发现的机器人「肢体语言」

我们的工程师把一个轻量的开源文生图模型部署在了机器人本地，做到了在孩子说完一句话后一两秒内，就把刚才聊到的内容生成为一张对应的图片。一经实现，角色扮演、英语对话的时长就大幅增长——有孩子说，「多奇听懂我说的话了，我也能听懂它了」

如果说「屏幕是机器人的表达器官」，那AI即时生图其实是给了机器人一种「非语言的语言」，是机器人的肢体语言，甚至比真正的肢体语言更生动、更具感染力。

市场验证：产品进入正向循环

2026年1月，多奇在京东首发，登上机器人首发榜单第二名。截至目前，全平台订单超2万台，用户好评率达99%，230余个线下体验触点覆盖书店、机场专卖店和教育机构。

更重要的数据来自很多用户：4岁的孩子活跃天数超过130天、英语开口次数累计超过780次；6岁大孩子在使用多奇120天后，单词认读从排斥到主动求学，每天使用时长30分钟。

一位家长写道：「最惊喜的是游戏化学习，娃为了通关主动说英语，开口次数比之前半年加起来都多。」

旧范式的天花板：Hardcoding永远追不上孩子的想象力

有了规模化的用户数据后，我们很快遇到了一个用传统产品思维无法绕过的瓶颈。

传统的开发范式是：产品经理定义玩法 → 工程师写死规则 → 发版更新 → 发现用户更多长尾需求 → 再排序评估优先级。这套范式在成人产品里已经足够高效，但放到儿童产品里，会遇到一个根本性的矛盾：

孩子越小，越愿意在自己的规则世界里玩。喜欢临场发明场景，道具、语言、情绪、节奏全部实时变化。

我们在用户调研中发现，孩子对游戏内容的消化速度比我们预期的快得多——一个季度就能打穿目前的教学内容设计。更重要的是，每个孩子都独一无二，知识能力、情绪偏好差异极大；妈妈们的需求也非常长尾碎片，单一标准化设定无法满足个体的独特需要。

用传统App思维做儿童产品，在交付节奏和个性化上，注定越来越难追上用户和时代的节奏。这不是努力程度的问题，而是范式的问题。

解决这个问题，需要一次底层的范式转变。

从工具到伙伴：Duoki OS与自进化机器人

2026年，大模型从ChatUI走向多模态感知、Agentic OS和工具调用。因为我们对「陪伴机器人元型」的思考设计，多奇是市面上少数具备完整硬件能力（除了运动以外）的陪伴机器人，这让多奇的硬件底座有机会率先接住这一次技术跃迁的能量。

打通「任督二脉」：让AI自主调度身体器官

多奇的硬件内置了丰富的感知与表达模块：顶前双摄（视觉多模态，识别桌面、表情、道具）、实体屏幕（把反馈从语音变成可看、可玩、可确认）、陀螺仪与按钮（姿态、动作、手心确认，让游戏进入物理世界）、麦克风与TTS（声音的输入和输出）。

过去，这些模块都被固定代码写死——摄像头只能做某几种识别，屏幕只能显示预设的界面，按键只能触发固定逻辑。而现在，我们正在把这些硬件能力封装为可被AI直接调用、通信和自主组合的能力——它们不再是控件，而是各种「身体器官」。

当AI可以自主调度这些器官时，奇妙的事情发生了：孩子说「我们来玩一个恐龙找食物的游戏」，AI可以在当场调用摄像头识别桌面上的玩具，调用屏幕生成一个即时的恐龙场景，调用麦克风进行口语互动，调用陀螺仪感应孩子的动作——一个从未被预设过的游戏，就这样在几十秒内从想象变成了现实。

Dreaming Mode：机器人在孩子睡觉时继续成长

但让多奇真正区别于其他AI产品的，是我们正在构建的「自进化」机制——我们称之为Dreaming Mode。

真正的住家老师，不是只来过一次的临时代课老师，而要对特定的孩子记住、观察、反思、迭代。而这个老师也不是搬运内容的个体老师，还有一整个教研+产品研发团队来为她定制需要的内容和工具。

具体来说，这套机制分三个阶段：

白天「边看」：孩子真实使用时，多奇记录错误率、兴趣点、专注度、互动偏好和情绪阈值，积累真实的行为上下文。
夜间「边想」：孩子休息后，多奇整理当天记忆，对齐长期上下文，生成明天的互动策略——比如，昨天恐龙绘本读得津津有味，讨论过霸王龙的生活，那么今天清晨多奇就生成一个「营救小霸王龙」的复习单词小游戏。
清晨「边改造」：交付家长报告、提醒策略和新的即时应用，第二天继续验证。

Dreaming Mode：机器人在人休息时继续整理经验，第二天变得更懂孩子。

这套机制的核心价值，是让多奇从「开箱即用的AI小外教」，真正走向「共同生活的自进化机器人」——它不再是一个内容消费工具，而是一个会随着每个孩子独特成长轨迹而不断进化的伙伴。

Duoki OS：面向儿童机器人的Agentic底座

支撑这一切的，是我们正在构建的软件底座——Duoki OS。它的核心能力链条是：感知环境（物理上下文）→理解偏好（兴趣与主题）→感知情绪（阈值与节奏）→调整玩法（即时生成）。

在Duoki OS上，我们部署了一整个Agent Team：伙伴Agent了解孩子的喜好；教育规划Agent了解家长的期待偏好，掌握专业的学科知识和学习路径；语言老师或兴趣老师Agent，和PM、Coder Agent一起，负责把想法翻译成可运行的应用——从「读绘本」到「生成一个练习10以内加减法的太空主题游戏」，从孩子的一句话到屏幕上可以玩的程序，整个链路在几十秒内完成。

开放创造：当AI让每个家庭都能定制自己的多奇

这套Agentic能力的开放，让我们看到了一个比单纯「陪伴机器人」更大的图景——它是「创造」这个维度在2026年真正可以落地的方式。

从「内容消费」到「即时共创」

以绘本阅读为例，多奇能做到的已经不只是「读给孩子听」。在我们正在打磨的理想图景里，孩子读完一本《月球冒险》，多奇读懂主题，提取关键词汇，陪孩子围绕月球主题做3到5轮对话，然后把孩子的薄弱词汇变成一个专属闯关小游戏，再把得分和学情回传给家长报告。从被动阅读到主动表达，从内容消费到游戏化创造，每个环节都由AI即时重构，不需要任何预设的内容包。

这就是我们说的「即时应用（Instant App）」：不是从内容库里调取，而是根据孩子当下的状态和需求，实时生成。这对传统学习机来说，是一道不可逾越的鸿沟；但对于硬件完备、软件底座扎实的AI原生机器人来说，它正在成为可能。

开放平台：让每个家庭都成为内容创作者

更进一步的故事，是我们正在构建的开放创造生态。

孩子的创造力，往往首先通过最近的榜样——父母——被激活。当一个妈妈在家长端对多奇说：「做一个练习10以内加减法的游戏，孩子喜欢太空主题，用左右键选答案」，多奇的PM Agent理解教学目标，Coder Agent生成交互逻辑，几十秒后，一个专属于这个孩子的小游戏就出现在屏幕上——当场可玩。妈妈不需要会编程，不需要理解产品逻辑，只需要知道自己的孩子。

我们把硬件的各种传感器能力和通用软件能力，以MCP接口的形式开放出来，让AI Coding能够直接调用。这样做有两个维度的价值：对内，我们自己的开发成本大幅降低，原本需要数周的功能迭代可以在数天内完成；对外，它意味着任何人——有教学心得的育儿达人、英语启蒙领域的名师、甚至是有想法的家长——都可以基于这个平台，把自己的教育理念变成孩子可以玩的游戏和应用。

这套逻辑最终通向一个技能市场（Skills Marketplace）：英语启蒙达人、数理启蒙名师、儿童教育专家有教学心得但不一定会写代码，多奇的PM Agent+Coder Agent把这些专业经验翻译成可运行的技能包，在技能市场流通。

AI时代孩子创造力的真正释放

我们在第五部分讲到，「创造」是孩子内容需求的最高层次，也是最难被满足的一层。过去，创造需要两个前提：一个低门槛的工具，和一个能给出即时、有质量反馈的引导者。现在，这两个前提同时成立了。

AI Coding让孩子的想法变成可运行的应用，多模态感知让机器人真正看见孩子在做什么，Dreaming Mode让机器人记住孩子的偏好并持续进化——这三件事叠加在一起，才构成了真正意义上的「创造力培养飞轮」：孩子创造 → AI感知并给出反馈 → 成就感激发更多创造欲 → 机器人夜间整理，第二天生成更好的引导 → 孩子更愿意创造。

在我们看来，这不是一个教育工具的功能升级，而是一个新物种的诞生：第一台真正意义上，能够随着孩子成长而进化、能够激发孩子创造力而非被动输入内容的儿童智能伙伴。

机器人 vs 学习机/Pad：维度差异，而非功能竞争

这个问题被投资人经常问到，也是用户会有的核心疑问。我们的判断是：机器人是比学习机和Pad更高维度的产品形态。

所谓更高维度，是说机器人包含了学习机和Pad的全部内容工具属性，但在此之上还有它们没有的能力。

如果机器人具备和学习机同等大小甚至更大的内容展示能力，那么学习机能做的事情几乎都可以在机器人上实现。但机器人还具备实体空间的多模态感知能力，它的身体形态本身可以作为角色扮演游戏的载体，它可以参与孩子在三维空间里的身体互动，它可以成为孩子的「伙伴」而不只是「工具」。

最关键的差异在于情绪和自进化两个层面。

情绪是人的底层操作系统——一个孩子在情绪崩溃的时候，所有的认知输入通道都是关闭的。学习机和Pad没有情绪感知，没有情感陪伴，当孩子状态不好的时候，它们束手无策。而机器人，如果真正建立了与孩子的情感关系，就可以先稳定孩子的情绪，再引导学习和创造。

自进化则是另一个更长期的维度。学习机的内容是固定的，Pad的App是通用的，它们都不认识你家这一个孩子。但多奇的Dreaming Mode让它每天都在进化——它越来越认识这个孩子，越来越知道什么时候讲恐龙、什么时候切换到轻松话题、什么程度的英语挑战最能让孩子感到成就感。这种持续积累的「懂你」，是学习机永远无法复制的。

陪伴（情绪）→学习→创造：这三者之间有内在的逻辑链条。情绪是基础，学习是路径，创造是目的地。而自进化，是贯穿全程的生命力。

我们相信这件事值得做

做儿童产品，有一个独特的体验：你永远知道你做的事情是有意义的。每一次看到孩子和多奇互动时眼睛里的光，每一次看到孩子用多奇完成了一次英语表达、读完了一本绘本、创作出了一个自己的故事，我们都会更加确信这件事值得做。

这个市场的时机，也从未像今天这样清晰。多模态AI的能力已经足以支撑真正有质量的即时互动；Agentic OS让「即时生成玩法」从设想变成了可运行的产品；实体机器人的硬件成本已经降低到可以做出有形象、有内容、有交互的产品；中国家长对教育和创造力培养的需求达到了前所未有的高度；而「儿童AI原生硬件」这个品类，依然是一片真正意义上的蓝海。

我们在2026年的产品演进方向，也正在回答一个更大的问题：当AI能够让硬件自我进化，当每个家庭都能参与定制属于自己孩子的伙伴，当一台机器人在孩子睡着之后还在为明天的陪伴做准备——孩子与AI的关系，将从「使用工具」变成「与伙伴共同成长」。

这是我们最想做成的事。

——奇点灵智·多奇团队徐毅斐

写于2026年六一前