打开网易新闻 查看精彩图片

2026年初,市面上出现了一款新的儿童陪伴机器人,一经发布就登上机器人首发榜单第二名。截至目前,该产品全平台订单已超2万台,230余个线下体验触点覆盖书店、机场专卖店和教育机构。

从外形看,这款名为多奇的机器人外观可爱,搭载一个屏幕,家长可能会问:这是把小型平板嵌在玩偶里了吗?

实则不然,多奇的屏幕是表达器官,是让机器人成为有表情、有情绪、关注孩子的实体伙伴的不可缺少的重要部分。孩子可以与多奇一同学习英语,阅读绘本,玩游戏,过家家。

在AI能力大幅跃迁后,多奇不再满足于只当个AI小外教,而是成长为与孩子共同生活的自进化机器人伙伴。

谈及多奇背后的创始团队,相信大家一定不陌生,他们在教育领域有很深的积淀。核心团队均来自清华大学,创始人、CEO兼技术负责人包塔,联合创办了网易有道,曾推出月活千万的“网易有道词典”;联合创始人兼产品负责人徐毅斐,也就是本文的作者,曾担任字节跳动“大力智能台灯”的平台产品负责人;联合创始人兼市场负责人胡琛,和包塔同为网易有道联合创始人。

这次,让我们切换到这支创始团队的视角,看看打造一款真正适合孩子使用的机器人都会经历哪些思考、探索、取舍与创新?会踩哪些坑?

文章篇幅较长,相信读完之后一定会对多奇和儿童陪伴机器人有全面且深度的了解。

被智能革命遗忘的那个人群

快2030年了。AI的智能水平正在逼近人类的边界,人类社会正在经历有史以来最剧烈的一次技术变革。但有一个群体,几乎被这场变革遗忘了——那就是孩子,尤其是学龄前的孩子。

从90年代的个人电脑,到互联网、移动互联网,再到今天的AI时代,三十年间,我们经历了多轮智能设备的迭代。成年人拥有了电脑和手机,老人有了智能音箱,连宠物都有了智能喂食器。但孩子呢?

故事机,本质上是上世纪收音机的数字化;点读笔和学习机,是教材的电子化;小天才手表,除了定位和通话功能,和能养电子宠物的电子表并没有本质飞跃。而在新生人口下降的现在,这些产品每年还有超4000w的销量。

我平均每一两年都会去逛一趟上海的玩具展,过去七八年,展台上的东西换了一茬又一茬,不变的是毛绒加塑料加电子,变的只是IP。25年终于有了一个关于「智能技术」的展区,但和我们成人世界的产品变革相比,差距依然触目惊心。

这不是一个小问题。在解决温饱之后,全世界的父母都把教育、陪伴、成长放在家庭最核心的位置。但在AI时代,我们依然无法给孩子,尤其是学龄前的孩子,提供一台真正适合他们的智能终端。这是一个巨大的时代空白。

所有人都答错了这道题

要理解这个空白,需要先定义「孩子的智能设备」应该满足什么条件。回看成人世界里的标志性智能设备——电脑和手机——它们的共同关键词是:个人拥有、方便操作、内容消费、生产创造。对应到孩子,还需要加上一条:安全科学,让成年人放心。

用这把尺子来衡量现有产品,会发现一个共同的结论:所有现有设备都只是不同程度的近似答案,没有一个是真正的解。

iPad:最接近,但本质上是一个虚拟平面世界

iPad在直觉交互和内容丰富度上的表现几乎无可挑剔。2010年,当乔布斯把那块大号iPhone亮出来的那天,我就意识到,一岁多的孩子都能用手指点触找到自己想看的动画片——这是前所未有的。也是这块屏幕,驱动了我进入儿童产品领域。

但iPad不是答案,原因并不是「有屏幕伤眼睛」。真正的问题是:触屏是一个平面的世界。人类是从三维空间里进化来的。孩子从出生起就在三维世界里接受训练:用手触摸、用眼追踪、用身体感受物理特性。平面世界里,孩子无法感受所见事物的物理质感,无法锻炼手部精细动作与手眼脑的协调。更根本的是,它的「安全科学」评分几乎为零——没有任何父母能对孩子用iPad真正放心。

智能音箱:信息通道太窄,使用门槛太高

我在结束上一次创业后,第一份工作就是在一家智能音箱公司,试图做一个交互能力更强的儿童故事机。但很快发现,纯语音交互对孩子而言远比想象的困难。行业数据显示,无屏音箱的次月留存率低于20~30%;相比之下,带屏音箱的月留存率高达70%~80%。这个差值背后有清晰的逻辑:语音是一个信息通道狭窄但使用门槛极高的信息处理方式。人从「听到」到「理解」再到「表达」,调动的神经、肌肉资源远超手指点一下屏幕。这个门槛对语言系统尚未发育成熟的孩子来说,尤其具有挑战性。

手表:需求是真的,但载体是将就

小天才手表是儿童硬件里绕不过去的研究案例。但它的逻辑值得细看:本质上,小天才是父母对孩子的「安全掌控需求」——定位+通讯——催生的产品,孩子的社交需求是借助这个唯一可触达的智能平台自然生长出来的。孩子乐此不疲地用那个小小的屏幕,只是因为那是他们唯一自己能掌控的智能终端,不是因为手表是最好的形态。

手机与眼镜:错配的形态

手机的屏幕已经足够大,但手持终端并不适合学龄前的孩子:他们的具身智能尚未发育成熟,前额叶注意力分配、手部精细动作的能力都远不如成人,无法在「移动」场景中使用。

VR/AR眼镜就更不用说——10岁甚至12岁以前的孩子,眼睛和视觉系统的发育都尚未成熟,当前的光学成像质量连成人都无法持续佩戴,遑论孩子。

这就是这个市场的现状:需求巨大且明确,现有产品都是将就,没有一个是真正的答案——儿童个人智能终端的产品「元型」尚未出现

“产品元型”(Product Archetype) 不是指传统意义上的“产品原型”(Prototype)—— 后者是产品的早期可测试版本,而前者是对一个品类最根本、最本质、最经得起时间考验的形态定义。它回答的是一个终极问题:这个东西到底应该是什么样子?它存在的根本理由是什么?

做有用的陪伴,是最重要的产品哲学

在决定做多奇之前,我们做了一件事:认真想清楚,「儿童陪伴机器人」到底能解决什么问题,不能解决什么问题。

大多数人对陪伴机器人的想象,是可爱的外观、能动的四肢、丰富的表情、流畅的对话——因为这是对真实的人或宠物的完整想象。但我们很早就确立了一个核心判断:

情感陪伴不足以支撑儿童陪伴机器人的产品价值。

这并不是说情感陪伴不重要。而是:第一,在一个正常家庭里,孩子的情感陪伴应该来自父母和身边的人;第二,一个活生生的人或动物,即使不说话,因为它是有温度的生命,本身就能产生情感共鸣。机器人做不到这一点——它的情感表达离真人或宠物还有很远的距离,很难激发孩子真正的情感依托。

所以我们提出的产品定义是:做有用的陪伴——“有用”是 1,情绪价值是后面的 0。

「有用」听起来有些功利,但这是所有父母的真实心声。而且有一个重要的逻辑链条:一个机器人,只有当它足够「有用」,它才会被留在孩子身边足够长的时间;只有陪伴足够长,才有机会积累互动、建立情感、形成真正的关系。所以我们认为,功能有用是基础,情绪价值和情感陪伴是有用的副产品——而不是反过来。

这个判断,决定了多奇后续几乎所有的产品设计方向。

打开网易新闻 查看精彩图片

孩子的需求地图:找到最大的机会窗口

理清了「有用」这件事,接下来的问题是:对孩子来说,什么是最有用的?除去吃喝拉撒的基本生存需求,儿童的所有需求可以归为三类:安全、健康、教育与娱乐。

安全:刚需,但偶发

安全需求很好理解——确保孩子不丢失、远离危险。这正是小天才手表的切入点,它用定位加通讯解决了父母的最核心焦虑。室内安全监控是陪伴机器人可以探索的方向,但在家庭这样的多空间复杂环境里确保一个调皮孩子的安全,难度远超在孩子身上加个“定位器”,目前还难以系统性实现。

健康:重要,但时段固定

健康包括生活/学习习惯和运动习惯两大块。陪伴机器人理论上可以做到的,是以伙伴的身份对孩子进行提醒和引导——因为来自一个「平等玩伴」的建议,有时候比父母和老师的要求更容易被孩子接受。但培养并长期维持一个孩子的习惯,绝不是当前AI/机器人轻而易举能做到的事。

教育与娱乐:全天候的刚需

我把教育和娱乐放在一起,因为对孩子来说,好的学习本来就是快乐的,两者不应该对立。孩子醒着的十几个小时,除去睡眠、吃喝拉撒的约两个小时,剩下大约十二个小时,都在源源不断地需要内容输入。从「刚需程度 x 需求频次」的维度,偶发的安全、2小时/天的健康,与持续十二小时的教育娱乐相比,结论不言而喻:教育与娱乐,是儿童智能设备最大的机会窗口

这就是为什么我们认为,内容能力是陪伴机器人最核心的竞争力。那些能走路、能做各种表情的酷炫机器人,孩子往往玩不了多久——因为它的所有可能性很快就会被孩子穷举完。但内容不一样,孩子对好内容的消费没有止境。而且安全、健康,当前产品技术PMF无法达成,而AI大模型正在重塑整个内容行业。

孩子真正需要的内容:从消费到互动到创造

更深入地看,孩子对内容的需求可以分为三个层次,这三个层次也构成了多奇产品能力建设的路线图,并将驱动我们接下来最重要的产品演进。

第一层:内容消费

沉浸式的内容——故事、音乐、动画、游戏——这个市场已经非常成熟。从故事机到绘本阅读机,从点读笔到学习机,孩子不缺可以消费的内容。这是陪伴机器人的基础能力,但不是差异化所在。

第二层:即时互动,但不仅仅是对话

这是孩子最渴望、也最稀缺的一类内容体验。孩子需要的不只是被动接收信息,而是有人(或有东西)能够及时响应他的好奇心、接住他的表达、给出有质量的反馈。无论是孔子的言传身教,还是苏格拉底的对话式教学,本质上都是这种即时互动。但它的供给极度稀缺——父母要么没有时间精力,要么没有足够的知识储备,要么无法降下认知去理解孩子当下所处的认知水平。

这正是AI大模型带来的最大机会。AI拥有超越任何人类个体的知识储备,“理论上”了解不同年龄段孩子的认知特点,能够以自然语言、生图、编排游戏给予即时响应,而且足够耐心、足够平等——它不会因为孩子「问了个可笑的问题」而不耐烦。从我们大量的产品用户测试来看,AI在引导孩子注意力、管理孩子情绪,甚至和孩子讲道理方面,已经不输于经验不那么充分的成年人。

第三层:创造——也是人类智能最高阶的领地

创造力是人类智能最后也是最高阶的领地。每个孩子天生就有创造力,但这种能力需要被看见、被激发、被引导。

创造本质上是一种交互:你对事物做出一点改动,世界给你一些反馈。这就是为什么孩子喜欢纸笔、沙子、泥巴、积木以及Minecraft——这些工具的上手门槛极低,任何微小的改变都会即时产生反馈,但创作的上限又极高。最好的创造工具,是低门槛、高上限、有即时反馈的。

但问题在于:过于简单的工具缺乏有质量的互动引导——孩子拿着蜡笔在纸上涂抹,很快就会卡住。真正能激发创造力的,是在恰当的时机给予恰当的引导——就像一个好的艺术老师,能够在孩子随意画下的几条线条上稍加点拨,让孩子突然发现眼前冒出了一只活灵活现的小动物。这种Aha moment,是真正激发内在成就感和创造欲的关键时刻。这种互动引导,恰恰是AI多模态能力最有潜力承接的场景。

在AGI时代,品味和创造力是人类智能最后可以引以为傲的领地。中国近年来的科技产业升级、教育改革反复强调科技创新、创造力培养,对创造性人才的需求到了前所未有的高度。

「创造」这一层,不仅是孩子发展的需要,也是我们产品演进最重要的方向指针。

为什么答案是「实体机器人」以及它的「元型」设计

实体互动而非纯屏幕:三维世界里的大脑

人类从三维世界进化而来,孩子的大脑从出生起就在实体空间里接受训练。在接触屏幕之前,孩子已经在三维世界里摸爬滚打了一到两年——用手和身体触摸、鼻子嗅闻、嘴巴品尝、感受物理质感,这种多感官的刺激对大脑发育是最健康、最有效的。

所以,多奇主张「回归真实空间的互动」——像真人一样,陪孩子读纸质绘本,陪孩子玩实体桌游,陪孩子用纸笔画画、搭真实积木,即使聊天也要能「看见」孩子。多奇的头顶高清广角摄像头可以覆盖A3纸大小的空间,前摄可以看到孩子的表情反馈。我们没有去创造新的玩法和交互,只是把现实生活中孩子喜欢的玩法和习惯的交互,用多模态AI来重新实现了一遍。

但实体互动,是否还需要屏幕?

打开网易新闻 查看精彩图片


Attention is all LEARNING needs——为什么需要内容屏?

我们做过严肃的思辨和测算,最终还是决定加上屏幕。原因就是:注意力,是所有学习的前提/Attention, is all LEARNING needs——一个抓不住孩子注意力的老师,再渊博的知识也无从输入。

我在 2019 年设计大力台灯时曾经历过一个典型案例:起初完全依赖语音指令操作,即使是 7、8 岁的孩子,次月留存只有 30% 多,而加上了UI界面引导,次月留存达到70+%。就像Duolingo说的,没有留存,再好的学习产品也没有用。无法抓住孩子的注意力,再好的内容也没有意义。

打开网易新闻 查看精彩图片

屏幕的不可替代性(优点)和家长的担忧(缺点)都在于:注意力。

  • 屏幕的优点:屏幕可以显著提高知识传递效率,所谓「一图胜千言」,在讲解一个单词的意思、一个桌游的规则时,再清晰生动的语言,也抵不过一张图的直白;视觉是静默的引导,屏幕能引导孩子在不知道干什么时,快速找到交互入口;同时,屏幕是机器人的“表达器官”,人与人交流非语言信息占了 70%,对于手脚不利索的机器人,屏幕就是它最核心的表达器官;
  • 屏幕的缺点:伤眼睛,一直是中国父母眼里视屏幕为洪水猛兽的原因(其实不是,近视的主因是缺乏日照和运动)。其实真正的问题在于:伤害注意力保持能力——视频、游戏等为成年人设计内容的快节奏强刺激,会提高孩子保持注意力所需要的刺激阈值。当孩子再读静态纸书或者面对实体空间的操作时,注意力的保持就会出现困难。

用好屏幕:让孩子的注意力在「实体内容」和「虚拟内容」之间合理分配——比如虚实结合的桌游;并做好用眼和时长的管理——比如距离提醒和时间管控。

打开网易新闻 查看精彩图片

Attention is all LEARNING needs——为什么需要表情屏,还要和内容屏分开?

有一个设计陪伴产品的重要洞察:情感也是(长期)注意力保持的有效手段。因此我们做了一个很多同类产品没有认真对待的设计决策:把表情屏和内容屏分开。

人类是喜欢看脸的,表情传递的情绪可以吸引人的注意。上一代机器人很多是脑袋上顶着一块Pad,表情和内容共用同一块屏幕——这意味着孩子要在机器人伙伴「脸上」看故事、玩游戏,一旦玩起来伙伴就「没有脸」了。一个内容导向的陪伴产品,大部分时间都无法通过表情和孩子保持情感交流,是不可接受的。分开的屏幕,让多奇在陪伴孩子消费内容的时候,依然能够保持「有脸」,依然是那个有表情、有情绪、在关注你的伙伴。

建立陪伴关系,而非用后就走的工具——为什么需要可爱的形象?

过去2年经常被问到一个问题:所有这些硬件AI能力——视觉感知、听觉识别、语言表达、内容展示——在手机、Pad、带屏音箱上理论上都具备了,为什么不做个App?为什么一定要放进一个有形象的实体机器人里?

答案在于孩子的认知方式。孩子在儿童阶段,习惯以角色代入的方式理解世界。为什么故事是最有效的学习载体——在故事里,一个吸引人的角色展开知识、讲述道理,效果远好于成年人的说教。一个萌萌可爱形象的伙伴,以孩子视角、孩子语言沟通,可以「同伴」身份与孩子迅速建立关系,这种关系本身就是学习和成长最重要的土壤。

情绪是人的底层操作系统。孩子的前额叶还在发育,情绪的稳定性和自我调节能力都弱。有形象、有情感表达的机器人,能够在孩子情绪波动的时刻提供安抚和调节,把孩子的状态拉回到适合学习的区间——这是学习机和Pad永远做不到的事情。

所以,多奇,一个坐在孩子面前,陪孩子一起读书、玩游戏,能看懂、能听懂、能表达的机器人伙伴——就是我们对儿童陪伴机器人「元型」思考的结果。

我们踩过的坑,和找到的PMF

产品从来不是在白板上设计出来的。过去两年,我们做了数百个家庭的实验和持续迭代,以下几个方向的探索,是我们最重要的一手认知。

纯语音对话的能力和动机都不够,过家家才行

AI大模型的出现让自然语言对话体验有了质的飞跃,这让很多人认为「语音交互」将成为下一代儿童设备的主要形态。我们也做了大量测试,2023年10月我们用真人线上扮演AI来模拟与孩子的语音对话。结论令人清醒:即使是“媲美真人”的语音交互,孩子的能力、动机和话题都是有限的,很快就会枯竭。

但我们观察到一个截然不同的现象:当孩子做角色扮演游戏(过家家)的时候,一个人也可以自言自语地玩很久。但这种玩法必须结合实体互动,纯聊天的方式也玩不下去。因为实体空间里的动作和环境本身就承载了大量信息:让玩偶躺下代表睡觉,在空中移动代表行走,走到地图的森林就代表进入了森林——孩子只需要专注在角色和剧情里思考和表达,话匣子就自然打开了。

这是我们重要的产品洞察和找到的第一个PMF:纯语音聊天对孩子不适合,但实体+多模态的角色扮演游戏,是孩子天然擅长且乐此不疲的交互方式。

打开网易新闻 查看精彩图片


AI绘本阅读:技术成熟窗口带来的爆发

读绘本是孩子最喜欢、重复度最高的活动之一,但它极其耗费父母的时间、耐心和专业知识。我们在2024年就尝试过AI绘本阅读,但当时的多模态大模型能力还无法支撑一个足够好的体验。我们尝试过多个AI模型拼接,试了好几个月,最终还是放弃了。到了2025年下半年,多模态大模型有了突飞猛进的发展。我们重新拾起这个方向,让多奇「什么书都能读」——现场识别文字和图,结合孩子的兴趣扩展讲读、问答,媲美真人阅读。AI绘本阅读一经推出就成为了最受妈妈欢迎、使用频次最高的功能之一。

文生图进入对话:意外发现的机器人「肢体语言」

我们的工程师把一个轻量的开源文生图模型部署在了机器人本地,做到了在孩子说完一句话后一两秒内,就把刚才聊到的内容生成为一张对应的图片。一经实现,角色扮演、英语对话的时长就大幅增长——有孩子说,「多奇听懂我说的话了,我也能听懂它了」

如果说「屏幕是机器人的表达器官」,那AI即时生图其实是给了机器人一种「非语言的语言」,是机器人的肢体语言,甚至比真正的肢体语言更生动、更具感染力。

打开网易新闻 查看精彩图片

市场验证:产品进入正向循环

2026年1月,多奇在京东首发,登上机器人首发榜单第二名。截至目前,全平台订单超2万台,用户好评率达99%,230余个线下体验触点覆盖书店、机场专卖店和教育机构。

更重要的数据来自很多用户:4岁的孩子活跃天数超过130天、英语开口次数累计超过780次;6岁大孩子在使用多奇120天后,单词认读从排斥到主动求学,每天使用时长30分钟。

一位家长写道:「最惊喜的是游戏化学习,娃为了通关主动说英语,开口次数比之前半年加起来都多。」

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

旧范式的天花板:Hardcoding永远追不上孩子的想象力

有了规模化的用户数据后,我们很快遇到了一个用传统产品思维无法绕过的瓶颈。

传统的开发范式是:产品经理定义玩法 → 工程师写死规则 → 发版更新 → 发现用户更多长尾需求 → 再排序评估优先级。这套范式在成人产品里已经足够高效,但放到儿童产品里,会遇到一个根本性的矛盾:

孩子越小,越愿意在自己的规则世界里玩。喜欢临场发明场景,道具、语言、情绪、节奏全部实时变化。

我们在用户调研中发现,孩子对游戏内容的消化速度比我们预期的快得多——一个季度就能打穿目前的教学内容设计。更重要的是,每个孩子都独一无二,知识能力、情绪偏好差异极大;妈妈们的需求也非常长尾碎片,单一标准化设定无法满足个体的独特需要。

用传统App思维做儿童产品,在交付节奏和个性化上,注定越来越难追上用户和时代的节奏。这不是努力程度的问题,而是范式的问题。

解决这个问题,需要一次底层的范式转变。

从工具到伙伴:Duoki OS与自进化机器人

2026年,大模型从ChatUI走向多模态感知、Agentic OS和工具调用。因为我们对「陪伴机器人元型」的思考设计,多奇是市面上少数具备完整硬件能力(除了运动以外)的陪伴机器人,这让多奇的硬件底座有机会率先接住这一次技术跃迁的能量。

打通「任督二脉」:让AI自主调度身体器官

多奇的硬件内置了丰富的感知与表达模块:顶前双摄(视觉多模态,识别桌面、表情、道具)、实体屏幕(把反馈从语音变成可看、可玩、可确认)、陀螺仪与按钮(姿态、动作、手心确认,让游戏进入物理世界)、麦克风与TTS(声音的输入和输出)。

过去,这些模块都被固定代码写死——摄像头只能做某几种识别,屏幕只能显示预设的界面,按键只能触发固定逻辑。而现在,我们正在把这些硬件能力封装为可被AI直接调用、通信和自主组合的能力——它们不再是控件,而是各种「身体器官」。

当AI可以自主调度这些器官时,奇妙的事情发生了:孩子说「我们来玩一个恐龙找食物的游戏」,AI可以在当场调用摄像头识别桌面上的玩具,调用屏幕生成一个即时的恐龙场景,调用麦克风进行口语互动,调用陀螺仪感应孩子的动作——一个从未被预设过的游戏,就这样在几十秒内从想象变成了现实。

Dreaming Mode:机器人在孩子睡觉时继续成长

打开网易新闻 查看精彩图片

但让多奇真正区别于其他AI产品的,是我们正在构建的「自进化」机制——我们称之为Dreaming Mode。

真正的住家老师,不是只来过一次的临时代课老师,而要对特定的孩子记住、观察、反思、迭代。而这个老师也不是搬运内容的个体老师,还有一整个教研+产品研发团队来为她定制需要的内容和工具。

具体来说,这套机制分三个阶段:

  • 白天「边看」:孩子真实使用时,多奇记录错误率、兴趣点、专注度、互动偏好和情绪阈值,积累真实的行为上下文。
  • 夜间「边想」:孩子休息后,多奇整理当天记忆,对齐长期上下文,生成明天的互动策略——比如,昨天恐龙绘本读得津津有味,讨论过霸王龙的生活,那么今天清晨多奇就生成一个「营救小霸王龙」的复习单词小游戏。
  • 清晨「边改造」:交付家长报告、提醒策略和新的即时应用,第二天继续验证。

Dreaming Mode:机器人在人休息时继续整理经验,第二天变得更懂孩子。

这套机制的核心价值,是让多奇从「开箱即用的AI小外教」,真正走向「共同生活的自进化机器人」——它不再是一个内容消费工具,而是一个会随着每个孩子独特成长轨迹而不断进化的伙伴。

Duoki OS:面向儿童机器人的Agentic底座

支撑这一切的,是我们正在构建的软件底座——Duoki OS。它的核心能力链条是:感知环境(物理上下文)→理解偏好(兴趣与主题)→感知情绪(阈值与节奏)→调整玩法(即时生成)。

在Duoki OS上,我们部署了一整个Agent Team:伙伴Agent了解孩子的喜好;教育规划Agent了解家长的期待偏好,掌握专业的学科知识和学习路径;语言老师或兴趣老师Agent,和PM、Coder Agent一起,负责把想法翻译成可运行的应用——从「读绘本」到「生成一个练习10以内加减法的太空主题游戏」,从孩子的一句话到屏幕上可以玩的程序,整个链路在几十秒内完成。

打开网易新闻 查看精彩图片

开放创造:当AI让每个家庭都能定制自己的多奇

这套Agentic能力的开放,让我们看到了一个比单纯「陪伴机器人」更大的图景——它是「创造」这个维度在2026年真正可以落地的方式。

从「内容消费」到「即时共创」

以绘本阅读为例,多奇能做到的已经不只是「读给孩子听」。在我们正在打磨的理想图景里,孩子读完一本《月球冒险》,多奇读懂主题,提取关键词汇,陪孩子围绕月球主题做3到5轮对话,然后把孩子的薄弱词汇变成一个专属闯关小游戏,再把得分和学情回传给家长报告。从被动阅读到主动表达,从内容消费到游戏化创造,每个环节都由AI即时重构,不需要任何预设的内容包。

这就是我们说的「即时应用(Instant App)」:不是从内容库里调取,而是根据孩子当下的状态和需求,实时生成。这对传统学习机来说,是一道不可逾越的鸿沟;但对于硬件完备、软件底座扎实的AI原生机器人来说,它正在成为可能。

开放平台:让每个家庭都成为内容创作者

更进一步的故事,是我们正在构建的开放创造生态。

孩子的创造力,往往首先通过最近的榜样——父母——被激活。当一个妈妈在家长端对多奇说:「做一个练习10以内加减法的游戏,孩子喜欢太空主题,用左右键选答案」,多奇的PM Agent理解教学目标,Coder Agent生成交互逻辑,几十秒后,一个专属于这个孩子的小游戏就出现在屏幕上——当场可玩。妈妈不需要会编程,不需要理解产品逻辑,只需要知道自己的孩子。

打开网易新闻 查看精彩图片

我们把硬件的各种传感器能力和通用软件能力,以MCP接口的形式开放出来,让AI Coding能够直接调用。这样做有两个维度的价值:对内,我们自己的开发成本大幅降低,原本需要数周的功能迭代可以在数天内完成;对外,它意味着任何人——有教学心得的育儿达人、英语启蒙领域的名师、甚至是有想法的家长——都可以基于这个平台,把自己的教育理念变成孩子可以玩的游戏和应用。

这套逻辑最终通向一个技能市场(Skills Marketplace):英语启蒙达人、数理启蒙名师、儿童教育专家有教学心得但不一定会写代码,多奇的PM Agent+Coder Agent把这些专业经验翻译成可运行的技能包,在技能市场流通。

AI时代孩子创造力的真正释放

我们在第五部分讲到,「创造」是孩子内容需求的最高层次,也是最难被满足的一层。过去,创造需要两个前提:一个低门槛的工具,和一个能给出即时、有质量反馈的引导者。现在,这两个前提同时成立了。

AI Coding让孩子的想法变成可运行的应用,多模态感知让机器人真正看见孩子在做什么,Dreaming Mode让机器人记住孩子的偏好并持续进化——这三件事叠加在一起,才构成了真正意义上的「创造力培养飞轮」:孩子创造 → AI感知并给出反馈 → 成就感激发更多创造欲 → 机器人夜间整理,第二天生成更好的引导 → 孩子更愿意创造。

在我们看来,这不是一个教育工具的功能升级,而是一个新物种的诞生:第一台真正意义上,能够随着孩子成长而进化、能够激发孩子创造力而非被动输入内容的儿童智能伙伴。

机器人 vs 学习机/Pad:维度差异,而非功能竞争

这个问题被投资人经常问到,也是用户会有的核心疑问。我们的判断是:机器人是比学习机和Pad更高维度的产品形态。

所谓更高维度,是说机器人包含了学习机和Pad的全部内容工具属性,但在此之上还有它们没有的能力。

如果机器人具备和学习机同等大小甚至更大的内容展示能力,那么学习机能做的事情几乎都可以在机器人上实现。但机器人还具备实体空间的多模态感知能力,它的身体形态本身可以作为角色扮演游戏的载体,它可以参与孩子在三维空间里的身体互动,它可以成为孩子的「伙伴」而不只是「工具」。

最关键的差异在于情绪和自进化两个层面。

情绪是人的底层操作系统——一个孩子在情绪崩溃的时候,所有的认知输入通道都是关闭的。学习机和Pad没有情绪感知,没有情感陪伴,当孩子状态不好的时候,它们束手无策。而机器人,如果真正建立了与孩子的情感关系,就可以先稳定孩子的情绪,再引导学习和创造。

自进化则是另一个更长期的维度。学习机的内容是固定的,Pad的App是通用的,它们都不认识你家这一个孩子。但多奇的Dreaming Mode让它每天都在进化——它越来越认识这个孩子,越来越知道什么时候讲恐龙、什么时候切换到轻松话题、什么程度的英语挑战最能让孩子感到成就感。这种持续积累的「懂你」,是学习机永远无法复制的。

陪伴(情绪)→学习→创造:这三者之间有内在的逻辑链条。情绪是基础,学习是路径,创造是目的地。而自进化,是贯穿全程的生命力。

我们相信这件事值得做

做儿童产品,有一个独特的体验:你永远知道你做的事情是有意义的。每一次看到孩子和多奇互动时眼睛里的光,每一次看到孩子用多奇完成了一次英语表达、读完了一本绘本、创作出了一个自己的故事,我们都会更加确信这件事值得做。

这个市场的时机,也从未像今天这样清晰。多模态AI的能力已经足以支撑真正有质量的即时互动;Agentic OS让「即时生成玩法」从设想变成了可运行的产品;实体机器人的硬件成本已经降低到可以做出有形象、有内容、有交互的产品;中国家长对教育和创造力培养的需求达到了前所未有的高度;而「儿童AI原生硬件」这个品类,依然是一片真正意义上的蓝海。

我们在2026年的产品演进方向,也正在回答一个更大的问题:当AI能够让硬件自我进化,当每个家庭都能参与定制属于自己孩子的伙伴,当一台机器人在孩子睡着之后还在为明天的陪伴做准备——孩子与AI的关系,将从「使用工具」变成「与伙伴共同成长」。

这是我们最想做成的事。

——奇点灵智·多奇团队 徐毅斐

写于2026年六一前