Alpha世代的教育新逻辑：先有AI大脑，身体会慢慢长出来|动作|教育|新论文|智能体|科学|算法|长出来|黄勇

作者 /左希

责编 /清和

题图 / 由AI生成

2021年，教育行业融资规模一度超过200亿元。那一年，钱在找项目。到2025年，全年融资不足20亿，项目开始找钱。这不是简单的周期回落。一些团队还在，但鲜少出现在新的讨论里。

“二茶”是芥末堆的一则小栏目。一则指二窨茶，在相对密闭的环境里慢慢发酵，香气不急着出来；另一层意思，是两个人对坐闲聊，把行业里的二手故事慢慢讲出来，甘苦自知。

同一时间，AI以一种不容讨论的方式进入教育行业。区别只在于，有人把它当工具，有人把它当起点。问题也因此变得直接：是在原有路径上修修补补，还是借这一把机会，把“教育”重新做一遍？这两条路，短期看都成立。但再往前，分叉会越来越明显。

2025年7月，黄勇创立KidoAI。半年时间，团队完成两轮融资，顺为资本、启赋资本、微光创投共同加注。在一个几乎没有新增资金的行业里，这样的进展并不常见。这件事本身已经构成某种信号。

它至少说明，一些判断正在被提前押注。我们更关心的，不只是一个团队做对了什么，而是：这一轮变化，正在把行业推向哪里

1、这不是升级，是换代

左希：今年一个明显的变化是，太多机构开始主动谈AI，但落到具体产品上，大多还是在原有体系里加一层能力。你会觉得，这一轮更像是“增强”，还是要“重做一遍”？

黄勇：我更倾向后者。AI不是简单的工具升级，它会带来一轮范式变化。如果只是增强，解决的是效率问题，但现在更像是在替换底层逻辑。教育+AI的市场大家都在讲，但关键，不在市场，而在用户。你是不是在为一代完全不同的孩子做产品。

左希：你说的是“Alpha世代”，也就是从出生就在智能设备和算法环境里的一代人？

黄勇：对。这一代孩子从出生开始，就生活在智能设备和算法环境里。他们接触信息的方式、提问的方式、甚至理解世界的路径，都已经发生变化。过去我们是先接触知识，再理解世界；他们更像是先在交互中感知，再反过来形成认知。如果还在用原来的路径去设计产品，很容易出现一个问题：产品是对的，但对不上人。

左希：如果用技术阶段来划分，是不是可以理解为，从“模式识别时代”，进入了“生成式AI时代”？

黄勇：可以这么理解。以前的产品，比如扫描笔、学习机，本质上是识别和匹配，AI帮你把已有内容更快地调出来。但现在有一个变化：智能体本身就是内容。它不只回答问题，而是参与整个交互过程。你问什么、怎么问、问到哪一步，都会影响生成的内容。

左希：这其实不只是技术变化，更像是把“内容”本身重写了一遍。

黄勇：对，而且是连同学习方式一起改变。以前我们更关注“给孩子什么答案”，现在更重要的是，他是怎么一步一步问出这个问题的。这个过程一旦被打开，很多原本成立的产品逻辑，会慢慢失效

2、不是谁都能接住AI

左希：如果按你刚才说的，这一轮变化不只是技术升级，而是路径重做，那对很多已经在场内的教育机构来说，其实不是一个轻松的消息。

黄勇：是的。因为这意味着，过去积累的很多东西，不一定能直接延续。尤其是内容。很多团队过去做内容做得很好，也形成了自己的体系，但在这一轮里，反而容易被限制。

左希：限制在哪？

黄勇：在出发点。他们习惯从“我有什么内容”出发，再去想产品怎么做。但AI时代，更需要从“交互怎么发生”出发，再去反过来重构内容。这两个顺序一旦不一样，最后出来的东西差别会很大。有时候，一个团队最熟悉的地方，就是它最难跨过去的地方

左希：那是不是可以理解为，这一轮最有机会的团队，可能不完全来自传统教育行业？

黄勇：可以这么说。如果只把AI当成一个外部能力接进来，比如找技术团队合作，或者在原有产品上叠加一些功能，短期内可能有提升，但很难走远。真正有机会的团队，需要的是一套完整的能力结构：懂内容、懂AI，还要能把它变成一个可落地的产品形态，而不是三件事各自独立。

左希：也就是说，过去那种“内容团队+技术外包+硬件代工”的组合，已经很难成立？

黄勇：基本行不通。你要从一开始就知道：内容怎么被结构化、智能体怎么被训练，它最后为什么要以某种形态存在。这些是连在一起的。

左希：听起来，门槛在提高。

黄勇：是系统性的门槛在变高。所以你会看到一个现象：不是所有教育公司都在做AI，也不是所有AI公司都能做好教育。真正能把这几件事同时做通的团队，其实很少。

3、教育第一次被“做大”

左希：现在资本其实很谨慎，尤其是教育领域。很多产品的市场规模，是可以测算出来的。比如做学科、做升学、做素养，边界都很清楚。在你看来，这一轮AI，会改变这个问题吗？

黄勇：会。过去教育产品的规模，基本取决于三个维度：面向哪个年级、哪个学科、哪个地区。这些边界一旦确定，市场空间大致就能算出来。AI进来之后，有一个变化是，产品不一定要从“知识点”出发

左希：那它从什么出发？

黄勇：从能力。比如孩子怎么理解世界，怎么提出问题，怎么把看到的东西转化成自己的认知。这些能力本身，不依赖某一个具体的学科，也不完全依赖某一种内容体系。一旦从这里出发，产品的边界就会被拉开。

左希：也就是说，它不再是“某一类教育产品”，而像是一种更底层的工具？

黄勇：全球大概有18亿儿童。如果一个产品必须依附某一套课程、某一种语言、某一个考试体系，它很难走出原有市场。但如果它本身是一种更通用的交互方式，是在帮助孩子去认识世界，它在不同地区之间的差异会小很多。

左希：但现实是，不同地区的教育内容差异还是很大。

黄勇：对，所以关键在于两件事要分开：交互方式是通用的，内容是可以在地化的。如果把这两件事混在一起做，出海会很难。但如果底层能力是统一的，再去接当地的内容体系，适配成本会低很多。

4、产品是被逼出来的

左希：如果按这个逻辑往下走，“从能力出发，而不是从内容出发”，那最后做出来的产品形态，并不是一开始就能确定的。你们是怎么一步一步走到现在这个形态的？

黄勇：一开始也不是很确定。我们做了很长时间的前期测试，找了大概300个家庭一起共创。比较巧的是，这里面有不少家长本身就是小学科学老师。他们给我们的反馈，其实挺一致：学校里科学教育是有体系的，但在家庭端，缺一个可以持续参与的角色。

左希：什么样的角色？

黄勇：不是讲知识的老师，更像一个可以陪着孩子一起观察、一起提问的“助教”。科学这件事，如果只靠课堂，很难形成连续性。如果交给家长，大多数家庭也挺难长期坚持。所以我们把场景收缩到一件更具体的事情上：孩子在日常生活里，看到一个东西，会不会停下来问一句“为什么”

左希：也就是说，你们没有从“教什么”开始，而是从“孩子会在什么时候发问”开始？

黄勇：对。我们后来发现，在这个年龄段的孩子身上，有两个动作会反复出现：一个是拍，一个是问。很多时候，这和他们所处的环境有关。看到一个东西，先拍一下；拍完之后，很自然就会问一句。

左希：听起来很简单。

黄勇：看起来简单，但很容易消失。如果这个动作不能被持续放大，它很快就会变回一次性的好奇。我们在做的，是把这两个动作尽可能延长。让一次“拍+问”，变成一段更长的互动。比如拍一片叶子，一开始可能只是问“这是什么”；交互继续往下走，他可能会问叶脉结构、颜色变化，甚至问到季节。不同年龄段的孩子，问题的层次也不一样：小一点的停在表面，再大一点，就会往结构和原理走。这个过程，本身就是学习。

左希：从这个逻辑看，产品形态是被“动作”反推出来的。

黄勇：可以这么说。如果你希望这个动作发生在真实世界里，而不是停留在屏幕上，它就不太适合做成一个纯App。最后，它落在了“相机”这个形态上，“聪明口袋”就是在这个逻辑下长出来的。

左希：为什么是相机，而不是其它？

黄勇：因为相机是一个天然面向世界的设备。它不会把注意力锁在屏幕里，而是把人带到外面。屏幕只用来完成必要的交互。我们在设计时尽量把它做简单：屏幕小巧，能随手放进口袋，单手就能操作，几个按键就够了，不需要反复点屏。

左希：让它更像一个工具，而不是一个终端。

黄勇：对。我们不太希望孩子一直看屏幕。更重要的是，他能不能去摸、去看、去观察真实的东西。有家长提出，孩子晚上出去玩的时候，也会想用这个设备去探索。我们后来加了微光拍摄，让它在夜间也能用。这些演进，是从实际使用场景里一点一点长出来的。

左希：在这个过程中，你们怎么处理内容？因为如果只是“拍+问”，最后还是要回到知识本身。

黄勇：我们一开始就没有把内容当成一个独立模块。而是去找那些已经被验证过的内容，比如经典的科普读物，把它们做结构化处理，再去适配交互。你可以理解为，不是把一本书放进设备里，而是把书“拆开”，变成可以在现实世界里被不断触发的内容。

5、硬件不是容器，是躯体

左希：从你刚才的描述看，这一代产品的出发点，不是硬件本身，而是交互。那硬件的角色，是不是在变化？

黄勇：是的，而且变化很大。以前做教育硬件，大多先有设备，再往里面填内容。硬件像一个容器，内容是核心。现在不一样了。智能体在不断成长，它需要一个能承载交互的“身体”。这个身体，不是随便选一个形态就可以的，而是要和交互方式匹配。

左希：所以更像是先有一个智能体，再去找适合它的形态？

黄勇：对。如果这样去看，硬件就不再是独立环节，而是智能体的一部分。它要能看、能听、能感知，也能及时反馈。也因此，市面上的AI原生硬件，远没有达到“卷”的程度。如果把内容、硬件、AI各部分简单拼在一起，最后出来的产品，大概率还是停留在“展示”阶段。功能看起来很多，但交互是断开的。

左希：“AI原生硬件不卷”，很多人可能会有疑问。外部看，这个赛道已经热起来了。

黄勇：要看你说的“卷”指的是什么。按过去的逻辑：先做硬件，再加内容，再接AI能力，确实很卷。但从一开始就把智能体、内容和硬件当成一个整体做，这种产品其实不多。

左希：所以，相机是一个阶段性的形态？

黄勇：可以这么理解。现在的相机，更像第一代“身体”。它能完成基本视觉交互，但主动性还不够。比如，它需要孩子主动拿出来使用，本质上还是被触发。

左希：那下一步呢？

黄勇：可能会是更主动的形态。不一定还是相机，也可能是一只陪孩子行动的“机器小狗”。早上起来，它会主动去找孩子，而不是等孩子来找它。

左希：有点像一只会行动的“学习伙伴”。

黄勇：对。随着智能体能力的提升，它会不断“要求”一个更适配的身体。我们先做一个大脑，最终会长出身体来

6、AI到底在教什么

左希：如果把前面所说的往回收一点，还是会落到一个很基础的问题：AI进入教育之后，到底是在改变“内容”，还是在改变“学习方式”？

黄勇：我觉得更核心的是后者。内容一直在变，但这一轮的变化，不在内容本身，而在它是如何被使用的。以前是先有答案，再去理解；现在更像是在互动中，逐渐逼近答案

左希：那这个过程中，什么是最关键的能力？

黄勇：提问。在AI时代，孩子最重要的能力，不是记住多少知识，而是能不能问出更好的问题。

左希：但现在很多AI产品，给人的感觉是“回答得很快、很完整”，甚至有点过于直接。

黄勇：这也是我们比较警惕的一点。如果每次提问，都给出一个完整答案，甚至附带解释、视频，那本质上还是在展示内容。孩子不需要再往下想了。我们更希望把一次交互控制在一个比较短的范围内，10秒左右。前面是回答，留一两秒去反问。比如他问一个问题，我们给一个基础解释，然后抛回去一个相关的问题，引导他继续往下想。这样一来，交互不会停在第一层。

左希：有点像把“答案”变成一个过程，而不是一个终点。你前面提到“内容要被重构”，有没有一个比较具体的例子？

黄勇：可以拿词典来举例。纸质词典，是一个固定解释；电子词典，是把这个解释数字化；再到词典笔，本质上是提高了查找效率。但到了生成式AI阶段，这种形式就不太够了。现在的词典，不管三年级还是九年级，扫出来的解释是一样的。但不同年龄的孩子，对同一个词的理解能力是不一样的。如果用AI来做，它可以根据孩子的年龄、理解水平，去调整解释的难度，生成不同的例句。如果还不理解，还可以继续对话。

左希：也就是说，内容不再是“被调用”，而是“被重新生成”。

黄勇：对。而且这种生成，不是无依据的，而是基于一套经过验证的内容体系去做调教。否则就会出现一个问题：看起来很聪明，但不一定可靠。

左希：所以你们一开始就选择和《十万个为什么》这类经典出版物合作，把它作为底层的内容来源。

黄勇：对。一方面，这些内容本身经过长期验证，有边界感；另一方面，在这个基础上做结构化和扩展，更容易控制质量。我们不是在替代这些内容，而是换一种方式把它们用起来。有点像让《十万个为什么》重新长出来，从一本固定的书，变成可以随身携带、在真实世界里被不断调用的内容。

7、为什么不直接做终局

左希：刚才聊的这些，已经是一整套比较完整的路径了。但从外部看，很多团队会更激进一点，一上来就想做更主动、更复杂的形态。你们似乎选择了一个更克制的起点。

黄勇：因为必须坦率地说，现在的技术，撑不起终局形态。如果一开始奔着最复杂的形态去做，比如完全主动的陪伴型设备，很多问题是解决不了的。包括交互稳定性、供应链、成本，还有用户的接受度。所以我们更倾向于先做一个成熟产品，把数据跑出来，把场景跑通。

左希：有点像先把一条路径走顺，而不是一开始铺就很多条路。

黄勇：可以类比一下特斯拉。它的终局是做机器人，但从汽车开始，一步一步往前走。我们现在做相机，也是类似的逻辑。这是一个供应链成熟、用户容易理解的形态。后面的形态，取决于两件事：一是技术发展到什么阶段，二是我们自己的能力能不能跟上。

左希：在路径选择上，有没有一些刻意不去做的事情？

黄勇：有。比如短期内，我们不会做定制化产品，也不会和B端一起共创新产品。这些事情看起来能更快放量，但会打乱产品本身的节奏。我们还是希望先把C端体验做扎实。

左希：听上去更像是在控制节奏，而不是追求速度。