出品|虎嗅科技组
作者|陈伊凡
编辑|苗正卿
头图|AI生成
“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「48」篇文章。
“一个好的 AI 原生硬件,如果拿掉 AI,一定是个非常蠢的硬件。”
这句话,黄勇说过不止一次。
这是一个行业里几乎没有人真正想清楚的问题:做一款AI原生的硬件,究竟应该从哪里开始?大多数团队的答案是从硬件开始,先把设备做出来,再往里叠 AI 能力。黄勇认为这是错的,他说硬件不是容器,是躯体,先定义一个智能体,再为这个智能体造一个身体。两者不可分割,分割了就做不出好东西。
想清楚之后,他自己下场了。
2025年,黄勇创立奇朵,做了一台面向6到12岁儿童的科学相机。先是做了一个智能体,相机只是承载的躯体。
在此之前,他有另一个身份。
行业里叫他“帮主”。珠三角的儿童硬件圈子,但凡有人在产品上卡住了,会开车来找他;哪家词典笔体验歪了,哪家故事机内容结构有问题,谁的点读产品在交互上出了岔子……他都见过、都帮过。高峰期,他一年通过 API license 装进接近两千万台设备,覆盖儿童硬件几乎所有的品类。黄勇自己,就是中国硬件生态的横截面。
这是黄勇第一次接受这样的深度交流,他说话带着南方口音,语速不快,SDK、RAG、蜂窝模组、SOC成本……这些词张口就来,但落地方式像是在把玩一个乐高或是魔方,硬件在他嘴里从来不是一个整体,是可以拆开、替换、重新咬合的东西,最后达到性能、外观和成本的最大公约数,这是在世界供应链中心反复训练出来的话语体系。
“当你读一本书读10年,你肯定要成精了。”
黄勇选择这个时机下场,AI 硬件的热闹给了他理由。
大模型进入快速落地阶段之后,华强北的嗅觉素来灵敏。AI 音箱、AI 学习机、AI 眼镜、AI 陪伴机器人,最快的团队从立项到出货不超过三个月。去年 CES,满场都是中国 AI 硬件公司,有人说那届 CES 其实是中国公司的主场。创投圈同步沸腾,带“AI”的硬件 BP 拿到融资的速度,比任何时候都快。
但大多数逻辑换汤不换药:找一个成熟品类,塞进一个大模型对话入口,加上语音交互,包装成“AI native”出货。硬件还是那个硬件,只是多了一个可以聊天的功能。黄勇觉得,这是上一代的逻辑,只是换了一件新衣服。
为了践行他理解的AI原生硬件,黄勇甚至重塑组织。
传统儿童硬件产业分工是按专业切割的:做内容的做内容,做 AI 的做 AI,做硬件的做硬件,三条线各自向前,最后拼在一起,这套分工在工业化时代是有效率的。AI时代,智能体就是内容本身,硬件是智能体的躯体,是一枚硬币的正反两面。把它拆成三个部门去做,做出来的一定是割裂的东西。
所以奇朵从第一天起,把这三件事放在同一张桌子上。
他的团队把“十万个为什么”知识库从10万条扩充到百万级,覆盖6到12岁孩子99%的百科类问题,训练出“小K老师”这个智能体。之所以是相机:这个智能体的核心能力是多模态认知,它需要看见世界,相机是最自然的感知入口;同时,黄勇把奇朵的产品线设计成一条沿影像延伸的分龄矩阵——3岁前是 baby monitor,3到6岁是AI认知启蒙卡,6到12岁是科学相机,12岁以上是类大疆 Pocket 3 的 DV。
然后,他开始减法。没有触摸屏,没有 APP 格子,几个物理大键。美颜和贴纸功能,做了,后来全部砍掉——小朋友根本不追求这个。
品味,有时候就藏在你敢去掉什么里面。
还有一个更大的判断。过去十多年,iPhone 把 CD 机、Walkman、数码相机全部统一了进去,大多数消费电子品类在这个过程里消失或萎缩。这在行业里留下了一种惯性:做硬件就是在跟手机博弈,胜算渺茫。
黄勇的判断是反向的,他认为接下来会有一个“拆手机”的过程。因为 AI 原生体验的定义,手机里 APP 实现的功能正在被重新硬件化。每个垂直硬件在某个特定场景上开始优于手机。当越来越多的功能被“硬化”,手机可能弱化为众多硬件中的一员,退化成一个随身算力中心。
每个垂直硬件在某个点上优于手机,手机里的 APP 会慢慢被硬化,最终手机可能只是众多硬件中的一员,弱化为一个随身算力。
奇朵成立不到一年,就完成了两轮融资。
趋势在,团队在,供应链在,全球化的合规壁垒也搭起来了。天时地利人和,他觉得都具备了。
被问到如果有一天奇朵失败了,原因会是什么,他停了一下。
“这个……不好说。可能是命不好吧。”
“新一代硬件,是围绕智能体设计硬件形态”
虎嗅:你当时为什么想要切入这么卷的儿童 AI 教育这个赛道?
黄勇:我们一直在教育和儿童硬件行业里做,看到这块趋势在慢慢起来。儿童产品,本质上无论是图书、APP 还是智能硬件,都是内容作品。
但现在,随着新一代原生 AI 人群的崛起,在硬件形态里消费内容的比重会越来越大。多模态和 AI 结合之后,我们打造的“十万个为什么”IP,传统上是一本图书,现在这台相机把它变成了一种 AI 驱动的、带启发性的多模态图书。这种新的内容形态,会进一步解放儿童硬件的市场需求。
虎嗅:为什么选择相机作为承载,有没有考虑过其他硬件形态?
黄勇:我还是从儿童视角出发,眼镜跟儿童的结合我考察过,最大问题是重量,现在最轻49g,小朋友不能超过29g,不然鼻子塌了,家长要怪我们。
机器狗是我一直在想的方向。我跑到机器狗公司去交流,他们挺有兴趣。他们现在做的狗腿比较长,是为了应对各种地形,但儿童版的机器小狗腿要小小的,上楼梯让孩子抱一下就好了。这个小狗比相机生命力大多了。我跟他说,优化一下结构做到零售价5000,一年卖一两万台是可能的。
虎嗅:需要去做一些教育供应链的事情吗?
黄勇:1.0 阶段我们先把智能体装进成熟品类,以复用现有供应链为主,只在摄像头这类关键模块上有针对性地强化。随着智能体深入,需求就会超出现有供应链——比如支持暗拍的小型模组,现在市场上根本没有,监控类的大玻璃镜头体积不行。这时候就需要去构筑新的供应链,这既是挑战,也是壁垒。
虎嗅:为什么选择12岁以下这个年龄段?学龄前儿童类硬件已经有好多在跑了。
黄勇:AI 之前,硬件是内容的容器,接下来,儿童硬件一定会变成智能体的躯体,而智能体本身就是内容。行业在发生两个根本变化:内容格式从图文、音频、多媒体,演变到智能体格式;硬件从容器变成躯体。这是一个重塑整个产品和产业形态的结构性机会,所以我切进来了。很多做的不错的儿童硬件产品,还是上一代的产品逻辑。
虎嗅:“上一代的产品逻辑”是什么?
黄勇:新一代原生硬件,本质是,硬件是智能体的躯体,智能体就是内容本身。上一代硬件是在传统工业化分工下,分工做出了一个组装品。
虎嗅:你怎么理解AI原生硬件?
黄勇:我的理解有四个层次。
第一,硬件是由智能体驱动产生的。你拿到这台相机,它的本质不是装内容,而是智能体,然后这个智能体需要一个相机作为躯体来表达,相机的每一个设计都是为了让这个躯体更好地发挥作用。拿掉这个智能体,它就不成立了,就是个普通相机。
第二,自然的多模态交互。
第三,主动感知。随着感知器件增加和长期记忆积累,它会主动说:“昨天我们聊的那个,今天来这里可以实地看看。”
第四,持续迭代的躯体。现在是相机,下一版可能支持微光拍摄,再往后也许会变成一只机器小狗,带着孩子去探索。
虎嗅:儿童是一个粘性很低的群体,目前似乎没有一款从3岁到12岁的儿童硬件产品?你觉得你要做第一个吃螃蟹的人吗?还是这本身就是一个伪命题?
黄勇:每个年龄段的变化非常大,小朋友早期以月龄变化,后来以年龄变化,和成年人那种认知稳定的状态完全不同,一个手机通杀不了。
每个阶段喜新厌旧是正常的。毛毛虫点读笔就做得很好,适合3到6岁,大一点就丢了,因为不喜欢那种戳戳戳的动作了。“从3岁用到12岁”的想法本身就不对。所以奇朵的解法是:在不同年龄段各定义一到两颗核心产品,形成发展矩阵。
虎嗅:你是怎么设计这个产品矩阵的先后和布局的?
黄勇:沿着影像这条线:3岁前是 baby monitor 形态,分析爬行姿态、提醒家长;3到6岁是认知启蒙卡;6到12岁是科学相机;12岁以上是类大疆 Pocket 3 的 DV,加上耳机。然后每个阶段的核心影像产品再做一次延伸和丰富。整个逻辑就是分龄的硬件矩阵,每个产品都简单聚焦。
“当你读一本书读10年的时候,你肯定要成精了”
虎嗅:从你的第一份硬件创业,到现在奇朵,硬件创业的逻辑在发生什么变化?你在这份创业中有没有一些原有的惯性?
黄勇:我之前做VisionTalk是以 To B 的形式参与了很多硬件,通过 AI 图像搜索平台为它们做赋能。而现在,我希望以更直接、更彻底、更高效的方式,真正躬身入局。
为什么?因为接下来的方向是 AI native 硬件,智能体的设计和硬件的设计必须紧密融合。以前是“加 AI”的逻辑,我可以专门负责 AI 这层,用 SDK 做服务。但现在是 AI native,如果你打造了一个好的智能体,就应该为它打造好的躯体,灵魂和身体割裂不了。
虎嗅:过去的创业经验里,现在还可以复用的有哪些?
黄勇:做 To B 服务做10年,到后面已经变成客户产品团队的一员了。读了一本书读了10年,肯定要成精了。我高峰期一年 API license 装了快两千万台,我很清楚各个品类出了多少、哪些功能最受用、哪些内容消费最多,看一眼我就能大概知道一个品类成不成。
我深度参与定义过一款词典笔,我和创始人说,词典笔的本质是词典,买最好的牛津词典 IP,然后不能有开关机键。
因为搜词是个突发短促需求——就像吃个鸡蛋,如果还要去煮,我就不吃了。回到词典本质来定义产品,功能极简,笔头按下去就是开机,秒开,放下两秒就关机,800毫安电池用20多天。
做VisionTalk的时候,我的角色就是用 AI 衔接内容和硬件功能,所以我能感觉到 AI 在硬件上怎么更好发挥作用,以及现有分工逻辑里存在的问题。加上对儿童硬件内容本质的认知,对内容资源和版权世界的熟悉,这些经验都是直接复用的。
虎嗅:在这款产品当中,最体现你自己产品品味的地方是哪里?
黄勇:这台机器本身就是一个 APP,因为它只为小K老师这个智能体服务,按键加对话,就可以完成所有操作,不需要在屏幕上点。
智能体的出发点,放弃了传统 GUI 的交互方式。这对产品团队和交互设计师都是很大的挑战。
虎嗅:在你们这几代产品的迭代过程当中,你做了哪些加法,又做了哪些减法?
黄勇:10月份团队到位后,马上用供应链能力推了一款内部叫“小绿”的机器,一个月就丢出去了,进来了300多个家庭,天天开会聊天。两个多月里收集了七八十个建议,基本上两天一版。
加法是一个科学老师说“我拍彩虹能识别吗”?于是开发了自然现象识别;家长说小朋友喜欢拍微距,于是支持了微观拍摄;家长说孩子看课外书遇到不懂的词没法回答—,于是做了“拍书对话”模式,拍了某段文字,小K老师就开始跟你交流这个话题。
减法做的更多。我们开始做了美颜和贴纸,因为传统相机都有这些。但后来发现小朋友根本不追求这个,全部下掉了。我们做的是教育摄影、认知摄影,不是自拍和创作工具。
虎嗅:我们在端侧模型的选择和算力上,是用了什么策略?
黄勇:我们的策略是强云弱端。在很长的周期里我们不会考虑端侧模型。端侧要做好体验,系统成本增幅非常大,不如用无处不在的网络连接,去调用云端模型和算力。连接成本越来越低,每台产品加一个蜂窝通讯模组就够了。
端侧强化还涉及存储、功耗、续航的连带问题。端侧的成熟,一定是先在手机这种大品类上跑出规模,才能延伸到消费电子。
虎嗅:我们自己有没有训一些小模型,或者用微调的方式?
黄勇:我们用知识工程加 RAG,再加适度的 SFT,没有自己调基座,这个不重要,重要的是内容的可信和权威。
具体做法是把十万为什么的知识库从10万条扩充到数百万条,覆盖6到12岁99%的百科类问题;经过模型审计和人工抽检后向量化,再用千问做 RAG,对交互过程调优。重心在领域知识库的 RAG 工程上。奇朵不追求模型上的成就,追求的是打造一种新的内容智能体格式。
虎嗅:强云弱端这个方式,可能会有什么挑战?你们怎么解决?
黄勇:主要是网络波动,这需要工程能力。
我们现在做的是拍照类产品,通过算法调试和拍摄框引导,低品质图传上去就能分析,大幅减少对网络波动和时延的敏感度。时延工程是我们 CTO 的强项——我们不追求算法创新,但工程化一定做到最专业。
“小朋友通过不同阶段的设备,其实他是在养自己的一个龙虾”
虎嗅:现在AI行业变化太快了,OpenClaw出现之后,很多人说以后不同硬件之间会互连互通。你觉得这会给未来硬件带来什么变化?
黄勇:“龙虾”这个事太好了,因为我们整个就是分龄的成长矩阵打法,每一个分龄的硬件都应该连到龙虾。小朋友通过不同阶段的设备,其实是在喂自己的龙虾、养自己的龙虾。
我一直在想怎么让矩阵形成连接和复购,龙虾这个技术框架帮我解决了这个问题。以前那种搞一个成长模型、通过数据匹配分析的方式,不够性感。
虎嗅:你在成立很短的时间内就完成了连续两轮融资,这是怎么做到的?
黄勇:投资人看中的首先是成熟的团队,“成熟”不只是专业领域,更重要的是有一定年龄、带过孩子。别的 AI 硬件项目可以越年轻越好,但做儿童产品可能不行,那种味道不对。
第二个是 Day one global 的布局。我们国内版和海外版同时发,而且全球化是合规先行的。欧美儿童产品的合规非常严格——数据安全、模型本地部署、未成年保护,我们从产品定义开始就加入了 KidSafe联盟,这是很多国内团队没概念的地方,而我们搞通了,这本身就是壁垒。
海外产品的外观设计和交互设计全部是海外原生的——外观是英国顶级设计工作室,产品经理是在谷歌做了10年的纽约团队,从海外原生设计到原生合规一体化定义,不是用出口逻辑做的。
虎嗅:资方当时有没有质疑?
黄勇:有,换位思考我也会质疑这一点,做出好产品不是问题,但商业化过程中会面对流量越来越贵的挑战。
我们的判断是:破解流量困局的方式是优质内容。接下来营销的本质就是内容,不是投流。
虎嗅:什么样的销量,你觉得可以叫做爆品?
黄勇:儿童教育硬件,第一年及格线是20万台以上,优质的产品定义是爆品的根本。
虎嗅:越来越多的产品变成了硬件加付费订阅,我们在商业模式设计上国内国外有区别吗?
黄勇:海外从一开始就设计了订阅体系。
国内我做的是配件化,国内消费者很难为软件或内容订阅,所以我把它具象化。比如“拍微距”:现在用调参方式实现,接下来会推出可以套在镜头前面的微距镜头实体配件,就像小米的摄影套装。另外还有实验支架,配合小学科学课的家庭端趣味实验,可以订阅实验材料包。
虎嗅:硬件创业特别烧钱,怎么去控制成本?
黄勇:三个思路。第一,先把智能体装进成熟品类,成熟供应链成本可控;第二,做了这么多年帮主,产业链上的供应商都是帮助过的人,账期和交易条件都能拿到最好的;第三,强云弱端,把端侧存储砍掉放云存,4G 实时连接下离线只做缓存,大幅降低存储波动的影响。
技术路径上,现在用安卓快速迭代,功能稳定后迁移到 Linux。Linux 系统小、存储要求低、SOC 成本约为安卓的一半,可以把硬件成本进一步压低。
“接下来可能有一个‘拆手机’的过程”
虎嗅:几乎所有的硬件团队都面临两个挑战,第一如何面对手机,第二如何面对华强北,首先问问你们怎么面对手机?
黄勇:国内12岁以下的硬件产品被手机挑战的可能性不大。12岁以上才是手机真正进来的时候,所以我们的耳机产品设计时就考虑了与手机的共生关系。专业的垂直硬件和手机是共生关系,不是替代关系,很多有手机的人,也会买 CCD 相机或运动相机。
接下来可能有一个“拆手机”的过程。iPhone 之前,CD 机、Walkman、数码相机各自存在,后来被手机统一了。但今天,因为原生体验的定义,手机里 APP 实现的功能在重新硬件化。每个垂直硬件在某个点上优于手机,手机里的 APP 会慢慢被硬化,最终手机可能只是众多硬件中的一员,弱化为一个随身算力。
虎嗅:怎么面对华强北?
黄勇:当你回到内容本质来思考产品,就不怕华强北了。我们做的不是硬件,硬件是为内容表达服务的。要复制奇朵,需要能把内容、AI 和硬件三者融合贯通的团队,放眼全球,这都是稀缺的。
虎嗅:软硬结合已经很难了,你又加上了 AI 和大模型。在这个结合过程中,坑和难点在哪里?
黄勇:这主要是传统工业化分工导致的。内容、智能体、硬件,在我心目中是一个东西:智能体就是内容本身,硬件是智能体的躯体,是一枚硬币的正反两面。
但用传统分工来做,做内容的做内容,做 AI 的做 AI,做硬件的做硬件,就变成了三件互相割裂的事情,怎么做出好产品?
虎嗅:奇朵第一天起就瞄着全球,但 AI 硬件这个品类,中国公司占了八九成,去年 CES 大家都说是中国的 CES,怎么看硬件在国内卷,到国外也是跟中国公司卷?
黄勇:中国目前是基础练功房——大家互相卷,练肌肉,再去卷海外。先在国内找到独特定位活下来,是前提。
出海最关键的是尊重在地文化,从设计、交互到内容 IP,全部本土化。“十万个为什么”是中国最好的科普 IP,但在英国叫 DK,在西班牙有当地版本。我们在每个市场都会找当地最权威的内容 IP 合作。我们做的是让每个地方的本土内容 IP 在 AI 时代重生。
虎嗅:有人说,中国人总是尝试把一款消费硬件做的更有性价比,但欧美人会思考如何让这个产品变得有趣,在你看来,是性价比更重要还是有趣更重要?你们怎么做的?
黄勇:有趣是比性价比更重要的。儿童的产品要做到有趣,有2个方向。第一个是比如用屏幕+声光电刺激(比如在中间加入看视频或者各类游戏)来做到有趣,这样当然可以让孩子沉迷,但是这是不符合儿童发育需求的;第二个是适龄天性的自然释放,比如到了5-6岁,孩子开始无数的“是什么”、“为什么”的指着问的场景就多了。基于这个产品的能力,让孩子得到释放和满足也是一种方式。我们选择的是第二种。
虎嗅:你会认同“所有传统硬件形态都会被 AI 化一遍”这个观点吗?
黄勇:方向肯定是这样的,但关键是怎么结合品类本质,适度地把 AI 表达出来。既是 AI 驱动的,又不能变成另外一个东西。这需要对行业和品类有很深的理解。
比如轮椅的本质是辅助,外骨骼可能才是更好的轮椅,在现有轮椅上加个摄像头,不一定对。
虎嗅:如果有一天奇朵失败了,可能会是什么原因?
黄勇:这个……不好说。可能是命不好吧。趋势也好,各种要素也好,我觉得都具备,但有时候这个事情可能也看缘分,很多成功最后都是总结出来的。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4846490.html?f=wyxwapp
热门跟贴