小米摄像头卖200，他们卖超两千，凭什么？|刘博|寻影|小米集团|手机|摄像头|相机|虎嗅

出品｜虎嗅科技组

作者｜陈伊凡、李一飞

编辑｜苗正卿

头图｜由寻影提供

“AI原生100”是虎嗅科技组推出针对AI原生创新栏目，这是本系列的第「49」篇文章。

2019年1月，拉斯维加斯。

CES展馆里，一台叫寻影 Tail的相机静静放在展台上。它没有快门键，没有变焦拨杆，没有任何需要人操控的部件，它自己在转，自己在构图，自己识别人脸、判断景深，然后跟着人走。

这款产品被大量媒体评为那届CES上的最佳内容创作工具。

世界上有两种需求，一种是大众已经有的需求，一种是直接创造了一种大众不知道自己需要的需求。

OBSBOT 寻影属于第二种。

寻影创始人兼CEO刘博说，那一刻，大家被冲昏了头脑，觉得这款产品，一定会大卖。

然后发售，国内评论区的铺天盖地“砸”了过来。

“5000块的不知名品牌？凭什么？”

“小米摄像头200块，你们卖五千？”

“骗子。”

发任何一条内容，底下十条评论里九条在骂。刚经历了CES高光时刻的团队，一时被打到地上。

后来中美贸易摩擦，把他们依赖的唯一芯片直接打没了。寻影 Tail，这款刘博和团队花了三年时间做出的第一款产品，从发售到停产，只活了半年多。

这是寻影的第四年。

过去两年，发生的三件事：CES的高光时刻、国内发售的跌落谷底、芯片断供——几乎在同一时间段发生，彼此之间没有任何因果，却刺眼地并列着。

关于寻影这家公司的成长，与许多硅谷成功学案例截然不同，甚至更多的是学生创业的孤勇和频繁踩坑。

硬件创业，往往讲求先了解市场，再定义产品。但寻影的成长，却是反过来，因为他们的首款产品，连市场都不知道在哪。

两个多小时的交流，我们尝试理解和还原，这样一家除了“影像自动化”的未来是笃定的，其他的产品、供应链、市场和人群都不确定的团队，是如何生生创造了一个需求，并做到了行业领先。

“一辆只给乘客而不是给司机的汽车，从一开始就没考虑方向盘。”刘博这么比喻，在寻影 Tail之前他们设想过专业拍摄减负、体育、文艺等多个场景，但没有一个场景能在当时被提前验证；如果要靠几千台样机大规模试错，对一家初创公司而言既没资本也没时间。

“一辆没有方向盘的汽车”，这很像是当下基于AI智能体需求倒推硬件形态的思路，但刘博他们早了10年。

时间往前拉到2016年。刘博跟几个同学一起，决定要做“难到一般人不敢碰”的事。他们选的方向叫影像自动化，让相机自主拍摄。他笃定，视频会成为人类沟通里信息密度最高、甚至最重要的载体；如果视频采集还要靠人端着设备拍，供给会长期受限，这个理念，是刘博他们做影像自动化的初心。

同一年，CV领域正在经历另一条叙事。商汤、旷视、依图、云从，后来被称为“CV四小龙”的公司，在那一波深度学习浪潮里全部选择了安防作为主战场。人脸识别、异常行为检测、城市摄像头网络，是那个时代最显眼的AI落地路径。

但刘博说，安防是他们一定不会碰的领域。逻辑很直白：安防要的不是影像本身，而是影像背后的信息。而寻影想做的，是让影像作为信息载体本身变得足够好、采集足够简单，这是两件根本不同的事。

没有任何参照，甚至供应链都没有准备好，连可以用的芯片都没有，深度学习刚刚走向商业化，边缘侧的NPU（虎嗅注：NPU是一种专门用于处理机器学习算法的处理器，比CPU和GPU更快地执行复杂的数学运算，主要用于处理涉及大量小规模并行计算的 AI 任务，如图片、视频等多媒体数据和神经网络数据。）还不存在，能跑视觉算法的只有英伟达GPU，这玩意儿功耗太大，根本塞不进消费级的小设备里。

但刘博赌，NPU一定会出现。证据是他们找了当时在做神经网络芯片的人聊，见到了苗头。2018年第一批可商用的ASIC芯片才出来，2019年寻影Tail 做了出来。中间三年，没有任何产品，靠着来自松山湖XbotPark的钱，支撑过来。

公司真正稳住，是在2021年。

Tail“死”之后，刘博在内部立项做了寻影Tiny——一款全球最小的跟踪拍摄AI摄像头。

Tiny比Tail收敛很多。Tiny的场景是清晰的：开会、打电话、讲课、直播，人群是明确的工具型用户。

2020年底发布，公司从那时候才算真正稳住。

稳住之后，涌进来二三十家跟随者，但做着做着，大部分都停了。因为跟随者们发现，要做出类似效果的算法，只有在GPU服务器上才能跑，塞不进一个小设备；就算勉强做出来，成本上和寻影也没有竞争力。

2022年下半年，另一家影像公司才慢半拍地发布了跟进产品。他们前后研发周期耗费了两年多，这一步迈出来，比Tiny 足足晚了两年多。据刘博说，行业里一直到2024年还有伙伴在用寻影的第一代Tail做调试参照。

曾经踩过的坑，如今回头一看，都成了壁垒。

刘博笑着说，他们“做了很多行业贡献”，很多行业标准——手势选人动作范式、手势变焦动作范式、AI自动构图、设备掰下来自动休眠，是寻影第一个做，后来变成了行业公式。

今天的寻影有大约500名员工，核心技术积累分三块：影像、感知、运动控制。产品线从Tiny系列延伸，向上走到350美元，在全球Webcam市场定价最高的一档，向下有Meet系列和减配线攻主流市场。2021年到现在，连续五年实现高速增长。

2023年，公司第一次认真做国内市场，这一次寻影切入的不是通用市场，而是直播场景。半年内，他们把“直播专用摄像头”这个原本不存在的品类做出来了。

今年是寻影的第十年，正好是AI硬件从概念到现实的十年。

2015年前后是“智能硬件”时代，各种接上网、能联动的设备被冠上“智能”二字涌进市场，大多数悄无声息地消失了，然后是CV赋能安防的时代。然后是大模型来了，“AI native硬件”成了新的热词：Ring、Plaud、Rabbit R1、AI眼镜……一轮轮新物种被定义出来。

刘博对这些浪潮的态度很冷静，甚至有些不以为然。

“面包就是面包，你加了糖也是面包，烤了也是面包”。刘博说，随着技术演进，你可以用新技术让它更进步，但它还是那个东西。相机就是相机，寻影在做让它自动化这件事——这个需求从人类存在就存在，不是因为有了大模型才有的。

大语言模型还没集成进寻影正在卖的产品里，但刘博他们正在准备，“逐渐会有新形态产品面世”。

从2016年到现在，刘博说他们要做的事从没变过，没有顿悟时刻，没有某次模型的涌现让他们突然改变方向，有的只是一个条件接一个条件地变成熟，一个台阶接一个台阶地走到可以交付的位置。

影像自动化这件事，寻影走了十年，刘博觉得，现在距离他要的目标，“做了大概百分之十。”他说。

当前，寻影约 85% 的营收来自海外，并已进入沃尔玛、亚马逊、乐天等主流渠道，寻影 Tail 2 在 PTZ CAMERA 领域销量第一。寻影在全球高端webcam 市占率超过50%，市占率第一。全球年活跃用户提升209%，全球用户年增长率200%以上。

“我们做的事没有参考，有参考我就不用做了”

虎嗅：当初为什么选这个方向，影像自动化这事儿到底是什么？

刘博：我们偏学生创业，没有资源。这种状态下，逻辑很简单：技术上非常简单、但资源消耗大的事，我们做不了；反过来，难到一般人不敢碰，或者一般人不敢想的，才是我们能做的。如果不做一个特别大的事，那我们去上班多好。也是思考了很长时间，才确认要做这件事。

影像自动化就是这样的方向。视频是人类通信里信息密度最高的载体——四维，一定会超过文字。视频采集这件事，在脑波爆炸之前，一定是人类通信里最重要的环节。而2016年，深度学习刚回来，时间点是对的。

我们最底层的逻辑就是，视频肯定是人类沟通中非常重要，甚至是最重要的一种形式。如果我们的视频采集还是靠人端着摄像机拍摄，这个数量瓶颈非常明显。怎么才能让视频采集达到我们设想的最终状态？就是影像必须自动化，相机必须能自主拍摄，让拍摄变得和呼吸一样简单，所以这里面就涉及到大量的工作要做。

虎嗅：你们的第一款产品——寻影 Tail，这个产品形态哪怕是今天来看也很少见，当时有没有参考？为啥一定要当“第一个吃螃蟹的人”？

刘博：没有参考，如果有参考我就不用做了。Tail这个形态是我们发明的，现在我们也不知道最终什么形态、或者哪几种组合是普通人真正会用的，这一直在探索。我们是在做一辆“没有方向盘的汽车”。

虎嗅：怎么理解“没有方向盘的汽车”？

刘博：我们做的不是给司机开的汽车，做的是服务乘客的东西，从一开始就没考虑方向盘。一般人理解相机，就是拿着、对准、拍。这本质上还是“手动驾驶”。但我们从第一天就在做影像界的“无人驾驶”——用户不需要去操控，设备自己知道拍什么，自己构图，自己做拍摄决策。这是两种根本不同的产品逻辑。

虎嗅：做这样的产品，你不怕手机功能迭代后，被手机吃掉吗？

刘博：不存在和手机的竞争。手机是个人ID设备，揣兜里，屏幕交互，核心是“在你身上”。自动拍摄设备恰恰相反，被拍摄者没法在自己身上装一个拍自己的设备，光学上就不成立，它只能在远端。这是物理边界，不是选择。卡片机、DV被手机打没，是因为使用场景完全重叠，都是端在手里，都是主动拍。我们做的不是这件事，手机取代不了我们。

虎嗅：但那时候连NPU都没有，供应链根本没准备好，为什么你们就这么笃定这条路？

刘博:NPU一定会出现,，这是我们2016年做的最关键的一个判断。

那时候我们和行业的人聊，看到了信号。那时候虽然用的是英伟达GPU的方案，但我们知道要等的东西在哪里。

真正可商用的NPU是2018年才有,我们2016年开始做，2019年发第一款产品，中间三年没有产品。

虎嗅：那时候CV（视觉识别）很火，当时的AI四小龙全选了安防，你们做影像，有没有想过往那个方向走？

刘博：安防要的是影像背后的信息，比如有没有人侵入，有没有异常行为——它不要影像本身。那影像的质量、声音、拍摄的美感，在安防里是零需求。我们做的是让影像本身变得足够好、采集足够简单。这是两件完全不同的事。

虎嗅：CES上获得了最佳产品，你还记得当时团队的状态吗？大家有没有很兴奋、很激动？

刘博：大家都很嗨，脑子有点乱。因为当时得到了这样的高度评价，就以为产品一发布肯定会大卖。当时大家都觉得我们在做一件特别伟大的事。可产品发布后，销量并没有特别好，我们才慢慢意识到，尤其是一个新品类，再加上新品牌，而且还不是绝对大众化的产品，市场教育是需要时间的。它甚至都不能叫极客产品。我举个不恰当的例子，我们现在用微单、手机拍照这么熟练，是经过了几十年的市场教育。从胶卷时代开始，一直教育到现在，才形成这样的普及度。我们现在要做的，是一种全新的市场教育：你的影像采集可以解放双手了。这相当于彻底颠覆人类对影像采集的认知，几乎不可能一朝一夕就让人们习惯。

虎嗅：但是从CES上的最佳产品，到国内发售后被“骂惨”，那个时候是不是最艰难的阶段？

刘博：我们那款产品其实有很多波折：首先，刚才也提到，发布时我们没法界定清楚它的使用场景，很多人觉得概念很厉害，但真让他们用，又觉得不知道怎么用，有一些这样的小问题。不过到2020年，这些问题慢慢就解决了，大家也逐渐找到用这个产品减轻工作量的方式。但更大的麻烦是我们2019年六月份发布产品，2020年初就没法生产了，所以这款产品的存活时间只有半年多。芯片供应出了问题，当时真的很惨。但好的一点是，这款产品发布时，因为概念新颖，在圈内和行业内的评价非常高。因为Tail，我们收获了一批核心用户——现在有些同事，就是因为那个产品才加入的，三年建起来的技术底子，后来一直都在用。

虎嗅：融资怎么解决的？

刘博：非常难。主流资本是互联网逻辑，不会投这种长期、困难的东西。当时被问烂了，比如视频侵犯隐私，应该做文字；这件事可能得等五十年，凭什么投先烈；你们几个破学生，凭什么行？走投无路的时候，在上海火车站给松山湖的XbotPark打了电话，如果没有高老师（高秉强）、李老师（李泽湘）和甘老师（甘洁），那个阶段根本过不去。

虎嗅：什么时候你觉得不用再为公司的现金流、融资的事情发愁了？

刘博：我心态相对平稳下来，是在2021年。那一年看到公司的业绩报表，心态就没有那么焦虑了。

虎嗅：当时做了什么事情？

刘博：2019年我们发布的第一款产品是Tail，就是刚才提到的那款；2020年底，我们发布了第二款产品Tiny。

虎嗅：寻影 Tiny发布之后产品销售情况不错？

刘博：对，当时产品销量不错，整体发展也符合我们的预期。Tiny比Tail收敛很多。Tail是想做给所有人用的，用户教育成本极高——新品类加新品牌加不够大众化，三件事叠在一起，很难起来。Tiny的场景清晰：开会、打电话、讲课、直播，用户是明确的工具型人群。Tiny发布之后，公司才算真正稳定下来。但从那之后，每一步发展基本都和预期差不多。

更重要的是我们之前说的所有话，都用事实证明是对的。所以就再也没有质疑了，甚至有很多人主动来问，要不要一起合作。

“踩过的坑，一直都是壁垒”

虎嗅：稳定之后，跟随者就来了，那个时候Webcam也涌入了不少公司，你怎么看来自四面八方的竞争？

刘博：大量玩家涌入——他们一部分想模仿我们，一部分自己做基础款，两年后扎堆撤退。

虎嗅：为什么都退出了？

刘博：三层叠在一起。

第一，算法本身不容易；第二，算法要部署到边缘侧、跑在NPU而不是GPU服务器上，再不容易一些；第三，不只是算法，要把运动算法、图像效果、声音效果，全部集成进这么小的体积，还要做得精巧、成本可控。

看起来好像这东西挺好做，感觉搞搞算法有机会，结果一做，发现在GPU上才能跑出来——那就做不成这个产品形态。就算做出来，成本没有竞争力。这些叠加在一起，就导致这件事不好弄。

我们从2017、2018年就在做边缘侧算法压缩，到现在没有停过。这个领域我们应该是全世界遥遥领先。刚上的Tiny 3 就是最好的证明。它比上一代Tiny 2 体积减少48%，重量减少34%。要在更小的体积里塞进AI智能2.0，还要升级画质和声音。

虎嗅：“踩过的坑成了壁垒”这个意思吗?

刘博：就是一直都是壁垒。后来者要从头踩同样的坑，要花同样的时间。

虎嗅：产品这十年，好像一直在做一些减法以贴近市场的需求？

刘博：两根线。

一根是主线，怎么一步步推进影像自动化。我们的每一代产品，本质上都是性能的加法：系统越来越趋于完善，算法更强，部署更轻，消费者的体验更好。

另一根是市场线，根据用户反馈和场景需求部署产品矩阵。Webcam市场主流人群不在天花板上，于是做了Meet系列：形态更接近传统Webcam，价格更接近主流，但里面还是有算法做自动构图和跟踪。再向下，24年25年开始做100-200美元、50-100美元的减配线，把市场份额拿得更全。

虎嗅：Meet系列当时是基于什么样的技术判断推出的？那款产品好像加了一些新功能。

刘博：Meet系列最核心的逻辑是，我们做摄像头产品，一直走的是高端路线。当我们已经占据了一些用户心智，尤其是高端用户心智之后，希望能尽量多抢占这个市场。我们最终有一个目标，就是打破传统的市场格局，所以不能只做高端，也要覆盖大众市场，这是第一个逻辑。

第二个逻辑是，虽然我们的高端产品很好、很有特色，但还是有很多老百姓接受不了，觉得功能太复杂、不会用，会问“能不能给我一个普通一点的产品”。所以我们就适当收敛，推出了Meet系列，它依然有很强的产品特色，但形态上更贴近传统的摄像头，同时用算法实现自动构图等自动化功能，价格上也更贴近大众用户，不再是高端定位，让更多人能接受、能使用。就是通过产品矩阵，更好地抢占市场。

虎嗅：竞争格局上，你怎么划分不同的对手？你觉得寻影未来的竞争对手可能是哪类公司？

刘博：现阶段Logitech是我们视野里最需要关注的。而在专业影像领域，接下来几年，我们不可避免地会与松下、索尼、佳能这些百年巨头在同一个棋盘上相遇。他们卖的是过去一百年沉淀下来的精密光学硬件，而我们卖的是AI算法跑出来的自动化体验。现在大家胃口变了，逐渐习惯了这种更高效的拍摄方式，这让我们在面对这些百年巨头时，心里是有底气的。

虎嗅：创业很多时候都是反常识的，你觉得这个过程中最反常识的事情是什么？

刘博：如果从普通人的常识来看，我们很多决策都是反常识的，大概百分之七八十的决策，和大多数人的选择都不一样。但如果往底层、往本质去看，我们做的事情其实没有什么反常识的。

虎嗅：你认为寻影是一个什么样的公司？硬件公司？还是AI公司？

刘博：是一家系统公司。其实我们一直在从各个角度做这件事，它不是单一环节的问题。首先，影像拍摄和声音录制有本质区别，录音机记录声音相对简单，只要记录下来再转译就可以。但影像是很复杂的，不同的拍摄角度、多人拍摄、场景切换，呈现的效果完全不同，想要呈现好的效果，需要大量的工作，不是一个单点技术、一个设备就能搞定的，这是一个系统工程。所以我们定位自己是一家系统公司。