打开网易新闻 查看精彩图片

出品|虎嗅科技组

作者|陈伊凡、李一飞

编辑|苗正卿

头图|由寻影提供

“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「49」篇文章。

2019年1月,拉斯维加斯。

CES展馆里,一台叫寻影 Tail的相机静静放在展台上。它没有快门键,没有变焦拨杆,没有任何需要人操控的部件,它自己在转,自己在构图,自己识别人脸、判断景深,然后跟着人走。

这款产品被大量媒体评为那届CES上的最佳内容创作工具。

世界上有两种需求,一种是大众已经有的需求,一种是直接创造了一种大众不知道自己需要的需求。

OBSBOT 寻影属于第二种。

寻影创始人兼CEO刘博说,那一刻,大家被冲昏了头脑,觉得这款产品,一定会大卖。

然后发售,国内评论区的铺天盖地“砸”了过来。

“5000块的不知名品牌?凭什么?”

“小米摄像头200块,你们卖五千?”

“骗子。”

发任何一条内容,底下十条评论里九条在骂。刚经历了CES高光时刻的团队,一时被打到地上。

后来中美贸易摩擦,把他们依赖的唯一芯片直接打没了。寻影 Tail,这款刘博和团队花了三年时间做出的第一款产品,从发售到停产,只活了半年多。

这是寻影的第四年。

过去两年,发生的三件事:CES的高光时刻、国内发售的跌落谷底、芯片断供——几乎在同一时间段发生,彼此之间没有任何因果,却刺眼地并列着。

关于寻影这家公司的成长,与许多硅谷成功学案例截然不同,甚至更多的是学生创业的孤勇和频繁踩坑。

硬件创业,往往讲求先了解市场,再定义产品。但寻影的成长,却是反过来,因为他们的首款产品,连市场都不知道在哪。

两个多小时的交流,我们尝试理解和还原,这样一家除了“影像自动化”的未来是笃定的,其他的产品、供应链、市场和人群都不确定的团队,是如何生生创造了一个需求,并做到了行业领先

寻影的创始团队,左二为刘博 图片由寻影提供
打开网易新闻 查看精彩图片
寻影的创始团队,左二为刘博 图片由寻影提供

“一辆只给乘客而不是给司机的汽车,从一开始就没考虑方向盘。”刘博这么比喻,在寻影 Tail之前他们设想过专业拍摄减负、体育、文艺等多个场景,但没有一个场景能在当时被提前验证;如果要靠几千台样机大规模试错,对一家初创公司而言既没资本也没时间。

“一辆没有方向盘的汽车”,这很像是当下基于AI智能体需求倒推硬件形态的思路,但刘博他们早了10年。

时间往前拉到2016年。刘博跟几个同学一起,决定要做“难到一般人不敢碰”的事。他们选的方向叫影像自动化,让相机自主拍摄。他笃定,视频会成为人类沟通里信息密度最高、甚至最重要的载体;如果视频采集还要靠人端着设备拍,供给会长期受限,这个理念,是刘博他们做影像自动化的初心。

同一年,CV领域正在经历另一条叙事。商汤、旷视、依图、云从,后来被称为“CV四小龙”的公司,在那一波深度学习浪潮里全部选择了安防作为主战场。人脸识别、异常行为检测、城市摄像头网络,是那个时代最显眼的AI落地路径。

但刘博说,安防是他们一定不会碰的领域。逻辑很直白:安防要的不是影像本身,而是影像背后的信息。而寻影想做的,是让影像作为信息载体本身变得足够好、采集足够简单,这是两件根本不同的事。

没有任何参照,甚至供应链都没有准备好,连可以用的芯片都没有,深度学习刚刚走向商业化,边缘侧的NPU(虎嗅注:NPU是一种专门用于处理机器学习算法的处理器,比CPU和GPU更快地执行复杂的数学运算,主要用于处理涉及大量小规模并行计算的 AI 任务,如图片、视频等多媒体数据和神经网络数据。)还不存在,能跑视觉算法的只有英伟达GPU,这玩意儿功耗太大,根本塞不进消费级的小设备里。

但刘博赌,NPU一定会出现。证据是他们找了当时在做神经网络芯片的人聊,见到了苗头。2018年第一批可商用的ASIC芯片才出来,2019年寻影Tail 做了出来。中间三年,没有任何产品,靠着来自松山湖XbotPark的钱,支撑过来。

公司真正稳住,是在2021年。

Tail“死”之后,刘博在内部立项做了寻影Tiny——一款全球最小的跟踪拍摄AI摄像头。

Tiny比Tail收敛很多。Tiny的场景是清晰的:开会、打电话、讲课、直播,人群是明确的工具型用户。

2020年底发布,公司从那时候才算真正稳住。

稳住之后,涌进来二三十家跟随者,但做着做着,大部分都停了。因为跟随者们发现,要做出类似效果的算法,只有在GPU服务器上才能跑,塞不进一个小设备;就算勉强做出来,成本上和寻影也没有竞争力。

2022年下半年,另一家影像公司才慢半拍地发布了跟进产品。他们前后研发周期耗费了两年多,这一步迈出来,比Tiny 足足晚了两年多。据刘博说,行业里一直到2024年还有伙伴在用寻影的第一代Tail做调试参照。

曾经踩过的坑,如今回头一看,都成了壁垒。

刘博笑着说,他们“做了很多行业贡献”,很多行业标准——手势选人动作范式、手势变焦动作范式、AI自动构图、设备掰下来自动休眠,是寻影第一个做,后来变成了行业公式。

今天的寻影有大约500名员工,核心技术积累分三块:影像、感知、运动控制。产品线从Tiny系列延伸,向上走到350美元,在全球Webcam市场定价最高的一档,向下有Meet系列和减配线攻主流市场。2021年到现在,连续五年实现高速增长。

2023年,公司第一次认真做国内市场,这一次寻影切入的不是通用市场,而是直播场景。半年内,他们把“直播专用摄像头”这个原本不存在的品类做出来了。

今年是寻影的第十年,正好是AI硬件从概念到现实的十年。

2015年前后是“智能硬件”时代,各种接上网、能联动的设备被冠上“智能”二字涌进市场,大多数悄无声息地消失了,然后是CV赋能安防的时代。然后是大模型来了,“AI native硬件”成了新的热词:Ring、Plaud、Rabbit R1、AI眼镜……一轮轮新物种被定义出来。

刘博对这些浪潮的态度很冷静,甚至有些不以为然。

“面包就是面包,你加了糖也是面包,烤了也是面包”。刘博说,随着技术演进,你可以用新技术让它更进步,但它还是那个东西。相机就是相机,寻影在做让它自动化这件事——这个需求从人类存在就存在,不是因为有了大模型才有的。

大语言模型还没集成进寻影正在卖的产品里,但刘博他们正在准备,“逐渐会有新形态产品面世”。

从2016年到现在,刘博说他们要做的事从没变过,没有顿悟时刻,没有某次模型的涌现让他们突然改变方向,有的只是一个条件接一个条件地变成熟,一个台阶接一个台阶地走到可以交付的位置

影像自动化这件事,寻影走了十年,刘博觉得,现在距离他要的目标,“做了大概百分之十。”他说。

当前,寻影约 85% 的营收来自海外,并已进入沃尔玛、亚马逊、乐天等主流渠道,寻影 Tail 2 在 PTZ CAMERA 领域销量第一。寻影在全球高端webcam 市占率超过50%,市占率第一。全球年活跃用户提升209%,全球用户年增长率200%以上。

“我们做的事没有参考,有参考我就不用做了”

“我们做的事没有参考,有参考我就不用做了”

虎嗅:当初为什么选这个方向,影像自动化这事儿到底是什么?

刘博:我们偏学生创业,没有资源。这种状态下,逻辑很简单:技术上非常简单、但资源消耗大的事,我们做不了;反过来,难到一般人不敢碰,或者一般人不敢想的,才是我们能做的。如果不做一个特别大的事,那我们去上班多好。也是思考了很长时间,才确认要做这件事。

影像自动化就是这样的方向。视频是人类通信里信息密度最高的载体——四维,一定会超过文字。视频采集这件事,在脑波爆炸之前,一定是人类通信里最重要的环节。而2016年,深度学习刚回来,时间点是对的。

我们最底层的逻辑就是,视频肯定是人类沟通中非常重要,甚至是最重要的一种形式。如果我们的视频采集还是靠人端着摄像机拍摄,这个数量瓶颈非常明显。怎么才能让视频采集达到我们设想的最终状态?就是影像必须自动化,相机必须能自主拍摄,让拍摄变得和呼吸一样简单,所以这里面就涉及到大量的工作要做。

虎嗅:你们的第一款产品——寻影 Tail,这个产品形态哪怕是今天来看也很少见,当时有没有参考?为啥一定要当“第一个吃螃蟹的人”?

刘博:没有参考,如果有参考我就不用做了。Tail这个形态是我们发明的,现在我们也不知道最终什么形态、或者哪几种组合是普通人真正会用的,这一直在探索。我们是在做一辆“没有方向盘的汽车”。

虎嗅:怎么理解“没有方向盘的汽车”?

刘博:我们做的不是给司机开的汽车,做的是服务乘客的东西,从一开始就没考虑方向盘。一般人理解相机,就是拿着、对准、拍。这本质上还是“手动驾驶”。但我们从第一天就在做影像界的“无人驾驶”——用户不需要去操控,设备自己知道拍什么,自己构图,自己做拍摄决策。这是两种根本不同的产品逻辑。

虎嗅:做这样的产品,你不怕手机功能迭代后,被手机吃掉吗?

刘博:不存在和手机的竞争。手机是个人ID设备,揣兜里,屏幕交互,核心是“在你身上”。自动拍摄设备恰恰相反,被拍摄者没法在自己身上装一个拍自己的设备,光学上就不成立,它只能在远端。这是物理边界,不是选择。卡片机、DV被手机打没,是因为使用场景完全重叠,都是端在手里,都是主动拍。我们做的不是这件事,手机取代不了我们。

虎嗅:但那时候连NPU都没有,供应链根本没准备好,为什么你们就这么笃定这条路?

刘博:NPU一定会出现,,这是我们2016年做的最关键的一个判断。

那时候我们和行业的人聊,看到了信号。那时候虽然用的是英伟达GPU的方案,但我们知道要等的东西在哪里。

真正可商用的NPU是2018年才有,我们2016年开始做,2019年发第一款产品,中间三年没有产品。

虎嗅:那时候CV(视觉识别)很火,当时的AI四小龙全选了安防,你们做影像,有没有想过往那个方向走?

刘博:安防要的是影像背后的信息,比如有没有人侵入,有没有异常行为——它不要影像本身。那影像的质量、声音、拍摄的美感,在安防里是零需求。我们做的是让影像本身变得足够好、采集足够简单。这是两件完全不同的事。

虎嗅:CES上获得了最佳产品,你还记得当时团队的状态吗?大家有没有很兴奋、很激动?

刘博:大家都很嗨,脑子有点乱。因为当时得到了这样的高度评价,就以为产品一发布肯定会大卖。当时大家都觉得我们在做一件特别伟大的事。可产品发布后,销量并没有特别好,我们才慢慢意识到,尤其是一个新品类,再加上新品牌,而且还不是绝对大众化的产品,市场教育是需要时间的。它甚至都不能叫极客产品。我举个不恰当的例子,我们现在用微单、手机拍照这么熟练,是经过了几十年的市场教育。从胶卷时代开始,一直教育到现在,才形成这样的普及度。我们现在要做的,是一种全新的市场教育:你的影像采集可以解放双手了。这相当于彻底颠覆人类对影像采集的认知,几乎不可能一朝一夕就让人们习惯。

虎嗅:但是从CES上的最佳产品,到国内发售后被“骂惨”,那个时候是不是最艰难的阶段?

刘博:我们那款产品其实有很多波折:首先,刚才也提到,发布时我们没法界定清楚它的使用场景,很多人觉得概念很厉害,但真让他们用,又觉得不知道怎么用,有一些这样的小问题。不过到2020年,这些问题慢慢就解决了,大家也逐渐找到用这个产品减轻工作量的方式。但更大的麻烦是我们2019年六月份发布产品,2020年初就没法生产了,所以这款产品的存活时间只有半年多。芯片供应出了问题,当时真的很惨。但好的一点是,这款产品发布时,因为概念新颖,在圈内和行业内的评价非常高。因为Tail,我们收获了一批核心用户——现在有些同事,就是因为那个产品才加入的,三年建起来的技术底子,后来一直都在用。

团队照片,由寻影提供
打开网易新闻 查看精彩图片
团队照片,由寻影提供

虎嗅:融资怎么解决的?

刘博:非常难。主流资本是互联网逻辑,不会投这种长期、困难的东西。当时被问烂了,比如视频侵犯隐私,应该做文字;这件事可能得等五十年,凭什么投先烈;你们几个破学生,凭什么行?走投无路的时候,在上海火车站给松山湖的XbotPark打了电话,如果没有高老师(高秉强)、李老师(李泽湘)和甘老师(甘洁),那个阶段根本过不去。

虎嗅:什么时候你觉得不用再为公司的现金流、融资的事情发愁了?

刘博:我心态相对平稳下来,是在2021年。那一年看到公司的业绩报表,心态就没有那么焦虑了。

虎嗅:当时做了什么事情?

刘博:2019年我们发布的第一款产品是Tail,就是刚才提到的那款;2020年底,我们发布了第二款产品Tiny。

虎嗅:寻影 Tiny发布之后产品销售情况不错?

刘博:对,当时产品销量不错,整体发展也符合我们的预期。Tiny比Tail收敛很多。Tail是想做给所有人用的,用户教育成本极高——新品类加新品牌加不够大众化,三件事叠在一起,很难起来。Tiny的场景清晰:开会、打电话、讲课、直播,用户是明确的工具型人群。Tiny发布之后,公司才算真正稳定下来。但从那之后,每一步发展基本都和预期差不多。

更重要的是我们之前说的所有话,都用事实证明是对的。所以就再也没有质疑了,甚至有很多人主动来问,要不要一起合作。

“踩过的坑,一直都是壁垒”

“踩过的坑,一直都是壁垒”

虎嗅:稳定之后,跟随者就来了,那个时候Webcam也涌入了不少公司,你怎么看来自四面八方的竞争?

刘博:大量玩家涌入——他们一部分想模仿我们,一部分自己做基础款,两年后扎堆撤退。

虎嗅:为什么都退出了?

刘博:三层叠在一起。

第一,算法本身不容易;第二,算法要部署到边缘侧、跑在NPU而不是GPU服务器上,再不容易一些;第三,不只是算法,要把运动算法、图像效果、声音效果,全部集成进这么小的体积,还要做得精巧、成本可控。

看起来好像这东西挺好做,感觉搞搞算法有机会,结果一做,发现在GPU上才能跑出来——那就做不成这个产品形态。就算做出来,成本没有竞争力。这些叠加在一起,就导致这件事不好弄。

我们从2017、2018年就在做边缘侧算法压缩,到现在没有停过。这个领域我们应该是全世界遥遥领先。刚上的Tiny 3 就是最好的证明。它比上一代Tiny 2 体积减少48%,重量减少34%。要在更小的体积里塞进AI智能2.0,还要升级画质和声音。

虎嗅:“踩过的坑成了壁垒”这个意思吗?

刘博:就是一直都是壁垒。后来者要从头踩同样的坑,要花同样的时间。

虎嗅:产品这十年,好像一直在做一些减法以贴近市场的需求?

刘博:两根线。

一根是主线,怎么一步步推进影像自动化。我们的每一代产品,本质上都是性能的加法:系统越来越趋于完善,算法更强,部署更轻,消费者的体验更好。

另一根是市场线,根据用户反馈和场景需求部署产品矩阵。Webcam市场主流人群不在天花板上,于是做了Meet系列:形态更接近传统Webcam,价格更接近主流,但里面还是有算法做自动构图和跟踪。再向下,24年25年开始做100-200美元、50-100美元的减配线,把市场份额拿得更全。

虎嗅:Meet系列当时是基于什么样的技术判断推出的?那款产品好像加了一些新功能。

刘博:Meet系列最核心的逻辑是,我们做摄像头产品,一直走的是高端路线。当我们已经占据了一些用户心智,尤其是高端用户心智之后,希望能尽量多抢占这个市场。我们最终有一个目标,就是打破传统的市场格局,所以不能只做高端,也要覆盖大众市场,这是第一个逻辑。

第二个逻辑是,虽然我们的高端产品很好、很有特色,但还是有很多老百姓接受不了,觉得功能太复杂、不会用,会问“能不能给我一个普通一点的产品”。所以我们就适当收敛,推出了Meet系列,它依然有很强的产品特色,但形态上更贴近传统的摄像头,同时用算法实现自动构图等自动化功能,价格上也更贴近大众用户,不再是高端定位,让更多人能接受、能使用。就是通过产品矩阵,更好地抢占市场。

虎嗅:竞争格局上,你怎么划分不同的对手?你觉得寻影未来的竞争对手可能是哪类公司?

刘博:现阶段Logitech是我们视野里最需要关注的。而在专业影像领域,接下来几年,我们不可避免地会与松下、索尼、佳能这些百年巨头在同一个棋盘上相遇。他们卖的是过去一百年沉淀下来的精密光学硬件,而我们卖的是AI算法跑出来的自动化体验。现在大家胃口变了,逐渐习惯了这种更高效的拍摄方式,这让我们在面对这些百年巨头时,心里是有底气的。

虎嗅:创业很多时候都是反常识的,你觉得这个过程中最反常识的事情是什么?

刘博:如果从普通人的常识来看,我们很多决策都是反常识的,大概百分之七八十的决策,和大多数人的选择都不一样。但如果往底层、往本质去看,我们做的事情其实没有什么反常识的。

虎嗅:你认为寻影是一个什么样的公司?硬件公司?还是AI公司?

刘博:是一家系统公司。其实我们一直在从各个角度做这件事,它不是单一环节的问题。首先,影像拍摄和声音录制有本质区别,录音机记录声音相对简单,只要记录下来再转译就可以。但影像是很复杂的,不同的拍摄角度、多人拍摄、场景切换,呈现的效果完全不同,想要呈现好的效果,需要大量的工作,不是一个单点技术、一个设备就能搞定的,这是一个系统工程。所以我们定位自己是一家系统公司。

距离终点,还有90%的路要走

距离终点,还有90%的路要走

虎嗅:2023年开始认真做国内,为什么是这个时间点?

刘博:两件事同时成立。

第一,环境变了。2019年那时候,国内更信大品牌,新品类很难被接受。到2023年,大疆和华为这几年改变了国内消费者对本土创新产品的接受度。2019年我们那种被骂烂的情况,现在应该不会发生了。

第二,海外基本盘稳了。这几年我们跑得挺快,每年起码50%的增长,快的时候增速直接破了100%。有这个底子,才有资格认真做国内。

但我们没有直接冲通用市场,而是先切了直播这个垂直场景。半年内就把直播专用摄像头这个新品类做出来了——国内之前没有这个东西。

虎嗅:你觉得公司现在算成功了吗?

刘博:成功很难定义。我们现在做的事情,和我们最终希望达到的目标相比,完成度还非常低。但也很难说会失败,因为失败也没有明确的界定标准。应该说,我们最终希望把这件事推进到100%。

虎嗅:你觉得现在距离到终点的路程走了多少了?

刘博:10%。剩下的路怎么走,变数还很多。可能走到一半,会有更多同行进来跟我们一起拓荒,或者通过行业合作来加速进程。还有一种可能是,我们做得很艰难,最后把公司做得非常大,可能达到几万人规模,才能把这件事从40%推进到80%。

这一切都界定不清楚。但我觉得,我们现在做的这件事,不管需要十年还是二十年,最终能推进到100%是必然的,是人类社会发展的必然趋势。

虎嗅:你说现在只做到了10%,怎么这么慢?

刘博:鸡生蛋蛋生鸡。开始的时候又没有鸡又没有蛋——人类的使用习惯是蛋,有没有可用的产品是鸡。都从零开始,慢是必然的。

现在直播、Vlog这些场景起来了,部分人开始用不一样的方式记录自己的生活。这是鸡和蛋开始互相推动。但离"视频采集像喝水一样自然"——吃饭都复杂,像喝水一样简单——离那个状态还很远。

我们自己做的那些,离我们认为应该做到的也就10%。技术储备、产品迭代、市场教育,都还有很长的路。

虎嗅:过去十年里,有没有让你最后悔的决策,觉得当时不应该那么做?

刘博:其实我们公司到今天,所有的决策都不是我一个人头脑发热拍板的。每一个决策,都是我们在当时掌握的信息范围内,做出的相对最优选择。我们公司的特点就是稳健,做的事情基本都是可控的,遇到可能导致重大风险的事情,大部分都及时止损了。

虎嗅:比如有哪些面临重大风险的时刻,你们最后及时收手了?

刘博:比如我们中间有一款产品,当时想做第二代,前后调研、折腾了大概一年半,最后我决定彻底放弃。如果当时继续做下去,那款产品的形态可能会让我们陷入和其他品牌的同质化竞争,这对我们来说会很麻烦,可能会让用户产生不好的联想。对于我们这个规模的公司来说,这种同质化竞争不是好事,所以就及时停住了。

虎嗅:所以你觉得,现在还没到和巨头硬刚的时候?

刘博:以我们现在的规模,一定要尽量避免犯一些不该犯的商业错误。我们之所以没犯过这类错误,并不是因为害怕。比如在我们自己的核心领域,如果有别人来竞争,我们是不怕的,但没必要主动去和巨头硬刚,避免不必要的风险。

虎嗅:未来随着影像自动化越来越普及,摄像头这种产品形态可能会被其他形态替代?我们会做这方面的准备吗?

刘博:我们的产品平台一直在演进,不是等别人来挑战我们才去准备。后面我们会有一些不同形态的产品,逐渐在不同领域推广和应用。具体的形态我不方便举例。

虎嗅:畅想一下,当影像自动化达到您所说的100%理想状态时,会是怎样的场景?

刘博:视频信息的传播会变得像喝水一样简单。整个视频信息在人类生活中的流转,会像河水一样自然、简单,比吃饭都要轻松。人类的沟通形式可能都会发生本质变化,现在我们还需要看小说、看文字来获取信息,未来这种方式可能会被更便捷的视频形式替代。

打开网易新闻 查看精彩图片

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4848457.html?f=wyxwapp