当下AI圈几乎每周都有新鲜事发生,这反而给了许多创业公司熬出头的机会。(雷峰网雷峰网雷峰网)

无论是Clawedbot掀起对物理世界交互方式的重构,还是Moltbot上开始讨论AI和人类如何共存的危机感,都在提醒市场:真正的机会往往藏在边缘地带,以及看似微小的‘非共识’时刻。

比如“播客”这个领域,即便有短视频和短剧的大力冲击,但是播客赛道仍旧火热,根据《CPA中文播客白皮书2026》显示,2025年中文播客听众人数已突破1.5亿人,较2023年的1.2亿增长25%。

在大量研究国外对播客的论文文献之后,创始人冯雷决定选择AI播客这条赛道,其创业路径非常清晰:我们的目标不是DAU,而是要做一个赚钱的 AI 产品,专注于 1%-3%以内的创作者,这群人很有创造力,也愿意付费,我们就服务这群人。

“我们就是希望他像一个真人一样,没有太多 AI 表达。尽量有人味,越自然越好。” 冯雷对AI科技评论表示。

ListenHub创始人 冯雷
打开网易新闻 查看精彩图片
ListenHub创始人 冯雷

作为一家在播客生成领域做到国内头部的公司,ListenHub选择为内容创作者提供声音克隆、多模态编辑、一键生成解说视频等专业工具。

公司去年底实现了300万美金的ARR,并在近期以5000万美金的估值开启新一轮融资。

在成为一名创业者之前,冯雷是Minimax 海螺AI的产品负责人,最广为人知的是他的个人公众号“有机大橘子”,更早期在BOSS直聘、兰亭集势、三星等公司就职就职,从事产品经理相关职位。

在对PMF的理解上,他指出:在传统互联网时代,产品经理的核心任务是"发现需求-验证模型-规模化复制",流程清晰如流水线;而在AI时代,他坦言这套方法论已经失效——"真的是拿锤子找钉子,而且还真的能找到"。

这种反常识的颠倒,源于大模型作为通用技术的特殊性,因此在招聘时,冯雷也会警惕经验主义者,"3年以上的产品经理容易陷到过去的方法论里";他坚持定ARR而非DAU目标,也会将产品核心交给工程师和AI本身,信奉Manus那句"less structure, more intelligence"——当技术本身具备涌现能力时,人的任务不是控制,而是守护那1%的灵魂。

在这次对话中,冯雷展现了一个AI创业者的清醒与坦诚。他不讳言对大模型降本论的质疑——"去年大家最大的错误判断就是相信模型降价能带来利润空间";他也直言当前AI应用公司的困境——"调用Claude的公司利润都很低,ARR只是给Claude交的税";他甚至略带自嘲地承认"现在的英文模型效果依然不够好,一定程度上影响了海外的 GTM"。

这篇对话记录不仅是对ListenHub成功的复盘,更是为当下AI创业者呈现出的另一个参考样本:

01 关于ListenHub产品现状

AI科技评论:ListenHub目前进展如何?在市面上各种AI产品都在卷DAU的时候,你们怎么选择?

冯雷:去年底我们做到了300万美金的ARR,和豆包相比,它的目标是做中国DAU第一的AI产品,做的是大众生意。但我们的目标是做一个赚钱的AI产品。我们服务的核心人群可能只占全网用户的1%到3%,就是那些有创造力、愿意付费的创作者。我们增加了声音克隆、编辑模式等他们需要的功能,这样与大厂形成正交关系,没有直接竞争。

AI科技评论:既然是给创作者用的工具,为什么选择“AI播客”这个切入点?短视频不是更火吗?

冯雷:播客是一个很神奇的存在。短视频冲击了这么多年,听播客的人不仅没少,反而变多了。这说明它里面有一种不可替代的“深度表达”需求。

ListenHub做到了国内第一,核心特色在于“像人一样自然的表达”。我们不是在做表演,而是在做沟通。现在的AI能把解说视频做得非常有“人味儿”,这种自然感是用户买单的关键。而且,我们正在从音频向视频、PPT拓展,流量池会更大。

AI科技评论:ListenHub的商业模式是一开始就确定的吗?

冯雷:是逐渐在创业过程中探索而来的。最初尝试情感电台方向——AI个性化推送情感故事,支持聊天并按对话收费。但该方向用户付费意愿有限,工具属性反而更易变现,因此自然转向迭代,逐步加入视频、图片、解说等功能。

02 技术路径与产品体验

AI科技评论:你们现在主要使用哪些模型?国内外模型使用的差异性在哪里?

冯雷:我们主要用海外的原生多模态模型。比如把PDF或Youtube视频直接“洗”成一篇高质量的播客稿件,这需要极强的长窗口和多模态理解力。

我们也会用到一些国内的模型,比如Qwen、Minimax、字节(豆包)在中文处理上都不错。但问题出在英文和多语言上。因为我们要出海,服务海外用户和海外华人,所以必须依赖海外模型。

AI科技评论:产品最主要的技术指标是什么?是声音还原度还是文本流畅?

冯雷:分几块:文本方面希望像真人一样,没有太多"AI味";声音方面越自然越好,保持播客轻松的状态;图片方面要给用户足够信息量,同时精美并符合用户要求。

AI科技评论:让AI"没有人味"是通过提示词工程实现的吗?

冯雷:整体是一套标准的"上下文工程"。前置处理包括各种输入(YouTube、PDF等),基于讲解场景整理核心信息,然后按照播客场景处理。分两步:一是搭架构(像建房搭结构),二是润色表达(像装修和外墙),最终形成好内容:第一,要有信息量、有干货知识性;第二,表达要吸引人,能让人听完(比如3分钟完播率),内容再好没人听也不行;第三,要有内在逻辑,让人听完能改变行为。对创作者来说,还需要节奏、韵律,让粉丝听完想听下一个,这三者要结合。

03 商业模式与创业思考

AI科技评论:现在市场上有做“套壳”集成的(如Manus),也有自研模型的,这两种模式怎么看?

冯雷:如果钱足够,还是会训模型。模型公司追求更高的上限,比如Coding是个大市场,只有自己训模型,在大规模用户下利润率才算得过来。应用公司调用API(如Claude)其实很难有高利润,大部分收入都交给模型厂商了(像交税一样)。

AI科技评论:既然模型成本这么高,前两年说的“模型降价”似乎没有给应用公司带来特别大的成本空间?

冯雷:这可能是去年大家最大的错误判断。 降价发生在模型能力到达阈值之前,那时候模型没那么有用,只能靠降价扩张,或者像OpenAI这样追求超高速覆盖率。但一旦突破阈值(如谷歌的图片模型,一块钱一张图,很贵,不降价都供不应求),顶级模型就变成了商品。

AI科技评论:所以现在做应用必然烧钱?

冯雷:会烧钱,但要合理地烧。不能像互联网时代那样免费换规模。AI时代没有网络效应,必须建立健康的经济模型。

AI科技评论:公司目前融资进展如何?资金可支撑多久?

冯雷:正在推进新一轮融资,上一轮天际投完之后估值达到约2000万美元。Q4 ARR增至300万美元,本轮按5000万美元估值进行融资,年底目标估值1亿美元。

当前资金可支撑两年以上。下一轮融资完成后可支撑五年。

AI科技评论:创业公司资金有限,如何控制成本?

冯雷:主要成本在Token上。我们设定规则:任何创业项目初始预算为1000美元Token费用。若上线一天内耗尽,说明项目有潜力,公司追加投资;若项目走红但成本可控,也不会造成损失。以预算作为约束机制,核心目标是ARR。

该机制自去年10月"任务酒馆"改革后实行。任务公开发布,成员自主认领,独立完成从开发到验证的全流程,预算内API费用实报实销。

但尝试也需要主线和方向。我们的主线是帮助人表达——通过多模态技术增强表达能力。技术与人文结合,目标人群明确(创作者、学生、教师),在此范围内可自由尝试,但需避免偏离核心(如短剧属于表演而非表达,不在范围内)。

04 AI时代的产品方法论

AI科技评论:如果中厂、大厂把TPMF做得很好,纯做PMF的公司会受到冲击吗?

冯雷:训模型的公司普遍开放API,因其自有场景不足,需要用数据持续优化模型。模型公司与我们合作时也会协助微调模型,目标同样是提升模型能力。因此在这一层面,双方利益一致——场景上各取所需,ROI不同,但都希望用数据让模型更强。若模型公司真能覆盖所有场景,便不会开放API。

AI科技评论:AI时代做产品,与过去寻找PMF有何不同?

冯雷:完全不同。过去需求与技术相对确定,产品只需找到连接点,固化workflow,发现盈利路径后迅速规模化,借助网络效应扩张。

AI时代则相反:用户场景与模型训练者的预设往往不一致,因此产品、运营、增长都无法先设定明确目标。例如马卡龙初期专注写作,但模型能力未达预期,方向错误只能放弃。

逻辑是倒置的:先构建通用技术,投入市场验证,发现匹配场景(如PPT高频且有价值),再针对性完善工程。这类似于"拿锤子找钉子",虽反常识,但通用技术确能找到适配场景。因此我们倾向招募3年以内经验的产品经理,资深者反而易受旧有方法论束缚。

AI科技评论:在MiniMax时的产品思路与现在一致吗?

冯雷:当时尚处Chatbot早期,产品目标是服务模型迭代——获取数据、构建飞轮、提升模型能力,不关注产品数据或营收,只追求技术上限。

当前环境对产品经理挑战更大:技术变量不由产品主导,因此需摒弃 ego。我们公司工程师地位很高,拥有充分决策权。我不会以15年产品经验自居进行指导,而是聚焦目标设定。目标选择至关重要——DAU目标会导致团队动作变形,ARR 目标在前两年都更有效,因其倒逼真实增长与付费转化。

我们正培养工程师的端到端能力:从用户需求验证(工程师直接参与用户社群)、商业模式设计到产品上架,全流程参与。将产品经理培养成全栈成本过高,而将工程师培养成具备产品决策能力的全栈人才更具性价比,这是我们的核心方法论。

AI科技评论:公司当前主线是什么?是否会涉足数字人和陪伴类产品?

冯雷:数字人和陪伴类暂不涉及。完成现有表达类产品后,我们认为智能表达已较为成熟。长期目标是构建Agent——本质上是模拟完整的人。除表达外,还需具备思考能力、意图理解能力和执行能力。表达能力已夯实,现正推进完整Agent的研发。

内部从去年8月开始就已经在开发一款语音交互驱动的桌面 Personal Agent产品,支持语音对话,长期记忆,控制电脑,使用网络。我们将 ListenHub 里积累的真人感的表达理念和技术积累注入到全新的 Agent产品中,力图打造出第一个具有真人感的 Agent。