文丨李海伦 王艳
编辑丨徐青阳
“一个朋友让OpenClaw(俗称‘龙虾’)每天批量给主播打赏,还私信聊天互动,最终竟然成功把人约到线下见面,全程都是AI操作……”
近期,脱口秀演员李诞在社交平台上分享了朋友“养龙虾”的一个反面案例,戏谑之余不禁让人感慨:AI盛行的时代,社交信息造假的成本之低令人咋舌。
这也是当前主流社交产品绕不开的痛点:当照片可以P、标签可以造假,甚至交流都可以AI代聊时,线上社交的真实感还剩多少?
这一困境促使部分开发者开始探索新思路:能否绕过用户的主观陈述,直接从行为本身读取性格信息?语音,正成为这个方向上被关注的切入点。
一些新兴产品开始尝试这条路径。比如主打年轻用户的社交应用“森森”,试图通过游戏场景中的语音互动来捕捉用户的真实状态,再借助AI分析语音特征生成性格画像。这种“用行为说话”而非“用资料说话”的逻辑,某种程度上回应了传统社交产品面临的信任危机。
当然,这类尝试能否真正解决“人设造假”的问题,还有待市场和用户的长期检验。但至少它提出了一个值得思考的方向:在AI让伪装变得越来越容易的时代,或许真正的突破口,恰恰在于那些难以伪装的东西。
01 打破传统社交的“人设困境”
语音社交并不是一个新概念。
2021年初,语音社交应用Clubhouse在硅谷爆红,马斯克的一场直播聊天将其推向舆论顶峰,估值曾一度飙升至40亿美元。但根据Sensor Tower的数据,Clubhouse在2月爆红当月下载量为960万次,到了4月却仅有92万,暴跌90%。 即便后来取消邀请制、推出安卓版本,也未能挽回颓势。
Clubhouse的快速衰落被归结为几个原因:实时音频虽然新鲜,但需要用户同步在线,难以形成持续的使用习惯; 竞争对手复制功能的速度极快,Twitter、Facebook等巨头在几个月内就推出了类似的语音房间功能;更关键的是,当社交红利用尽,没有持续迭代的内容生态就无法让用户反复回归。
与之形成对比的是Discord。这款最初为游戏玩家设计的语音工具,数据显示,2025年其全球月活用户已高达2.31亿。Discord的成功在于它提供了一个“第三空间”,用户可以像走进咖啡厅一样随意加入语音频道,没有粉丝数、没有算法,强调的是社区感和参与感。
这些案例揭示了语音社交的核心矛盾:语音是一种“重”的社交方式,需要实时在线、需要开口说话、需要持续投入注意力。如何降低用户的参与门槛,同时保持足够的互动深度,是所有语音社交产品都要面对的难题。
从产品发展脉络来看,国内社交产品的匹配机制大致经历了几次迭代:
00年代初:以QQ、MSN、人人网等产品为代表的熟人关系链匹配,依赖手动添加与通讯录导入;
2010年–2013年:以“微信附近的人”、陌陌等产品为代表的地理位置匹配,开启陌生人社交的“附近化”时代;
2014–2017年:以探探、Tinder等为代表的颜值匹配,用户对着照片左滑右滑、双向喜欢才能配对;
2018年开始,以Soul等产品为代表的标签匹配,弱化颜值与位置,转向标签、人格测试、算法推荐,解决“聊不聊得来”的问题,追求精神同频。
社交产品的匹配逻辑仍在继续演变。随着AI工具的普及,图文信息的伪造成本越来越低,前文提到的OpenClaw案例只是冰山一角。当照片、标签甚至聊天内容都可以批量生成,传统的匹配依据正在失效。
因此,一个新的方向开始浮现:与其依赖用户的自我陈述,不如捕捉那些更难伪装的信号。AI语音的形式,正是其中之一。例如森森等新一代社交产品,正在尝试这条路径。它们基于实时语音互动、情绪波动、场景行为进行AI建模与匹配优化,试图绕过精心包装的人设,回归用户的真实性格。
02 AI如何从声音中“听”出性格
森森CEO李哲羽指出,当下的社交产品,如果用标签匹配会存在一个难以回避的内在缺陷:用户为了获得更高质量的匹配,会主动美化人设标签,而非真实自我。结果就是平台会将两个精心包装过的理想形象进行匹配,用户体验大打折扣。
通过结合AI语音分析应用于游戏,有其内在独有的场景逻辑。游戏,尤其是多人语音游戏,天然具备两个关键特质:首先,用户处于放松和投入的状态,自我审查意识降低,语音行为更接近真实性格的自然流露;其二,游戏过程中的情绪波动丰富且强烈,比如激动、慌张、愤怒、开心等这些高情绪密度的数据,恰恰是训练声调模型中最有价值的。
基于这一判断,森森尝试换一种思路:与其让用户填写“我是什么样的人”,不如通过语音互动来观察“你实际表现得像什么样的人”。
森森的核心玩法强调“轻游戏、重语音”,用户捏制专属3D虚拟形象后进入派对房间,房间支持听歌、聊八卦、情感电台、破冰游戏等多元场景,所有场景都以实时语音互动为核心驱动,而声音里,正藏着用户最真实的“人格信号”。
森森还设计了一系列以语音为核心的派对游戏,比如类似“谁是卧底”、“骗子酒馆”等这类需要玩家开口说话、彼此互动的玩法。在游戏过程中,AI引擎会同时捕捉两类信号:一是语言信号,即用户说了什么,通过语音转文字提取语义内容;二是声学信号,即用户怎么说,包括音调、语速、停顿节奏、音量变化等。
后者是这套系统的关键所在。李哲羽表示,用户可以控制自己说什么,甚至可以控制情绪表达,但很难同时控制语速、停顿和音量变化这些细节。比如人在紧张或刻意表演时,声调往往会不自觉上扬;而在放松或沉思时,语速和音调则自然下降。这些声学特征更难伪装,也更接近用户的真实状态。
实际体验中,当用户开麦说出第一句话(约10至15个字)后,系统就会根据语调、声音特征和说话节奏生成初始性格标签。此后标签以秒级为单位实时更新,几分钟的有效语音数据即可形成初步画像。
如果在使用过程中,用户故意改变说话方式,以“树立人设”,或者某天心情很差、言辞激烈,导致出现单次异常数据。李哲羽表示,针对这种情况森森会通过两个机制来缓解:一是多维交叉验证。用户或许能控制自己说什么,但很难同时控制语速、音量和停顿节奏,几个维度对不上,伪装就容易露馅;二是渐进式更新。单次数据只会让标签小幅移动,不会一下子推翻整个判定。即使出现异常偏差,也会在后续的持续使用中逐步修正回来。
换句话说,系统看的是你的长期行为模式,而非某一次的“即兴表演”。
03 声音里“藏着”的用户画像
当AI能够读懂玩家的性格,下一个问题随之而来:什么样的人放在一起,才能产生最好的社交体验?
对于从未开过麦的新用户,系统会先引导其填写类似MBTI的性格标签作为初始参考。但一旦用户开麦说出第一句话(约10至15个字),系统就会根据语调、声音特征和说话节奏,立刻生成一个初始性格标签。
李哲羽说,虽然MBTI近年来非常流行,但从科学角度来看缺乏严谨性,因此森森的匹配依据重点参考的是学术界公认的大五人格体系(Big Five Personality Traits)。通过对用户在外倾性、主导性、趋同性、开放性、尽责性五个维度上分别打出0到100的连续分值,再基于多维度的兼容性算法进行动态匹配。
这套匹配逻辑的核心是“找合得来的人”,其中也有不少“讲究”和策略。李哲羽举了几个例子:对话主导性极强的用户,每个房间最多分配一个,否则容易出现“抢麦”冲突;幽默感高的用户兼容性强,可以与几乎任何性格搭配;外向型用户过多集中会导致气氛嘈杂,因此需要动态调配。甚至对于言辞带有攻击性的用户,算法也不会简单封号,而是将他们匹配到一起,用行为引导替代惩罚机制。
森森官方表示,这种匹配模式也带来明显的增益效果,AI匹配系统上线后,用户在单个房间的平均停留时长从12分钟提升至34分钟,用户留存率和复访率也随之增长。在用户调研中,绝大多数用户对匹配结果持正向态度,主动关闭匹配系统的用户比例不足10%。
在积累了大量用户数据后,森森团队也发现了一些有趣的跨文化差异。李哲羽透露,通过数据对比,中美用户在语音社交中的行为模式呈现出明显反差。
比如在美国的用户,进入语音房间后,会发起闲聊(small talk)的频率比国内高出约60%至70%,比如会夸对方头像好看、聊当天穿搭等。美国用户倾向于“先社交、再游戏”,希望先聊几句确认对方是否合得来,再决定是否一起玩。
而国内用户则正好相反,更倾向于“先游戏、再筛选”。通过游戏过程中自然产生的互动来判断彼此是否合适。此外,在语音参与度上,国内房间每位用户的发言相对均衡;而在美国,往往会出现一两个“领头人”主导大部分对话,其他人则跟随其话题或指令。
这类差异也直接影响了产品策略。李哲羽表示,虽然中美两个版本使用相同的底层框架,但两套AI系统的数据库完全独立,不会混合训练。不同地区用户的说话习惯、语言表达方式和社交文化存在本质差异,模型需要根据当地用户的真实数据独立调优。
不过,这些数据的背后,折射出的是不同文化语境下年轻人的共同社交期待。李哲羽说:“无论是‘先聊再玩’还是‘先玩再筛’,有一点是共通的:当下的社会尤其是Z世代等年轻人群体,正在寻找一种更轻松、更即时的社交方式”。
04 Z世代的社交逻辑:游戏化社交成新趋势
当下,年轻人群体的社交方式正在发生的一个新变化:社交与游戏的边界正在消融。
根据GWI与《金融时报》联合发布的《2025年社交媒体报告》指出,与2014年相比,以“维系友谊或结识新朋友”为目的使用社交媒体的用户比例下降超过25%。但这并不意味着年轻人不再需要社交,只是传统社交方式的“成本”正在变得难以承受,维护人设、经营关系、回复消息,都需要持续的情绪投入。
以法国社交平台BeReal、Zenly为例,它们通过每日限时自拍挑战、出行距离排行榜、勋章奖励等设计,将日常分享转化为轻量化的互动任务,为社交增添了游戏属性。
这种以共同体验为核心的连接方式,恰好契合了Z世代对“低负担社交”的需求:不需要精心维护人设,不需要持续经营关系,只需要在当下这一刻一起玩、一起说话。
森森的产品设计延续了这一思路。在游戏选择上,避开竞技类玩法,转而采用轻松好玩的派对游戏。用户之间没有输赢压力,但需要频繁开口、即时反应。“竞技游戏容易让用户进入‘表演模式’,派对游戏的随机性和社交属性,更容易让人在不经意间暴露真实的表达习惯”,李哲羽说。
这种产品设计思路还带来了另一个优势:快速迭代的可能性。当一种新的派对游戏形式在短视频平台或社交媒体上走红,开发团队可以迅速在短期内完成数字化转化并上架,保持对当下社交趣味的敏锐跟踪。相比之下,重度游戏的开发周期以月乃至年为单位,难以复制这种灵活性。
当然,语音社交赛道的探索也有需要面对的挑战和难题。
首先是商业化路径方面。这类产品的核心指标往往聚焦于用户增长和留存,但如何将用户规模转化为可持续的收入模式,仍是行业共同面临的难题。
目前来看,线下场景联动是一个可能的方向。森森正在与华润、万达等商业地产合作,计划将IP和玩法搬到线下,结合品牌联名开展体验活动。
其次是隐私与技术伦理的边界。语音数据比文字更敏感,用户对“被AI分析”天然存在顾虑。
李哲羽表示,森森目前不长期保留用户的实际录音,只提取声调和性格特征作为标签使用,原始音频不做留存,随着平台规模扩大,合规与法律层面的挑战也会相应增加。对于整个赛道而言,如何在数据利用与用户信任之间找到平衡,是一道绑定规模的必答题。
目前森森的用户大致分为两类:一类是熟人社交场景,把森森当作线下聚会时的“桌游启动器”,更看重破冰功能;另一类是线上陌生人匹配,希望通过平台找到能一起玩、一起聊的新朋友。后者开麦率更高,也是目前平台最活跃的核心用户群。
用户在游戏中产生的语音数据,既是社交互动的载体,也是AI匹配引擎的输入。这套“游戏产生语音、语音训练AI、AI优化匹配”的闭环,是森森试图建立的增长飞轮。
从公开数据来看,今年春节期间森森一度进入iOS社交榜前20,MAU突破260万。今年6月,森森还计划面向美国市场发布本地化版本GenSen。
05 AI语音技术的下一个边界
AI语音技术在游戏领域的想象空间,远不止于社交匹配。
李哲羽认为,语音AI技术的持续发展将为社交和游戏行业带来几个值得关注的变化:
一是NPC交互的升级。传统游戏中的NPC对话大多是预设脚本,玩家点击后触发固定台词,重复几次就失去新鲜感。而语音AI的发展正在改变这一点,NPC可以拥有长尾记忆,记住玩家上一次说过什么;可以拥有动态性格,根据玩家的态度调整自己的回应方式。每一次对话都可能是独一无二的体验,而非机械的重复。
二是语音互动的全面普及。00后、05后乃至10后用户,越来越不愿意在游戏中停下来打字。对他们而言,语音是更自然的交流方式,开口说话比敲键盘更快、更直接。这一代际习惯的转变,正在推动语音AI从“可选功能”变成“基础设施”。
三是行为匹配与社区治理。传统的社区管理依赖举报和封号,但这种方式往往滞后且生硬。语音AI提供了另一种可能:通过分析用户的语音行为数据,识别长期言辞恶劣的用户,并将其匹配到行为相似的群体中。这是一种“物以类聚”的引导机制,让社区生态在无形中完成自我净化。
这些方向,有些已经在小范围落地,有些还停留在实验阶段。但技术的演进方向已经逐渐清晰。
不过,无论技术如何发展,有一点或许不会改变。回到文章开头李诞分享的那个案例:AI可以代替用户打赏、私信、甚至约人见面,但始终AI只是作为底层工具,帮助匹配到真实契合的朋友。技术的价值,在于让真实的连接发生得更高效。
热门跟贴