打开网易新闻 查看精彩图片

手游公司每月跑几十个实验,分析团队却还在用Excel拼报表。Sega HARDlight的数据负责人发现,同一份数据,三个分析师能算出三种结论。这不是能力问题,是工具问题。

2023年,他们决定把A/B测试分析搬到Databricks上。结果实验容量翻倍,没招一个人。更意外的是,那些从不看数据的产品经理,开始每天刷实验状态了。

从"各显神通"到"一条流水线"

从"各显神通"到"一条流水线"

HARDlight的问题很典型。实验数据散落在不同系统,分析师各自写脚本,统计方法也不统一。有人用95%置信区间,有人用90%;有人看7天留存,有人非要等14天。同样的实验,结论取决于谁做的分析。

这种混乱直接伤害信任。产品经理觉得"数据可以随便说",数据团队疲于解释口径,决策越来越凭直觉。HARDlight的数据负责人回忆,曾有实验上线三天后才发现样本量计算错误,整组数据作废。

他们需要的不是更快的分析师,是一套"无人值守"的基础设施。实验数据自动流进来,统计模型统一跑,结果分层展示给不同角色的人看。Databricks的湖仓架构成了底座,但真正的设计挑战在流程:怎么让非技术同事也能看懂,又不牺牲严谨性?

最终架构分成三层:标准化接入层做数据清洗,统计建模层跑推断逻辑,AI/BI展示层按角色推送信息。关键设计是"渐进式披露"——最上面一层用LLM(大语言模型)生成每日摘要,往下钻才是原始指标、诊断图表、行动建议。

这套系统上线后,实验分析从"人等项目"变成"项目等人"。数据工程师不再被临时需求打断,分析师专注设计更复杂的实验,产品经理自己就能盯进度。

LLM摘要:让数据"说人话"的实验

LLM摘要:让数据"说人话"的实验

HARDlight给每天刷实验状态的人做了一个大胆尝试:用LLM自动生成自然语言摘要。不是替代分析,是降低门槛。

摘要模板很克制。系统只陈述事实:"实验A运行第5天,核心指标无显著变化,样本量达成率67%,建议继续观察。"没有形容词,不预测结果,更不替人决策。但这对高层管理者足够用了——他们只需要知道"哪些实验需要我关注"。

想深挖的人往下点。第二层是KPI看板,展示留存、付费、时长等核心指标的置信区间。第三层开放原始诊断:样本分布是否均衡?指标方差是否异常?有没有早期偷看(peeking)的偏误?

这种分层设计解决了一个老问题:同一份数据,怎么同时服务"只想知道行不行"的老板和"必须知道为什么"的分析师。以前要做两份报告,现在一份动态视图搞定。

打开网易新闻 查看精彩图片

LLM摘要的准确性经过严格校验。HARDlight用历史实验数据做回测,确保模型不会 hallucinate(幻觉生成)统计结论。摘要只基于已计算好的指标,不做额外推断——这是条红线。

冻结机制:实验结束,记忆不消失

冻结机制:实验结束,记忆不消失

手游行业有个通病:实验做完,报告散佚。三个月后有人问"上次那个按钮颜色测试什么结论",没人答得上来。

HARDlight在系统里加了一个"冻结"功能。实验正式结束后,所有数据、代码版本、统计参数、业务上下文自动归档,生成不可篡改的记录。这不是为了审计,是为了积累组织记忆。

他们内部有个数字:2023年重复实验(因找不到历史结论而重新做的测试)减少了约40%。省下的不只是资源,是决策速度。新策划入职后,能直接检索过去两年的实验档案,快速理解"我们试过什么,学到了什么"。

冻结机制还有个意外收益。以前实验提前下线,往往是因为有人"感觉不对"而手动叫停。现在系统强制要求填写终止原因,并保留当时的全部中间数据。回头看,很多"感觉"其实没有统计支撑,这个发现改变了团队的决策文化。

2倍实验量背后的组织变革

2倍实验量背后的组织变革

技术架构只是 half of the story(故事的一半)。HARDlight真正的收获,是实验从"支持部门的支持职能"变成了产品流程的默认环节。

以前立项要论证"为什么做A/B测试",现在反过来,不做测试需要特别说明。这种转变不是靠行政命令,是靠工具降低了摩擦成本。产品经理在策划会上直接打开dashboard,当场看类似实验的历史效果,讨论质量明显提升。

数据团队的角色也变了。从"跑需求的乙方"变成"定义标准的平台方"。他们花更多时间设计实验模板、培训统计思维、优化推断算法,而不是反复回答"这个数怎么算的"。

有个细节很有意思。系统上线半年后,HARDlight发现实验提前终止率下降了,但实验周期反而缩短了。原因是团队更擅长设计最小可行测试(MVT),不再追求"大而全"的验证。这种精细化的能力,正是标准化基础设施释放出来的。

Sega HARDlight的案例没有用什么尖端技术。Databricks是成熟平台,LLM摘要用的是基础模型,统计方法也是教科书级别的。他们的创新在于流程设计:怎么让严谨的科学方法,以不同粒度触达组织里的每个人。

手游行业的A/B测试还在进化。当实验成本降到接近零,真正的瓶颈会变成"我们有没有足够的好假设值得验证"——这个问题,工具帮不了忙。