Sega把A/B测试做成流水线，2倍实验量却不加人|a/b测试|sega|实验|算法|自然语言

手游公司每月跑几十个实验，分析团队却还在用Excel拼报表。Sega HARDlight的数据负责人发现，同一份数据，三个分析师能算出三种结论。这不是能力问题，是工具问题。

2023年，他们决定把A/B测试分析搬到Databricks上。结果实验容量翻倍，没招一个人。更意外的是，那些从不看数据的产品经理，开始每天刷实验状态了。

从"各显神通"到"一条流水线"

HARDlight的问题很典型。实验数据散落在不同系统，分析师各自写脚本，统计方法也不统一。有人用95%置信区间，有人用90%；有人看7天留存，有人非要等14天。同样的实验，结论取决于谁做的分析。

这种混乱直接伤害信任。产品经理觉得"数据可以随便说"，数据团队疲于解释口径，决策越来越凭直觉。HARDlight的数据负责人回忆，曾有实验上线三天后才发现样本量计算错误，整组数据作废。

他们需要的不是更快的分析师，是一套"无人值守"的基础设施。实验数据自动流进来，统计模型统一跑，结果分层展示给不同角色的人看。Databricks的湖仓架构成了底座，但真正的设计挑战在流程：怎么让非技术同事也能看懂，又不牺牲严谨性？

最终架构分成三层：标准化接入层做数据清洗，统计建模层跑推断逻辑，AI/BI展示层按角色推送信息。关键设计是"渐进式披露"——最上面一层用LLM（大语言模型）生成每日摘要，往下钻才是原始指标、诊断图表、行动建议。

这套系统上线后，实验分析从"人等项目"变成"项目等人"。数据工程师不再被临时需求打断，分析师专注设计更复杂的实验，产品经理自己就能盯进度。

LLM摘要：让数据"说人话"的实验

HARDlight给每天刷实验状态的人做了一个大胆尝试：用LLM自动生成自然语言摘要。不是替代分析，是降低门槛。

摘要模板很克制。系统只陈述事实："实验A运行第5天，核心指标无显著变化，样本量达成率67%，建议继续观察。"没有形容词，不预测结果，更不替人决策。但这对高层管理者足够用了——他们只需要知道"哪些实验需要我关注"。

想深挖的人往下点。第二层是KPI看板，展示留存、付费、时长等核心指标的置信区间。第三层开放原始诊断：样本分布是否均衡？指标方差是否异常？有没有早期偷看（peeking）的偏误？

这种分层设计解决了一个老问题：同一份数据，怎么同时服务"只想知道行不行"的老板和"必须知道为什么"的分析师。以前要做两份报告，现在一份动态视图搞定。

LLM摘要的准确性经过严格校验。HARDlight用历史实验数据做回测，确保模型不会 hallucinate（幻觉生成）统计结论。摘要只基于已计算好的指标，不做额外推断——这是条红线。

冻结机制：实验结束，记忆不消失

手游行业有个通病：实验做完，报告散佚。三个月后有人问"上次那个按钮颜色测试什么结论"，没人答得上来。

HARDlight在系统里加了一个"冻结"功能。实验正式结束后，所有数据、代码版本、统计参数、业务上下文自动归档，生成不可篡改的记录。这不是为了审计，是为了积累组织记忆。

他们内部有个数字：2023年重复实验（因找不到历史结论而重新做的测试）减少了约40%。省下的不只是资源，是决策速度。新策划入职后，能直接检索过去两年的实验档案，快速理解"我们试过什么，学到了什么"。

冻结机制还有个意外收益。以前实验提前下线，往往是因为有人"感觉不对"而手动叫停。现在系统强制要求填写终止原因，并保留当时的全部中间数据。回头看，很多"感觉"其实没有统计支撑，这个发现改变了团队的决策文化。

2倍实验量背后的组织变革

技术架构只是 half of the story（故事的一半）。HARDlight真正的收获，是实验从"支持部门的支持职能"变成了产品流程的默认环节。

以前立项要论证"为什么做A/B测试"，现在反过来，不做测试需要特别说明。这种转变不是靠行政命令，是靠工具降低了摩擦成本。产品经理在策划会上直接打开dashboard，当场看类似实验的历史效果，讨论质量明显提升。

数据团队的角色也变了。从"跑需求的乙方"变成"定义标准的平台方"。他们花更多时间设计实验模板、培训统计思维、优化推断算法，而不是反复回答"这个数怎么算的"。

有个细节很有意思。系统上线半年后，HARDlight发现实验提前终止率下降了，但实验周期反而缩短了。原因是团队更擅长设计最小可行测试（MVT），不再追求"大而全"的验证。这种精细化的能力，正是标准化基础设施释放出来的。

Sega HARDlight的案例没有用什么尖端技术。Databricks是成熟平台，LLM摘要用的是基础模型，统计方法也是教科书级别的。他们的创新在于流程设计：怎么让严谨的科学方法，以不同粒度触达组织里的每个人。

手游行业的A/B测试还在进化。当实验成本降到接近零，真正的瓶颈会变成"我们有没有足够的好假设值得验证"——这个问题，工具帮不了忙。

Sega把A/B测试做成流水线，2倍实验量却不加人

从"各显神通"到"一条流水线"

LLM摘要：让数据"说人话"的实验

冻结机制：实验结束，记忆不消失

2倍实验量背后的组织变革

热搜

热门跟贴

从"各显神通"到"一条流水线"

LLM摘要：让数据"说人话"的实验

冻结机制：实验结束，记忆不消失

2倍实验量背后的组织变革

热搜

热门跟贴

相关推荐

VLMgineer让大模型自己「发明工具」，从设计到使用全自动

有趣的纸板电路科学小实验

Nature 连发 2 篇文章，就中科院分区停更发表评论

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

算法监工：看不见的上司如何重塑工作

明星晒娃流量密码：一场理发为何值百万曝光

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

广西平陆运河建240米动物通道桥，供豹猫等动物通行

拒绝“出厂即巅峰”！具身训练系统再进化：LWD让机器人自主开启“打怪练级”

Karpathy：很多App就不该出生,人类护城河只剩理解,CPU将沦为配角

海南医科大学基础医学院与国际教育学院联合举办第47个世界实验动物日活动

上海医保新政落地！5月起配药这部分费用提高了

天柱山景区“摆渡车问题”被点名后，记者实探

都是车！第一批离深“大聪明”已堵路上

导游称大熊猫“花花”是残疾，旅行社致歉

Excel里的AI幻觉：Copilot治不了你的烂数据

Excel突然算错三分之一：用户自创"分钟转小时"公式

全球新闻自由跌至冰点，科技巨头成了新推手

大国重器集体亮相！人民海军成功配齐“航母五件套”

28178人！中冠联赛单场观众纪录在江苏常州诞生