每次NFL比赛的每一次对抗都会产生大量的物理数据。22名球员在几分之一秒内加速、碰撞并改变方向,而橄榄球则在有序的混乱中划出一道轨迹。
然而在这项运动的大部分历史中,许多复杂性都未被测量。NFL新一代数据分析系统的研究与分析高级经理Mike Band说:"橄榄球在100多年里一直是一项依赖基础数据的运动:你有码数、达阵、擒抱......"
这些数字只能捕捉到球场上实际发生事情的一小部分。教练们反复观看比赛录像并做出有根据的猜测。球迷们在看台和沙发上争论不休。裁判偶尔会根据部分甚至受阻的视野做出主观判断。NFL橄榄球数据与分析高级总监Mike Lopez说:"看着基础数据统计,你甚至不知道某次进攻中哪22名球员在场上。"
2015年,NFL决定通过推出新一代数据分析系统来扩展基础数据统计。RFID芯片被植入每套护肩垫和橄榄球内部,每个体育场周围安装了20多个超宽带接收器。该系统开始流式传输所有22名球员的坐标(每秒10次)和球的坐标(每秒25次)。NFL首次捕获到每次进攻每个时刻的全面球员位置数据,精确到几英寸。
起初,每个俱乐部只能访问自己的追踪数据。这种情况在2018年发生了变化,当时各球队获得了全联盟范围的访问权限,让教练、球探和分析师站在了共同的分析基础上。同年,联盟正式深化了与AWS的合作关系,标志着新一代数据分析系统开始从追踪实验逐步转变为NFL的关键基础设施,实时转播只是其最显而易见的表现形式。
如今,新一代数据分析系统支撑着整个联盟的决策制定,从俱乐部如何评估球员和设计比赛计划,到NFL如何研究裁判判罚、球员安全和规则变更。每支球队以及联盟的大部分工作现在都依赖于同一个不断扩展的数据支柱。
但它的开始很简单,Band说:"我们早期的指标是容易获得的成果——球员分离度、速度和传球时间——很容易从我们拥有的数据中得出。对更复杂的比赛指标建模需要更多努力,这就是AWS介入的地方。"
该合作在2018年提供的第一个复杂统计数据是完成概率。它被设计用来回答一个简单的问题:传球的难度可以量化吗?
答案部分来自托管在亚马逊SageMaker平台上的XGBoost机器学习模型。它融合了影响传球结果的因素,从四分卫压力到传球深度、接球手分离度和边线距离。该模型返回一个单一的百分比,既捕捉了可能性又反映了难度。Band说:"这成为我们进入机器学习的切入点。"
除了SageMaker,NFL的分析工作已经扩展到AWS工具的广泛套件。Lopez说,联盟橄榄球数据分析小组的成员"称自己为AWS商店"。到2018年,随着全联盟访问权限的到位和AWS的机器学习管道运行,新一代数据分析系统开始照亮整个运动中更深层次的问题。
每场NFL比赛都会产生数百万个原始追踪数据点,但原始数据流只是基础。真正的数据增长来自将坐标转换为可用橄榄球洞察的模型。例如,压力概率估计防守球员在传球冲锋的每个时刻影响四分卫的可能性,并产生十几个次级指标。
Band估计,新一代数据分析系统现在每次进攻产生500到1000个统计数据。保持系统响应性依赖于AWS基础设施来接收数据流、运行模型、在几秒钟内为球队和广播公司返回结果,并存储更广泛的数据宝库以进行更深入的分析。
大数据碗竞赛激发外部创新
那种更深入分析的根源可以追溯到2018年的首届大数据碗竞赛。在Lopez的领导下,它成为联盟首次大规模向外部研究人员开放球员追踪数据的努力,邀请他们解决诸如哪些防守球员最有效地缩小空间或如何预测传球后球员移动等问题。
作为一个持续数月的黑客马拉松,这项年度竞赛挑战参与者在历史追踪数据上训练机器学习模型,并测试其对未见进攻的泛化能力。重点越来越多地放在预测上——可以预测接下来会发生什么的模型。
一个早期的成功是2020年开发的超预期冲球码数。该指标衡量实际获得的码数与预期冲球码数之间的差异,或者考虑到阻挡者和防守者的位置、速度和方向,联盟平均水平的球员在同样的冲球中预计会获得的码数。它有助于将某次冲球的强度以及跑卫在一场比赛或一个赛季中的表现进行背景化。
超预期冲球码数很快从大数据碗竞赛转移到全国转播。Lopez回忆起他第一次看到它出现的时刻,在2021年NFC锦标赛海盗队对阵包装工队的比赛中:"Leonard Fournette有一次很好的冲球,图表立即弹出显示他的超预期冲球码数。那是在我们获得获胜方案后不到10个月。"他补充道:"我给电视屏幕拍了照,同事们也在给我发他们的照片。那是一个骄傲的时刻。"
这条管道已经将大数据碗竞赛变成了想法和数据科学人才的试验场。在其第一个十年中,大数据碗竞赛已成为联盟分析生态系统的核心部分。正如时任新奥尔良圣徒队教练Sean Payton在2015年关于边线实时数据崛起的俏皮话:"我认为这意味着将有更多的MIT毕业生执教。"
先进模型将追踪数据转化为战术洞察
在过去十年中,新一代数据分析系统已发展成为一个包含75多个机器学习模型的组合,涵盖进攻、防守、特殊球队和比赛策略。其中,擒抱概率和防守警报可能最好地说明了如何将原始追踪数据转换为更清晰的球队、广播公司和球迷洞察。
擒抱概率估计防守球员在接触时完成擒抱的可能性,考虑速度、角度、距离、杠杆和追击。该数据允许新一代数据分析系统识别真正的擒抱机会、量化错失的擒抱,并计算防守球员节省或让步的码数。
防守警报评估开球前的防守阵型和移动,以预测哪些球员可能会冲锋。该模型使用加速模式和开球前的移动,将它们与诸如第几档、距离和比赛状态等情境背景相结合,然后应用生成式AI预测可能的冲锋者,他们会被红色圆圈突出显示给观众。
AWS首席体育顾问Dashiell Flynn说:"从转播角度来看,防守警报产生了很大影响。"他强调了该模型如何暴露故意的误导:"有时预测是错误的,因为防守本身在使用误导,试图欺骗进攻以为闪电战即将到来。"这些时刻为比赛解说员提供了一种自然的方式来讨论伪装的防守压力及其背后的意图。
这些指标共同展示了新一代数据分析系统模型如何将快速、模糊的时刻转化为清晰的视觉和战术解释。
追踪数据推动球员安全改进
推动性能分析的同一个追踪基础也让联盟对球员安全有了更清晰的了解。通过捕捉每个球员的速度、间距和移动,它为联盟提供了对长期被认为有风险的比赛动态的具体理解。
2024赛季引入的新动态开球就是一个明确的例子。开球产生了太多危险的高速碰撞。新一代数据分析系统帮助量化并最终改变了这一点。
Lopez说:"前一个赛季,我们展示了新一代数据分析系统的球员空间和相对速度的动画,该分析成为规则变更的关键部分。"
NFL竞赛委员会测试了替代阵型,并确定了一种既减少高速接触又不消除竞争元素的设计。两个赛季的数据显示动态开球正在发挥作用:2025年的回球率跃升至75%(2024年为32%),即使增加了1157次进攻,下肢受伤减少了35%,而脑震荡率仍低于旧的开球形式。这一变化既带来了更多动作又减少了受伤。
光学追踪带来三维姿态估计
下一个重大进展的基础设施——光学追踪——已经嵌入每个NFL场馆。该系统不仅记录球员的二维位置,还使用4K摄像机捕捉关键关节(如肩膀、肘部、膝盖、臀部和手)的完整三维位置。
结果是姿态估计,为每次进攻的每个球员提供数字骨骼模型。本赛季标志着联盟首次在每场比赛中实现Band所说的"完全安装、完全捕捉",尽管数据仍保持内部状态,等待验证、结构化和存储以供将来使用。
对于新一代数据分析系统团队来说,姿态估计在正确的时刻到来。Band说,十年的二维追踪加深了对比赛的理解,"但这种新的骨骼数据将解锁下一个层次。这是一个拐点。"
数据捕获的规模值得停下来思考。标准位置追踪每秒为每个球员收集10次单一的x,y坐标。光学追踪从16个角度捕捉高分辨率视频,以每秒60次的频率为每个球员的29个身体部位导出x,y,z坐标。Flynn说:"数据量的爆炸可能令人生畏。但一旦人们理解了它,想法就会很快涌现。"
光学追踪背后的管道分三个阶段运行:本地捕获、现场处理和云分析。来自4K摄像机的高带宽视频无法足够快地发送到云端,因此每个体育场都托管AWS服务器,在大约700毫秒内处理数据。然后将处理过的简化数据发送到云端,机器学习模型在不到100毫秒内运行并将分析返回给制作团队。这使整个捕获到分析的管道保持在一秒以下。由于周四夜间橄榄球等转播以大约两秒的延迟运行,因此从这些新数据得出的新一代数据分析可以在进攻在屏幕上展开时有效地实时提供。
姿态数据的承诺在于它为橄榄球的几何形状增加的细节。Lopez说,它还解决了二维数据无法解决的歧义。"在传球进攻中,我们现在可以使用RFID数据看到球经过球员,但我们不知道它是从他们的腿之间滚过还是飞过他们头顶20码。"
最终目标是一个混合系统,使用RFID识别每个球员的重心,并将其与完整的骨骼数据结合起来,当球员从摄像机视野中相互遮挡时,算法会填补空白。
姿态追踪还将解锁一种新的训练环境。四分卫可以使用VR头盔面对虚拟的传球冲锋,该冲锋完全按照球场上的方式展开。Flynn说:"你看到那些前锋冲向你,并学会在额外的半秒钟内将眼睛保持在球场下方。"
这种现实主义使安全训练和纠正让年轻四分卫陷入困境的习惯成为可能,同时也帮助他们在口袋中更快地做出决策。Flynn说:"Josh Allen花了几个赛季才成为Josh Allen。也许这可以在半年而不是三年内发生。"
新一代数据分析系统演变的每个阶段都让联盟更接近于建模比赛的基础机制,而不仅仅是其结果。随着这些能力的融合,更广泛的转变变得更加清晰。在扩展基础数据统计十年后,NFL与AWS的合作已从追踪实验演变为更接近这项运动的神经系统的东西。通过将橄榄球专业知识与可扩展的云基础设施相结合,新一代数据分析系统继续塑造比赛的进行、执教和理解方式。
但归根结底,正是橄榄球的微妙深度吸引着人们。Band说:"这就像量子物理学。你可以尽可能地放大,每个尺度的变化都会揭示一些新东西。球场上到处都在发生比赛中的比赛。"事实证明,照亮这项运动的复杂机制并不会破坏魔力,只会加深敬畏。
Q&A
Q1:NFL新一代数据分析系统是什么时候推出的?它如何采集数据?
A:NFL新一代数据分析系统于2015年推出。系统在每套护肩垫和橄榄球内植入RFID芯片,并在每个体育场周围安装20多个超宽带接收器。系统每秒10次流式传输所有22名球员的坐标,每秒25次传输球的坐标,位置数据精确到几英寸。
Q2:超预期冲球码数这个指标是如何工作的?
A:超预期冲球码数指标于2020年通过大数据碗竞赛开发。它衡量实际获得的码数与预期冲球码数之间的差异,预期码数是根据阻挡者和防守者的位置、速度和方向,计算联盟平均水平球员在同样冲球中预计会获得的码数。该指标帮助评估单次冲球强度以及跑卫的整体表现。
Q3:光学追踪技术与传统位置追踪有什么区别?
A:传统位置追踪每秒为每个球员收集10次二维x,y坐标,而光学追踪使用4K摄像机从16个角度捕捉视频,以每秒60次的频率为每个球员的29个身体部位导出三维x,y,z坐标。光学追踪能够创建数字骨骼模型,提供更详细的姿态估计数据,解决二维数据无法解决的许多歧义问题。
热门跟贴