在第一讲中,我探讨了Synergy(注1)关于进攻打法的数据分析(可以追溯到2004-05赛季)。对我而言,有两个大板块信息值得注意:
注1:一家美国篮球比赛数据分析公司
1. “持球”得分和“无球”得分的比例在整个时间段竟然几乎维持不变,47%到50%的半场进攻来自于持球打法—个人单打,背身靠打,或者依靠挡拆和手递手传球中的持球人。
2. 无球的结合打法相对比较稳定,尽管挡拆的掩护人在使用频率上有小幅增加,但是持球打法的分布情况却发生了极大的改变,单打和背打的比例减少了很多,而挡拆和手递手传球却被更多地采用。
在这一章,我想更多解析持球打法。
首先解释第一篇文章中提出的几个问题。在这种数据分析中一个持续存在的问题是,不管是什么数据类型,当分离了持球和无球进攻(或者被助攻和非助攻投篮,根据采集到的数据)以后,为什么球队不使用更多的无球打法呢?宽泛地讲,这里有两个原因,一是因为这种数据的采集方式,另一个则由于篮球技战术。
对于第一点,持球进攻效率低下的部分原因是因为失误。在这个数据集中,每一个持球行为都比每一个无球动作有更高的失误率:
注2:横轴表示“赛季”,竖轴表示“失误率”,不同的颜色(按照标注顺序)依次表示:空切、手递手、单打、无球掩护、挡拆持球人、挡拆掩护人、背打、定点跳投
顺便提一下,我猜测在数据采集的最初几年之后,数据分类有了一些改变。2006-07赛季中,单打的失误比急剧降低,而定点跳投却有更多失误,这令我想到,一部分球员在接球准备跳投时发生失误,比如踩线,或者接球时走步,而这在最初的几年却被归类为单打失误。但是没有视频来确认,这是有风险的,并且也提醒人们数据上的改变不是总能够反映球场上的变化。
在任何场合下,只关注持球和无球的打法就能更清楚地解释两种进攻方式的不同。
这种差异的部分原因来自于统计。想象一名球员在跑挡拆,接着试图回传给挡拆人,但这时却把球传到了界外,或者被吹持球冲撞犯规。尽管这是试图在利用走位的球员,但却被归于持球人的失误。类似的一种影响是,在球员寻求效率更高的进攻方式却依赖无球配合时,失误的风险往往归结于持球人身上。
但是这并不仅仅关于统计。高效率的篮球打法总是伴随着风险。举一个例子,在2018-19赛季,也是上一个完整的赛季,对于个人球员来说,潜在助攻和传球失误存在着明显的关联:
注3:横轴表示“每100次传球中的潜在助攻”,竖轴表示“每100次传球中的传球失误”
这显然解释得通,因为防守者试图阻止对方在同等精力下却打出高效率的进攻和投篮选择。
间接的说,这也反映了在进攻体系中拥有一名进攻组织者,一名进攻发起人,一个核心球员的重要性。尤其在更好和更有纪律的防守面前,一支球队必须有一名足够好的球员来冲破防守,为天赋不够的队友创造进攻空间和机会,从而进行高效率的无球进攻。
继续(进攻中)“启动”与“创造”的话题,在第一讲中虽然没有直接指出,但隐隐存在的一个问题是对于“多样性”的理解。一个对于现代NBA打法的普遍批判是大家都是一个玩法。而我不同意这个观点,除非以一种极简的眼光来看待这样的进攻方式。重复我在第一讲中的观念,简单地认为球队和球员的出手位置能够充分代表进攻方式,这远离了进攻选择的真正本质。
分析不同的打法能够帮助我们描述,这是“怎样”的进攻方式,是在“什么”位置出手的,有“多么高”的有效命中率和其他反映效率的数据。这当然有很多分析的手段,比如可以总结数据集里所有的8种半场打法,但这太复杂了也没有真正涉及问题的本质。如同之前所谈,无球进攻通常需要一些办法来实现,所以也包括或许和进攻方式一样的用来衡量进攻好坏的标准。对于一支球队来说,想要有大量的“空切”—在Synergy数据分析中最有效的打法—他们必须采取某种措施使球员能够向篮下切入,并且接到回传上篮。而那个“措施”,通常依靠撕裂整个防守的持球人。某种程度上来说,这对于挡拆的掩护人和定点投手是一样的道理。
幸运的是,我们的数据可以涵盖这种进攻发起的方式,因为数据也单独统计了从单打,背打,和挡拆而发起的进攻。这种“追寻起源”的数据某种程度上来讲,是一种计数缺漏,因为本质上它指代这些打法的次数,加上由这些进攻打法传出的助攻,但是没有包含因为打铁而失去的潜在助攻,但从最近的追踪数据中却可以体现。但至少,这是相当稳定的计数缺漏,极少的一个例外是从2005-06赛季到2007-08赛季,来自个人单打的助攻很明显没有被大量采集,除非我们相信只有在这三个赛季,球队每隔3、4场比赛才突然出现一次来自个人单打发起的助攻。
观察由这三种主要的打法衍生出的进攻的占比,我们可以看到联盟在这个时间段是怎么改变的。借助Andrew Patton的可视化处理,从单打到挡拆的变化:
从背打到挡拆的变化:
每一个多边形的顶点代表在联盟边缘的队伍。这个赛季的多边形包含了NBA中的每一支球队,竖轴代表从背打/单打发起的进攻的比例,横轴代表挡拆的比例。这仅仅是在重复第一章中的讨论。我们知道球队如今相比往日使用了更多的挡拆,但是尽管整个联盟每支球队都做了相同的调整,这并不能说明这些调整引发了风格的统一。
这里有更多的方法来衡量每支球队的相似性。我们可以比较标准差(注4)。或者可以度量球队在每个赛季中对于某种打法的不平均,例如使用基尼指数(注5)。尽管这些方法暗指了最坏的情况,当今的联盟每支球队间的偏差处于最小值,就像2004-05赛季,但是关注球队打法和只关注单一、固定的数据点一样,通常偏离了问题的本质。如果我们通过这三个范畴来分析球队进攻特点,那就需要同时考虑它们。
注4:标准差,用来反映组内个体间的离散程度,标准差越大,代表大部分的数值和其平均值之间差异越大。
注5:基尼系数,用来表示分配的绝对平均。基尼系数越小,表示分配更加平均。
要想这么做,为什么不借助一种通常用来计算球员相似性的工具呢,从而找到在多维空间中的“距离”。幸运的是,我们只分析了三维空间,所以幸好还不是太烧脑,但更高维数空间的计算也未尝不可,这通常是“球员A比其他球员更像球员B”的一种数学框架解释。
再次感谢Andrew Patton,这意味着我们可以比较一个赛季中任何两只球队的打法,并且根据欧式度量来进行比较。举个例子,比较凯尔特人和76人在2019-2020的进攻打法:
当然一旦你读到“欧几里德空间”(注6)的解释,“A的平方加B的平方,等于C的平方” 将会在你脑袋里挥之不去。而这些就是凯尔特人与76人之间的距离,“(6.8-4.9)^2 + (15.5-5.1)^2 = (34.5-24.2)^2”。
注6:欧几里德空间,即一种用来表示有限实数内积(或者“距离”)的空间。
或者…
(再次感谢Andrew Patton的三维效果图)
现在仅靠这一个“度量”什么也做不了。但是我们可以用它来比较其他所有球队。举个例子,这是快船队与其他西部球队风格差异的可视化处理:
注7:三维坐标轴分别代表“挡拆”,“单打”,和“背打”各自的占比。而颜色越深代表“距离”越远。
或者这个表格:
这个方法的一个好处是,赛季中每种打法占比最高的和最低的球队,在整个数据集合中都保持在大致统一的区间,这种衡量多样性的度量在每个赛季都保持了近似相同的尺度,而用其他的手段来找到这种合适的尺度来衡量差异其实更加困难。
现在来看看赛季间的变化,相似性的中位数几乎保持不变,某种程度上来说,这就是个复刻的联盟,并且一直都是,但是现在有更多的出众者。如下图所示,竖线代表中位数,红色尾部是至少25%的相似度:
有些球队明显变得“截然不同”。比如,布鲁克林篮网在这个赛季中一共只有32次由背打发起的进攻。就算对于逐渐远离这种打法的联盟总体来讲,0.4%的比例仍然十分突出。同时,在过去两个赛季,休斯顿火箭队保持了至少20% 的单打,而联盟历史上仅有3次(另一个是2005-06 赛季的湖人,当时的联盟平均单打比例是如今的两倍还多)。你可能并不欣赏火箭队的打法,但它的确“鹤立鸡群”。事实上,在这种度量下,这个赛季的休斯顿是与其他球队风格差异最大的一支队伍:
我不认为这种统计定义完全代表了风格的差异,因为依赖这种办法与统计出手表格和出手位置存在着相同的问题。话虽如此,但这确实展示了一个令人信服的案例,至少有一些球队相比于过去十年,在最近几年中进攻上发生了更大的差异。
在下一章中,我将更多地关注不同的进攻打法对于投篮效率,造犯规,失误率等等,造成的后果与影响。