CPOE,传球成功率,普通数据,高阶数据,肉眼,感官和下意识 (之一)
前言:前段时间跟坛友交流有感而发,感觉到肉眼、下意识和感官印象可能确实能更好地评价一位球员,“普通数据”如何比“高阶数据”更加有效,所以特意撰文一篇谈谈最新的思想认识,表达一下歉意。考虑到还有另外的坛友可能是顶尖Law School毕业出来的大律师,所以本文没有任何使用“法庭攻防辩论”的技巧以免陷入法律技巧比拼。
注:本文所有统计学的名词均以英文为准。
1,普通数据 vs 高阶数据
最近刚好和朋友讨论足球门将“扑救”,“扑救率”和“零封”的问题。在讨论到一位球员的表现时刚好聊到因为“某一项普通数据的样本数不足的问题”所以随着“样本数的增大”无论什么数据都好都会Regression toward the mean,从而会更真实的反映某一球员的表现,无论这项“普通数据”究竟有多糟糕。
部份事实确实是如此,大样本才能更好地去做预测,分析和推论,就像Z-test有样本要求,提升测试的统计功效(priori power)也需要样本数的提升,中心极限定理(central limit theorem)无论population的数据分布是什么形状,随着收集样本数的增大也会让sample自身的形状分布最终朝着正态分布(normal distribution)方向发展。但如果收集的样本里本身就存在着严重的样本偏差(sample bias),那情况又是如何?
有关注11月美国大选的朋友应该不会对“538”这个网站陌生,该网站的宗旨就是用数据分析民调,经济,政治和体育。16/20年两次大选各家民调的严重偏差,尤其是今年的偏差让538的创始人Nate Silver在11月被外界黑得惨无人道,因为选前538的模型给白等开出了网站建站以来历史最高的预测胜率,而最后的过程和预测有多大程度的符合,相信大家也有自己的评价。
我为什么要拿538做例子?538确实是发布民调信息的网站,但是538自己并不直接“做”民调,他们“做”的民调是把其他机构做的民调(Polling)按机构的可信度评分,然后按照自己的重抽样(resample method)去不断重复resample最后得出538自己的民调和预测。但如果这些机构本身收集样本的方式就存在着严重的样本偏差(sample bias)问题,那无论538的”自助抽样法“(Bootstrap method再好),次数再多预测模型再怎么做校正都好,他们的预测终究注定会出现严重偏差。因为垃圾再怎么被分类和resample,得到的始终是垃圾。
538在开票后做的50州各polling的偏差,可以感受一下从垃圾里面找垃圾的酸爽。
所以,大样本并不会帮你解决sample bias的问题,同理”普通数据“为什么会被称作”普通数据“。
2,CPOE是什么
”为什么不用传球成功率?”
“高阶数据还没有成为官方数据这本身就说明问题,这就是我提合同的意思。” -- 坛友
四分卫作为选秀里最难选的一个位置,多年来NFL所有的球队,教练,球探,专家和记者都可以说在评价大学四分卫的时候屡屡碰壁,且屡败屡战。当大家评价一位四分卫的传球准度时,第一时间不约而同的肯定会想到“传球成功率”这个指标来作为标准。传球率越高,某位四分卫的传球准度就更高。但问题是,四分卫每一次传球的难度都是一样的吗?
我们可以来对两个情景做判断看看哪个球员的传球难度更高:
情景一:
球员A甩出一个40码的长传找到在边线跑go route被对方双人包夹的外接手
球员B传出一个在线后接dumpoff的跑卫最后完成2码推进
情景二:
球员C在压力之下找到被对方角卫处于man-press盯防并且对方线卫准备跳上来破坏传球下跑slant的槽外接手
球员D在口袋毫无压力的情况下找到方圆十码之内无人盯防的跑sit route的外接手
没疑问,情景一里的球员A和情景二里的球员C各自情况下的传球难度更好。当两个四分卫的赛季传球成功率相差无几(65%把打个比方),四分卫1的成功传球里更多是球员A的情景,而四分卫2的成功传球里更多的是球员B的情景,那相同65%的传球成功率能说明这两位四分卫的传球准度在同一个水平吗?一个成功的50码downfield长传和四分卫在一个jet sweep里向前抛球的传球(技术统计上这是传球)难度能比吗?明显都不能。
-- 题外话:hail mary或者最后一击里向前传球后发生的所有横传后产生的码数推进和达阵最后都会算成四分卫的传球数据,例如18年海豚绝杀爱国者最后的hook and lateral的达阵纪录上是算给Tannehill的传球达阵,听上去是不是很扯?
如果真的能,不如想想以前Alex Smith是如何被“黑”的
这就是为什么业界会诞生CPOE的原因,因为他将上述的情况基本都纳入到模型里去更全面地评价每一次传球的难度以及每一个四分卫的传球准度,最大程度地减少”从垃圾里找垃圾的情况“。
CPOE -- 全称Completion Percentage Over Expected,中文翻译可以叫作“高于预期的传球成功率”。CPOE得到的方式其实非常简单,就是四分卫的实际命中率(Completion Percentage,下称Comp%)减去Expected Completion%(或叫Completion
probability,下称xComp%)。一个四分卫的CPOE越高,就说明他的表现要高于预期,传球准度也更高。
-- CPOE = Comp% - xComp%
随着现在NFL官方和其他媒体的大力科普,CPOE等数据的曝光度也越来越高。CPOE本身是有两套不同的预测模型的。第一套便是经常被大家拿来使用的,由本身是研究经济的The Athletics写手Ben Baldwin领导的使用公开的数据源nflscrapR上计算而来的CPOE。而第二套便是由NFL官方和Amazon的AWS合作开发的NextGenStats(NGS)的CPOE。
● NGS的CPOE
先说什么是NGS。
长期关注棒球橄榄球和篮球的朋友应该会清楚在数据分析这一方面棒球篮球和橄榄球之间大概有几十光年的差距。当棒球界里几个著名的数据分析网站如Fangraph和Baseball Prospectus的大量优秀写手在过去的10年间不断被MLB球队管理层挖走,而NFL的媒体记者和教练却始终仍然使用着如传球成功率,达阵抄截比例,传球评分和码数等19世纪的数据在侃侃而谈。当然NFL在后来也意识到自己的落后需要赶上时代的步伐,于是在2014年开始组建NextGenStats收集高阶数据,可是在刚开始的三年里NFL除了有限度地把NGS的数据放在自家NFL Network的TNF直播里之外甚至没有把数据提供给球队。与此同时,MLB一早便把自家高阶数据系统的statcast内容放在官网和直播中,并且在2015年开始就将statcast的内容放在savant的网站上向社会公开(事实上savant的网站是覆盖棒球,橄榄球和篮球的,但是多年以来真正有内容并且不断得到技术/项目更新的只是棒球和篮球,而橄榄球的页面则从创建起至今都基本停留在同一层面)。而NFL的NGS数据自从向社会公开以来,始终都只是有限度地公开,现在也是如此。
棒球的savant甚至已经有例如投手每场比赛的每一颗投球的3D立体轨迹图;篮球的savant也有如不同投篮类型的shot heatmap;而NFL的savant则和普通网站没有任何差别,甚至更差
NGS和AWS的精髓在于通过如Machine Learning的方式去得到更多的数据,如出手角度,出手球速,持球人冲刺速度,外接手跑什么路线等更多物理/战术角度的数据去更深层的分析比赛和球员。每周在NFL官网/官推上看到的如“最长冲刺距离”,“最快擒杀速度”等项目全部都是出自NGS之手。
“或者很多其他的QB可能也有一些奖励的合同选项,一般就是官网里面传球那五项。虽然这些传球数据有各自的问题所在,但是你这个CPOE连进合同暂时都没有啊”
“CPOE还没有代替官方数据,包括在合同里还没有代替那些现实的常规传球选项,难道不是说明CPOE等等一些数据本身还没有完善到可以替代那些直观数据吗?” -- 坛友
说到这里我觉得我上一次在讨论某一位球员时说到CPOE的“官方性”的时候解释得不够清晰(确实我不是律师,我也没有接受过法庭辩论技巧)。首先呢NGS就是NFL官方自己做的也在大力
推广的东西。他不单止在官网和比赛转播画面中看到,球队也会得到NGS的所有数据用于分析使用,另外NFL每周官方给注册记者用的Research Note里都有NGS的内容。在NFL的官网上看到,在NFL出的官方资料里也能看到,在NFL Network和其他四大转播商里都能看到的内容不知道这是不是“官方”数据?
如图是17周的research note里有关圣徒的NGS的内容
(球员交易里甚至可以用“入选职业碗”作为附加的卖方激励条件,然而谁进职业碗球迷投票占1/3,那卖方是不是可以请水军刷票把球员刷进职业碗来获得更高回报?)
NGS的宣传广告甚至被NFL投放在美股交易时段的CNBC财经台的广告里,可能这确实不够“官方”吧,嗯。
言归正传。
NGS的xComp%由10+种因素综合Completion
probability转换而来的,这里面已经公开的主要因素有:
1,空中传球码数
2,接球手和对方防守队员的距离
3,接球手和边线的距离
4,冲传手和四分卫的距离
5,传球速度
6,出手时间
在2018年,NFL官网曾经做过2016-2018年的每次出手的Completion Probability(注意不是CPOE)和实际Comp%的相关性对比,R-squared高达0.98(R-squared和R是两个东西,R-squared说的是有多少比例的Y被X所解释). 不知道这模型算不算准?
NGS的坏处就是数据公开程度非常有限。到目前为止,NFL仍然对开放NGS的生数据处于保守的态度。部份很有价值的东西如路线热图只能靠部份热心记者在社交网络上流出才能看到。所以这才有另外一套比大家更为熟悉,大家也知道出处网站的Ben Baldwin使用公开的数据NFL_ScriptR制作而成的CPOE。
● Baldwin/NFL_ScriptR版本CPOE
民间研究界其实很早就注意到传球成功率的天生缺陷。所以在NFL大力推广NGS之前,其实就已经有不同的媒体/机构/数据Nerd开始对xComp%做研究,如PFF和FO。不过在2016年开始随着一个收集NFL play-by-play数据的NFL_ScriptR在Github的诞生以及Air Yard数据的进一步完善,使得NFL_ScriptR开始可以制造自己的模型,如CPOE,EPA和Success Rate。而NFL_ScriptR版本的xComp%则是包含了以下的因素:
1,球权位置
2,控球
3,控球方是否主队
4,档数
5,距离首攻的码数
6,空中码数 - 距离首功的码数(Air Yards - yards to go)
7,年代(目前有统计的Air Yard的赛季只能回到2006年,因此2006年之前的QB是暂时无法得到CPOE的)
8,传球落点(一个Yes/No的分类统计:是否场地中央)
另外在2020赛季开始前再加入了如下的两个因素:
9,球场类型:全封闭,室外和屋顶可开关
10,QB出手时是否被撞
来到这里,你肯定想问哪一个模型的xComp%更好?
就更多维的角度上说,个人肯定是倾向NGS的模型。因为他加入了物理测量,也把更多传统box score不能考虑的东西加入模型当中,例如接球手和对方最近防守球员的距离。但这就代表NFLSR的xComp%不准吗?绝对不是。
利用NGS公开的本赛季至少有128次出手的40位QB的NGS的xComp%和Baldwin/NFLSR的xComp%做一个相关性对比,两者其实有着相当高的关联性(r=0.702,数据截止到16周):
球员自身的颜色则是代表Baldwin版本的xComp%和NGS版本的xComp%的差,颜色越红,说明两者相差越大(数据截止到16周)。
而下图则是两个版本CPOE的关联性(r=0.88):
两者的关联度相当高,但是仍然不乏有部分非常值得探讨的例子,如本赛季的Patrick Mahomes:他NGS都CPOE为-0.9联盟仅仅第28,比Mitchell Trubisky还差和Daniel Jones一个水平。而NFLSR的CPOE则有+3.0,联盟第10。而酋长赛季末几场比赛的进攻表现或者可以说明Mahome当前的状态:
而在13-16周之间,Mahomes的NFLSR的CPOE也非常差,只有-2.2。
如果你想看不同air yard的NGS版本的CPOE,那只能等热心记者放出来了,如下是2019赛季到12月初NGS的CPOE前4里的三位QB,而放入Air Yard的比较后他们的CPOE呈现这样的分化:
第一部分完结。未完待续,本文主菜在后面.......
Draskar
· 上海高阶数据显然不是因为Fantasy而生的。联盟球队内部都有analytic的部门,一般性估计他们的姿势水平领先吃瓜群众5年。在相关数据推广到球迷团体后,球迷才会用这个数据去挖宝。话说回来,为什么大家会对普通数据和高阶数据比较这个议题那么感兴趣,显然数据本身能较真实全面客观地反映比赛内容,使得吃瓜群众讨论时有的放矢,不至于陷入唯心论的逻辑陷阱中。但是大家都知道,每个数据都有局限性,所以才会不断出现相关的高阶数据。数据的局限性一般来自于两个方面:1是观测手段缺失。你无法想象在NFL早年联盟内给出Johnny Unitas每次传球的出手速度、Lynn Swann启动时距对手盯防的距离、Darrell Green回追Eric Dickerson时的冲刺速度,因而对于这些play你只能有定性的评价,无法进一步地量化。2是数据处理能力的限制。一场比赛里,每个play都会涉及场上22名球员,如何正确评价场上所有球员的贡献是个极为艰巨的任务。不能说WR跑了一次路线没有接到QB传球就说是无效的,不能说OL坚持4秒后口袋被破就说他们能力不行。尤其是路面进攻,场上往往是攻防双方搅在一起。即便现在,要评价每个play里所有球员的表现都是几乎不可能完成的任务,遑论以前了。因而,高阶数据的一个个出现从某种角度上是为了解决之前数据的局限性。NFL比赛最早记录的是传球次数、成功次数、传球码数这样最基础的数据。这是NFL的数据基石。没有它们就不存在所有这些后续讨论。但是光看这些最基础的比赛数据显然不能反映全貌。例如,本赛季NFL传球码数最多的是Deshaun Watson,排在第二的是小马哥,你能说Watson因为传球码数更多就能竞争MVP吗?因而,就开始出现了比例数据。像上赛季快乐男孩Winston靠着联盟领先的出手次数,能将码数刷到联盟第一,可他也贡献了联盟最多的抄截数,海盗的成绩也没有起色。从传球成功率上看,Winston就平淡无奇了。通过传球成功率,我们便能辨识出依靠高出手刷码数的低效QB但是传球成功率本身并非白璧无瑕,相反他并没有解决老派专家所提出的一系列问题:每支球队的接球阵容实力差异、传球掩护质量差异、面对的对手防守质量差异、场上形势差异等等,因而在CP的基础上,CPOE便因运而生了。这些外界的因素,建模者通过统计学的手法将他们依次赋权纳入到expectation的计算中。通过将QB的表现和Expected Level进行比较,得出模型框架下更真实的传球表现CPOE完美吗?并不如此,随着科技的进步和analytic的深入,CPOE不管是前提假设还是内部参数赋权都会有变动,甚至会有更新的Metric取代CPOE。但在现有阶段,CPOE较之传球成功率本身还是更advanced。他的解释面更广,解释力更强,适用的环境更多。当然球迷对CPOE有看法很多也是基于主观的观感。正如上个赛季绿包球迷看见Ben Baldwin如杀父仇人一般,即便Aaron Rodgers上赛季基础数据还算漂亮,可是在CPOE里表现已落入联盟中游水平。关于龙哥有没有完蛋的讨论持续了整个休赛期。到了本赛季龙哥王者归来,相关的高阶数据也如实地反应了这点。虽然Rodgers的传球码数不如小马哥,高光传球也没那么多,可光从传球效率来看,高阶数据龙哥在联盟里独领风骚。这个时候,绿包球迷夸CPOE的人就不多了。