CPOE,传球成功率,普通数据,高阶数据,肉眼,感官和下意识 (之二)
CPOE,传球成功率,普通数据,高阶数据,肉眼,感官和下意识(之二)
前言:前段时间跟坛友交流有感而发,感觉到肉眼,下意识和感官印象可能确实能更好地评价一位球员,“普通数据”如何比“高阶数据”更加有效,所以特意撰文一篇。考虑到还有另外的坛友可能是顶尖Law School毕业出来的大律师,所以本文没有任何使用“法庭攻防辩论”的技巧以免陷入法律技巧比拼。
注:本文所有统计学的名词均以英文为准
错过第一部部份的可以点这里回顾:
https://bbs.hupu.com/40289787.html
另外在文章的最后我会放出一本我之前说过考虑放出的东西
3,为什么要看CPOE?
先来一个Quiz:
之前区内很多坛友在讨论部分四分卫的长传能力。那下图是一位联盟顶级四分卫从06年开始到现在的air yard target在20码以上的Adj%校正传球成功率(所谓校正就是把接球手drop掉的球也算上成功传球,这也不是什么”进阶数据“。右侧则为当赛季排名,已经给每年的档数做了最低限制):
进入正题。
“至于CPOE,前天刚接触这个数据,翻了翻,2019似乎XX垫底。可是这个数据或者说这个模型又有什么呢,看有一篇用CPOE来进行四分卫选秀的数据推断,一塌糊涂啊。所以,很神奇?”
“说他(指CPOE)是“失败工具”主要是看那篇介绍选秀使用这个数据的文章得出的印象。说是“失败工具”确实言过其实,再观察两年吧,看看CPOE前景如何再说,看他能如何大用。”
--- By 坛友
上一次跟坛友交流的时候坛友说“用CPOE这数据来预测选秀一塌糊涂啊“,其实我并不知道这位坛友看的哪里的文章又或者有没理解对那篇文章(如果是我觉得的那一篇)的真实意思。
众所周知NCAA各学校的赛程每年都有巨大差异,因为学校所属联盟的水平和赛程强度差异会导致两所战绩看起来差不多的学校在真实水平上往往会差了很多倍。例如,MAC的12-0能和SEC和Big10的12-0相提并论吗?再例如2017常规赛全胜的UCF在委员会最后一期的排行里只排12,当赛季最终Perfect season的他们在赛季结束后甚至浩浩荡荡的在奥兰多迪士尼办起了全国冠军的庆祝活动。不同联盟不同的比赛风格也会导致很多球员的“直观表现”会有很大的差异:例如Air Raid/飙分大户的Big12和可能不用QB传球也能打得有来有回的SEC。所以这时候我们可以看一下FBS不同联盟QB的表现差异:
(图来自网络,CPOE算法来自ESPN,参考因数类似NFLSR,但同时包括压力以及对手等)
在CPOE的角度说,我们可以看到Power5 conference里SEC和Big 12的的CPOE的标准差(standard deviation,std越大,说明数据分布越大)刚好处于Power5的两个极端,正好说明这两个联盟的QB与QB之间的差异性比较大(我想这也符合很多吃瓜球迷对SEC和Big12两个联盟的进攻风格和QB表现的直观印象吧?一个是Air Raid体系的天下,而另外一个一直以来被戏称为时“石器时代”的进攻)。根据图中CPOE,QBR和CAYOE的情况看,这三项都应该根据各自联盟的对手质量做了相对的校正(正好今年极大部分比赛都是联盟内战)。所以我们再看回没有任何校正的普通数据时,水分是不是会比adjusted后的进阶数据更大?
不同conference对CPOE的影响
再举个栗子:
打真正的教科书Air Raid体系的Mike Leach手下的QB在2015-2019这5个赛季中的4个赛季里的单赛季传球总码数都在FBS里排名前五,在2018和2019都是排在第二。这4个赛季的QB分别是Luke Falk,Gardner Minshew和Anthony Gordon。另外FBS单场最多出手次数,单场最多传球码数,单场最多成功传球次数,单赛季最多成功传球次数和单赛季最多传球码数这几个纪录也是由Mike Leach手下的QB所拥有(其中单场最多传球码数734码的纪录由Connor Halliday和Patrick Mahomes共享)。而拥有着FBS单赛季最高传球成功率(单赛季至少150次出手)的QB叫Colt McCoy。所以这些“纪录”有多少能带到NFL?(BTW,FBS生涯传球成功率最高的QB叫Colt Brennan,生涯起码875次出手)
大学的CPOE数据并不公开(因为Air Yard的数据也很难得到),但是早在两年前538网站的作者Josh Hermsmeyer就利用得到的Air Yard套上类似NFLSR的模型给2012-2018年这6年间被选中/参选的QB计算CPOE。其中通过用2012-18这五年被选中并且在NFL里留下高于100次出手纪录的四分卫的大学生涯的CPOE来回顾预测他们在NFL里平均每次传球码数,得出的结论是CPOE的准确性要稍高于传球成功率:
Hermsmeys同时以“生涯每次传球是否高于7.1码”为一个分解线来分类QB生涯“是否成功”,并且把CPOE加入他的Logistic Regression模型中对2012-2018相同条件的QB检测他们在NFL“是否成功”:
-- Logistic Regression和平常的普通linear regression不同的地方在于LR是对“分类数据”(binary categorical stat)做预测,因为他的Y轴限定在0-1。
在预测大于90%成功的QB里,只有Manziel和现在牛仔的OC Kellen Moore两个失败例子(况且Johnny football生涯的失败更多源自于他的场外问题)。而在预测可能性不足50%的QB里,Mariota和Cousins则是属于两个“False Negative”(当然这两个人生涯真正意义上属不属于成功也众说纷纭),但是里面的Kevin Hogan,Paxton Lynch,Geno Smith,Nathan Peterman,Zach Mettenberger,Trevor Siemian,Matt McGloin和Blake Bortles(别忘了这个还是探花签)都可以被归入“失败QB”的行列中我想这个不会有太大的争议。另外,榜单里还有一个“奇葩”Lamar Jackson。他能不能被归纳成“成功”我想起码要等他走完新秀合同才有定论。
借着现成的这19个公开的大学生涯CPOE的数据,我给这19位的QB的大学/NFL生涯的CPOE和大学/NFL的生涯传球成功率做了以下关联性测试:
从图上可知,大学和NFL生涯CPOE的关联度是0.47,而大学和NFL生涯的传球成功率的关联度仅仅为0.0016,可以说是约等于零。
我们可以再从另外一个toy example来看一下:
按照前面Hermsmeys的方式我再做一个很简单的logistic regression。下图的X轴为2011-2016年被选中的QB在大学里的传球成功率,Y轴则为“在NFL里是否成为一个好QB的概率”,0为不是,1为是。这里的“是否好QB”的标准沿用了Hermsmeys之前的标准,以“生涯每次传球码数是否高于7.1码”为参照物,在图中的所有在这6年间被选中的QB在NFL生涯出手次数全部高于150次:
不熟logistic regression的朋友也没所谓,只要把一个参选QB在大学生涯的传球成功率在图中的曲线找到,然后再看哪一点的曲线对应的Y轴的数字是什么,就能得知这位QB在NFL成功的概率是多少。正常情况下泾渭分明的数据出来的logistic regression其实是一条很清晰的cube root曲线,但这里很接近一条直线。
假如你直接忽略图中的曲线只看图中的数据点,你可以发现大学生涯传球成功率高于66%的QB里在NFL失败的例子比成功的还要多。那所以传球成功率有多大用处呢?
再次强调我这里是一个很简单的toy example来说明为什么传球成功率这个数据其实没什么好看的。但如果你坚持觉得我就是“只看CPOE的来评价QB的话”,那任君选择,毕竟我也没义务来地毯式地科普和扫盲。所谓师傅领进门,修行靠个人。
我们再来一个Quiz。
下图是过去这10年所有被选中的QB里按大学生涯传球成功率降序的排名。不算2020被选中的QB,你猜猜这榜单里的前50有多少个是无可争议的成功QB?
完整列表我会在本文最后放出
如果你说之前那19个的QB例子样本数太小,那我再把2011-2020过去10年被选中的QB的大学和NFL生涯的传球成功率(NFL生涯出手起码高于100次)再做一次关联性对比,两者的R也只有0.25,如下图:
再来感受下每一年被选中QB的顺位和大学生涯传球成功率(左为大学生涯的传球成功率,右为NFL的生涯传球成功率):
2011:
2012:
(什么看传球成功率?Weeden和Wilson在这里笑了)
2013:
2014:
2015
2016:
2017:
2018
2019
2020
“但是你这个CPOE连进合同暂时都没有啊。钱,有时是说明一些问题的。这些数据不就是像DVOA这些,是某种希望对比赛的一种阐述吗?又有什么神奇的呢?一些数据研究人员来试图进行选秀分析和战术分析(应该都没有达到这个级别)的工具吧,而且应该是失败工具。”
-- By 坛友
如果说球队的数据分析是像我们一样简单跑个regression和列个简单表格就完事的话我实在不知道你是不是对专业领域里的做法有什么误解。每一年的选秀里总能看到一些影子,例如2020年来自Utah的落选QB Tyler Huntley:
在2019赛季里,Huntley留下FBS第三的CPOE(ESPN系统),而Utah并不像如Oklahoma, LSU, Alabama和USC等有顶级大外接在队中。在SIS按外接手路线,防守scheme,传球距离和压力的 +/- Comp预测传球成功率里Huntley则同样在2019赛季里排名第三。作为一个本身被关注度不高,而且arm talent/strength实在不出色的QB落选后却马上得到邀约,虽然没有赶上开赛季53人大名单但随后一直在球队训练阵容里到赛季末因为队内新冠疫情爆发得到被提上53人名单并且一直至今。而签他的这支球队就是联盟里数据分析开展得最好之一的巴尔的摩乌鸦。
如果你想问过去10年里被选中的QB里谁的大学生涯CPOE最高?答案是Russell Wilson和Joe Burrow,而前者生涯在大学的传球成功率仅为60%,后者爆发前的在2018赛季的成功率为57.8%。
再来看一下Josh Rosen生涯在大学的CPOE?
Rosen在UCLA打足三年主力的情况下留下大学生涯 -1% CPOE,而在2011年以来还没有大学生涯有负数CPOE的QB在NFL里的每次传球码数要高于7.1码的
我们也可以换一个角度看NFL里的CPOE。
我想CPOE/传球准度这个项目是最能体现一个四分卫自身的个人能力和基本功的项目,毕竟你要是球也传不准的话那你还当什么四分卫?而在NFL层面里用不同的进阶数据预测球员未来的表现时,我们发现球员每个赛季之间的CPOE值非常稳定,而且CPOE也是最有效的预测指标:
先看稳定性:
到2019赛季,每个赛季之间的CPOE的R值为0.57,大于EPA的0.44。
如果看CPOE的预测效果,我们拿CPOE,EPA,QBR,YPA和Success Rate这几个数据做一个multiple regression来预测,从P-value的指标看CPOE的P-value为最接近0.05的cutoff level的。
把其余的指标拿走只用原来p-value最小的CPOE和EPA来在做一个multiple regression,CPOE的p-value为0.01仍然是最小的
不熟悉P-value的朋友可以点这里:
用一个不严谨但很简单的方式理解就是一个测试里的P-value越小,越能有力地拒绝null hypothesis(reject null hypothesis)。换句话说就是这个数据/测试越有力。而日常测试里最通用的p-value大小为0.05。
下图是2009-2018赛季所有至少有1500次传球的QB的CPOE的排名:
最后这是ESPN记者放出的2020赛季FBS级别所有至少有100次出手的QB的CPOE和EPA的排名,可以给各位为今年选秀做一个参考(截止到12月15号,换句话说不包含季后赛和碗赛):
就像CPOE这类纯个人基本功的东西在一个球员进入一定年龄后就自然很难靠传统的训练方式来产生太大的改变,除非有更多高科技的帮助。而像Josh Allen在上休赛期利用各种高科技手段和超高速摄像机来更改自己的mechanic来让自己的CPOE在本赛季有一个质的飞跃最后达到本赛季MVP竞争的级别,不知道这是不是数据的帮助呢?类似的手段在隔壁的MLB里一早已经广泛应用,像著名的Driveline就在过去几个赛季里让众多投手(尤其是已经不再年轻的投手)脱胎换骨:
例如Adam Ottavino在32岁的时候通过driveline的帮助在休赛期里在曼哈顿上西区的临街商铺当牛棚训练最终让自己从一个即将失业的投手变成一个联盟顶级的中继投手并且和洋基签下27M的合同的故事:
https://blogs.fangraphs.com/adam-ottavino-rebuilt-himself-in-a-vacant-manhattan-storefront/
而类似的技术在10年前根本就没人使用。不过直到今天有很多球员/教练也不愿意使用类似的技术。毕竟感受球员的动作和神情可能更靠谱一些吧。
4,当我们说数据时,我们在说什么?
日常生活里总会碰到谈论“数据”的时候。例如“温度”。
而来到体育项目时,很多朋友也喜欢使用“数据”支持和强化自己的观点。如最近本专区里有朋友提到的:
“A球员比B球员多了多少个MVP”;“C球员没有FMVP”,“评论什么地位的时候FMVP和MVP缺一不可”,“E球员有多少个冠军”,“最重要的数据不就是W吗?”
所有使用上述数据的朋友无一例外都是希望能有一些更客观,更得到大家了解的东西来支持自己的论点。毕竟每个人的主观认知上总会不一样,而且每个人对某一个球员/比赛/项目的熟悉程度也是存在巨大差异。毕竟也没人觉得在讨论类似“xxx比xxx更强”,“xxx某一场球打不好”的讨论中全靠语言描述修辞语气用词等写文学作品类似某NFL老湿的方式就足以让自己的观点有足够说服力吧?
比方评价一个球员。
你问我一个球员一个赛季扔了多少长传。如果没有数据帮助,你首先会试图唤醒你过去整个赛季的看球记忆。当发现这部分的记忆并不完整的时候,就可能需要重看比赛视频做探索。但问题是时间有限只能看长集锦的情况下并不会看到全部的长传视频,于是乎这时候再把整个赛季的录像重看一次,把长传视频截下来分类好。当你要讨论这个球员的长传实力的的时候,再把我截下来的全部视频上传然后说,看,在这里,这就是这位球员的长传情况。
你看完可能会问,什么鬼这是哪门子的归纳方法?先不说你有没有时间去把一赛季的几十个长传的视频找出来,就算找出来了,讨论的人有可能把全部tape都看一次吗?结果到最后发现还是要用纸笔做一做加减乘除,因为不单止更方便而且更直观。就算听的人有心看完全部视频,那他又如何把你说完的信息传达给其他人?
所以这时候你 a/b的类似百分比的数据就会显得非常简洁,高效同时也客观,也成为众多讨论贴里必不可少的部份。但既然你都知道要用数据来表达某一部分的比赛内容,那为何不再进一步,把你现在在用的数据去更好地完善已达到更准确地描述比赛?所以我挺同意一位朋友的说法,advanced stat更准确的译法或者是叫“进阶数据”,而不应该叫“高阶数据”。
当评价某些球员时,很多朋友非常喜欢当冠军数/MVP数的“数据党”直接当无可争辩的证据,同时也讥讽着其他的“数据党”,只可是类似的mvp数/冠军数同样是“数据”,他们是Categorical data。
-----------------------------------------------------------------------------------------------------------------------------
“高阶数据很有用,不过也要辩证的看,比如文章最后Mahomes排联盟28的高阶有多少参考价值实在不用说了”
“如本赛季的Patrick Mahomes:他NGS的CPOE为-0.9联盟仅仅第28,比Mitchell Trubisky还差和Daniel Jones一个水平。
自己已经写了个靶子出来让人打了,如你所说ngs的cpoe更准确,马猴是全联盟最被高估球员?”
“因为你看不起的数据能解释一些高阶数据解释不了的事啊,普通数据里面马猴的数据就和观感相差不大啊,为什么非要踩普通数据才显得自己的高阶数据逼格高呢?”
--- By 坛友
就如同我上面说的,Mahomes下半赛季的效率和表现实际上并不出色,这也是为什么在今年Rodgers在MVP的竞争中始终处于遥遥领先的地位。如果你觉得一个厉害的球员在某一个赛季或者生涯某一个节点都不会有低谷的话,那我还是建议您只看自己主队赢球的集锦就足够了。如果看回坛友们所认为的更值得看的“传球成功率”的话,这赛季Mahomes的传球成功率是66.3%,在所有35位符合资格的四分卫里排16,而Trubisky则是67%排第13,所以我想知道坛友所说的“普通数据解释能解释一些高阶数据解释不了的事情”,那在Mahomes本赛季的传球成功率的排名又说明什么高阶数据没有说明的东西?传球成功率在前15的QB里还有Alex Smith,Teddy Bridgewater,Jared Goff,Derek Carr等几位可能很多坛友一个赛季也没认真看过几次比赛的球员。
如果坛友觉得我是“Mahomes黑”,觉得“高阶数据党就是觉得Trubisky>Mahomes”的话,那我也没办法改变你的认知能力。
至于为什么说有Tracking data版本的NGS的CPOE考虑到更多方面?不如从纯橄榄球方向来看一下答案?
“CPOE其实并不比传统的数据好太多,都有反应不到的地方,就拿马猴来说,他持球跑出口袋,等待队友跑出空档,再传,CPOE里面和在口袋里传给一个无人盯防的接球手是等价的,另一个四分卫传给一个被角卫1v1的外接手,可能CPOE更好,只能说能CPOE能反应一些传统数据反应不到的情况,但是并不能作为唯一衡量标准”
--- By 坛友
“传球准度”可能是最体现一个QB下限和QB的纯个人能力的最重要指标了吧,也是一个本质上并不受接球手水平影响的能力(可以参考一下QB在Combine里的传球表现),而CPOE就是拿来代替“传球成功率”的。NGS的CPOE里就是因为有tracking data的因素所以会把球员的移动(on the move/out of pocket)算上。另外就是我不知道各位是不是对“dual-threat”的QB跑动能力是不是有什么误解,在没压力没必要的情况下我不知道为什么四分卫要乱出口袋给自己带来不必要的压力,不信康康Russell Wilson和Carson Wentz的“自找sack/hit”就是经典例子:
Wilson常年吐槽海鹰OL不行,在几年前确实是这样。但从最近几年开始实际上海鹰的OL并不差。而更多的时候是Wilson自己的乱移步,乱出口袋/rollout,缺乏必要口袋意识和持球时间实在过长的”无病呻吟“。最近Wilson又一次公开说海鹰应该在OL上给他更多的保护,我们不如来看看部份过去这几年属于他自己责任的sack/hit?
对可能的压力反应过度,结果没压力的情况下提前向左rollout导致口袋破裂,最后只有靠takeoff解决问题
另一个自找sack的经典例子。没有任何压力下却又一次提前向右rollout导致口袋破裂造成压力。
如果坛友认为在口袋内的”耐心等待队友跑出空位“这种情况没有被算上,那不如来康康下面Wentz本赛季四档的一个play:
四档三码,屏幕下方摆出Quad set执行一个类似的Spoke Concept,开球后中间的跑sit和drag route的外接手完全wide open,而Wentz在口袋干净有清晰出手目标的情况下没有出手最后持球时间过长导致擒杀,球权转换。不知道这种”耐心的等待“坛友们觉得在CPOE里(如果算的话)是正还是负?
In case you didn't know what Spoke Concept is:
按照这逻辑,新冠疫苗的接种者也不是100%会得到保护而且还带有副作用,那按这意思是不是疫苗还不如主动染病然后获得免疫抗体强?
--------------------------------------------------------------------------------------------------------------------------------------
“这种人确实有,那是真不懂球,而看了一个赛季以上的比赛的,基本都能明白基础数据说明不了很多东西,高阶确实非常有用。只是每一个模型肯定都并不完善,否则一个高阶数据就一统天下了,哪里用得着不断推陈出新。现在高阶数据不止一种,几种高阶对比着看,再结合比赛观感,也看看普通数据,不要把比赛看成了数学游戏”
“你这种唯高阶是从的人难怪很多人怼你,遇到这种和其他高阶、比赛观感、大部分认知都不一样的情况,应该反思的是这项数据的实用性,而不是轻易下结论。有几个其他的高阶数据把Mahomes排到前五,而十周左右排名第一二,这个下滑符合过去几周比赛观感的,下滑到联盟28,笑话。另反驳下,我从来没有说过传球成功率大于一切,再说你自己的文章里都说这项基础数据看具体情况的,这个都不用你说,只要是看过比赛多的都明白,不要把别人都当傻子。你说驳斥我这种印象流,恰恰相反,我也是看高阶数据的,但对于某项高阶明显不合理的地方,要辩证的看”
-- By 坛友
其实我不知道有多少坛友可以分得清“QBR”和“Passer Rating”的区别,所以我也不知道坛友究竟有没分清“EPA,EP,CPOE,Success/Positive Rate和DVOA“等进阶数据之间的差别。难道说传球成功率,传球码数,达阵传球传球数和成功传球次数这几样数据都在解释同一个事情?还是坛友们觉得这个橄榄球世界里只有CPOE一种进阶数据?又或者是说一个QB的传球码数高就自动等于传球成功率高?难道您买方便面的时候不看口味就直接买?
我相信很多坛友不要说看All-22了,因为时间的问题都很难一帧不落的把一个赛季的比赛看完整。那在没有完整地看过一个球员/球队的比赛情况下,这时候引入部份数据来代替你自己的缺失的记忆和印象流不知道是不是比直接去看集锦或者condensed game要来得有用和高效而且客观准确得多?
很多时候一些球队名宿和所谓的“选秀专家”说出其实根本就没什么内容的评论时一样可以因为自己的头衔和身份背景而得到追捧和认可。就像同一个言论出自两个不同的人,A是你所喜欢的,B是你所讨厌的,我相信在相同的言论下很多人会更倾向接受从A嘴里说出的东西而不是B说出的东西。例如之前一位坛友在问我放Josh McDaniels的2016年的爱国者的playbook的帖子下面评论的:
“只要你提供下载,你说啥就是啥,都是我的错。”
--- By 坛友
原来只需要一本playbook就可以在态度上面来一个180度的转变。
BTW,我会在本贴的最下方放出这本2016年的爱国者的进攻组playbook的下载链接。这也是目前各coach clinic里流出的最完整的一本的NFL真Playbook之一,因为里面附带了如列阵口令等内容可以帮各位更好的理解playcall的内容和含义。
在这里引用一下棒球界数据分析先驱Bill James在麻省理工的年度体育数据分析大会的Sloan Conference里就使用数据分析的时候说到:
"What I was trying to do was to create a fact-based analysis to challenge the authority-based analysis."
-- By Bill James
---------------------------------------------------------------------------------------------------------------------------------------
“至于说到数据,数据分析和研究确实是在尝试做一些透过现象看本质,去掉那些似是而非的事。并没有全盘否定他。对他表示不屑更多的是,对于你对他们过于推崇的那种态度吧,可能有点过。但在他做出颠覆性贡献之前,不好意思,还是老派看法。”
“如果你光是科普高阶数据,完全没有任何问题,但是把普通数据贬的一文不值才是我质疑的地方”
“你提到的深度学习,让我想起围棋的阿尔法狗,颠覆性的;那么,使用了深度学习方法的这些数据研究也有这么革命性的贡献?”
“橄榄球是激烈碰撞下的团队运动,人的因素最多最强,相当多的致胜条件是很难量化的。战术甚至只是其中的一部分。在战术基础上的数据分析,本身,就有很大的局限性。QB不是带着可视面板在打球的,他仍然需要用眼睛来采集信息,快速分析,做出决定。”
“CPOE还没有代替官方数据,包括在合同里还没有代替那些现实的常规传球选项,难道不是说明CPOE等等一些数据本身还没有完善到可以替代那些直观数据吗?”
-- By 坛友
所谓“高阶数据不会流行”,“高阶数据不是‘官方’”,“没有被官方接受”在第一部分已经说得很清楚了。不过我觉得在这里还是有必要再多加一点笔墨:
隔壁MLB早就在数年之前在部分特定场次(包括季后赛)里开始使用全进阶数据sabermetrics和statcast(如用wRC+来代替传统的打击率等)的直播信号并且得到广泛好评。而前两年随着NBC SNF的解说Cris Collinsworth入股PFF后便开始把更多的进阶数据和tracking data放到SNF的信号中。例如踢球时候的飞行数据,甚至有冲传手和OL的做对抗时候的engage angle的角度测量。不知道这些数据会不会比“这个踢球手命中多少50+码的任意球”和“这个OT放出多少个sack要来得更加有用?
OL/Rusher engaging angle
ESPN在MLB季后赛里的纯数据statcast转播信号:
ESPN在大学季后赛里的DataRoom直播信号
如果你要问“那说得这些高阶数据这么好为什么还不全面铺开使用?这不说明了就是有缺陷吗!”这个就和媒体编辑和内容制作一样,像ESPN和PFF上面一样有水稿,并不是所有受众人群的接受和认知能力都是一样。就像众多小众网站反而有着更好的all22分析。也如同至今很多人都觉得RPO是属于Play Action里的一种;觉得某一位教练战术过于单调只会呼叫某一种战术但又觉得看真playbook和纯看All-22的分析过于枯燥,同时又连熟肉版本的All-22分析也不看的情况下,那媒体放有用的东西又有什么用?就像教材编排一样都是从易到难吧?
体育项目是人打的,但是人一样可以利用数据和机器帮助自己训练。目前早就已经有球队利用ML模拟对手的防守环境让自家队员就像打Madden一样的对模拟出来的情况做出相关的反应训练。通过类似的方式来训练真实反应的方式也一早已经被各国军队使用了吧。真刀真枪玩命的职业都一早就用类似的方法进行战场反应的训练,而来到现在却觉得橄榄球不行,那我不知道要怎样的“颠覆性”你才感觉到这项东西的存在了。
如美军的VBS模拟战斗系统:
业内操作:
随着NFL越来越重视球员保护和在CBA里标明严格限制有护甲训练的次数,另外比赛周之间准备日天数过于紧凑,所以留给对于下一周比赛的GamePlan设计时间肯定会少之又少。按照一位NFL球队的工作人员说分析每一档的攻防大概需要30分钟:
首先确定人员组合(personnel),阵型(formation)和站位(alignment),然后开球前有没motion/movement,防守组首先是怎样展位的,开球后OL是怎样保护的,哪个DL/冲传会怎样冲,开球后防守方的safety有没有rotate,CB的cover technique是什么。按照每一档都这样分析的节奏话那根本不用训练了。比赛里一样的道理,在booth里的教练一样需要对各个play的使用情况和效果做统计并且对下半场的比赛里做必要性的改变,选择留下哪些play而又放弃哪些play,这一切在半场前大概只有短短不到10分钟的时间。时间不够之余,出来的效果如何也是未知数。所以使用更多的数据帮助如route recognition,站位热图等方式让整个gameplan设定过程更加高效以及有作用,我不知道这个叫不叫“颠覆”了。
Kirwan在他的Take Your Eye Off the Ball 2.0里有个比赛中对gameplan的调整描述如下:
下图是2016赛季比尔第14周对布朗的真GamePlan的战术单。在半场前的几分钟内要对这些东西做出高效的分析来进行调整,所以你觉得让数据帮助一下会不会比纯人工去评估要来得高效快捷有用得多?
在分析传球战术的时候,外接手跑过的路线的统计数据要比外接手某一个路线被target的次数要来得有用的多这个我想没什么疑问吧。而有关route/concept的识别正正就是这两年NGS的重点开发方向之一。不如我们来康康海盗在下半赛季的crossing route的使用次数的统计?
Route图:
以及不如通过站位热图来更直观地康康超级碗里海盗是如何大量使用2-man coverage来限制Mahomes的?
NGS的Route map识别:
以及每一个play的移动识别(等同于All-22另类):
-------------------------------------------------------------------------------------------------------------------------------------
“BB为什么建立(Data Analytics Department)我不知道,我看到的就是他在镜头前清晰的表达了不屑,我只看到这些。”
-- By 坛友
有些时候嘴上说着不要但行动还是很诚实的。爱国者过去几年就是把资源都放在了二线上面而不是像老鹰/牛仔和前几年的钢人一样没脑的把防守组大部分资源都堆在冲传上。而Coverage > Pass Rush这个在前两年就已经有深入的数据分析来说明了,我在这里也不会展开:
参考:
https://www.pff.com/news/pro-pff-data-study-coverage-vs-pass-rush-revisited
https://www.sharpfootballanalysis.com/analysis/patriots-49ers-defense-pass-coverage-pass-rush/
什么?这不是人家靠一直以来的经验得出的coverage > pass rush吗?按照这个种“经验论”来说可能每一支球队都应该要在6轮拿一个在大学和local combine里连eye-test都过不了的QB来建队?
放眼联盟32支球队的Front office的结构,目前已经有31支球队有明确的data analytics的部门和雇员(唯一一支没有的是泰坦),阵容最庞大的则为布朗和乌鸦,而爱国者的data analytics department规模也不算小。而目前有庞大球迷群体的海盗也在2020赛季开始之前请了前喷气机的Jacqueline Davidson出任Director of Football Research组建Analytics Department填补了数据分析雇员方面的空白。
而一直以来走在NFL数据分析的前列的乌鸦甚至在数据分析岗位的招聘信息上列明了如下的两个问题:
1, Do Running Backs matter?
2, What’s more important, pass rush or coverage?
布朗这两年开始脱胎换骨的主要原因之一就是请了Moneyball里的原型人物的Paul DePodesta出任首席策略官统管球队的人事等,而Steve Stefanski正正就是Pro-Analytics的教练最后得到DePodesta青睐,而就在一周之前,他拿下了本赛季的最佳教练奖。
Michael Lewis, Bill James和Paul DePodesta在麻省理工的Sloan Sports Analytics Conference.
同样可以参考一下利物浦的数据团队是如何和教练组共同运作的,这一群所谓的“不看球的高阶数据党”总不能全是Fantasy玩家了吧?而正好虎扑前段时间就写过这个团队的介绍:
https://bbs.hupu.com/40035227.html
很多觉得“高阶数据党不看球”的坛友也很喜欢拿着PFF的数据评分和年鉴里的Placement说事。其实如果真的看不起“高阶数据”的话,每年真的没有必要浪费最少40刀去购买一个pff edge来看年鉴等内容。不过我想说的是随着tracking data的完善,placement这个项目得到更精确的量化(将现在PFF的年鉴里不参考传球位置和落点的placement做进一步细化)我想也不会是什么难题。而SIS现在同样便已经开始使用on-target%来衡量。
总之就是,我看球水平不行就是行的,你“不知道公式”却来这里布教就是不行的。
下图是部份网站的付费选秀报告里附带的Placement数据
PFF年鉴:
-------------------------------------------------------------------------------------------------------------------------------------
“我倾向于直观看球,甚至会去看他们的神情,他们的下意识动作,会去感受士气的起伏、信心的提升、受挫,等等,包括老汉的品质,和一些其他优秀球员,优秀表现的品质,这些,也是我观看球赛的主要部分”
-- By 坛友
其实我也不知道一场球里面可以有多少次特写镜头给到某一位球员然后可以仔细地关注他的面部表情和神态。我也不知道所谓的“领袖气质”是不是可以简单从在场下摔摔头盔,吼两句说两句脏话就等于可以激励人心的更衣室大佬。抑或是已经可以做到实时监控该球员的肾上腺素和心跳等数据,又或者在神经认知等领域已经强大到一眼扫过便可以知道球员的心理状态。如果你想说某些球员为什么是“Clutch”,为什么在压力下会更强,那我想其实这同样是一个数据分析:
https://www.researchgate.net/publication/4069
https://www.tandfonline.com/doi/abs/10.1080/00948705.2010.9714765?journalCode=rjps20
---------------------------------------------------------------------------------------------------------------------------------------
“Nextgen之外也还有很多其他的高阶数据是需要收费的,这些就是因为有Fantasy这个东西的存在而应运而生的产业,我也不相信普通球迷能接触到专业球队的数据库,这个就好像拿着FM当球探一样不可思议”
-- By 坛友
在数年之前,一群“高阶数据键盘党”就在买了一直棒球的独立联盟球队用纯数据的方式管理,而整个过程则被当事人完全记录在“The Only Rule Is It Has To Work”这本书里。如果你说高阶数据只服务Fantasy玩家,就像拿着FM当球探一样不可思议,那此书的主人公可能就是坛友口中的“Fantasy玩家”吧,只不过这次玩的是真人真实的fantasy:
https://www.amazon.com/Only-Rule-Has-Work-Experiment/dp/1250130905
另外,FM里面的数据全都是各地招募的球探通过看球之后给出的“评分”,连“数据”的边都算不上,只是将人的主观评价用数字表达出来放在游戏里面而已。
NFL过去数年一直都在年初举办”Big Data Bowl“,参赛者可以直接接触NGS的全部生数据。而每年都吸引大量的相关数据、数学等方面的学生甚至是PhD参赛,我想他们总不是全都奔着“Fantasy”。至于“不相信球迷可以接触到专业球队的数据库”,实际上在隔壁MLB的全部statcast的生数据球迷都可以通过Savant的网站获得,而球队和球员做分析时的生数据也都是出自于statcast系统。笔者曾经有幸目睹刚刚和洛杉矶道奇签下历史最高年均薪合同的投手Trevor Bauer的团队里的成员在休赛期里给他制造球探报告的过程,而里面的raw data一样就是出自savant。另外笔者也同样非常幸运地在道奇的更衣室里看到过给球员使用的临场用的简化版的球探报告,其直观内容同样和savant上得到的并没有太大的差别:
左边的电脑是Bauer团队成员的制造内容,而右边则是savant上的内容
Big Data Bowl页面,前年的冠军便是分析RB之间的唯一差别就是他们的加速度(acceleration):
https://operations.nfl.com/gameday/analytics/big-data-bowl/2019-20-big-data-bowl/
常年觉得“高阶数据党”不看球为数据是从,实际上很多高阶数据党看过的all-22以及对基本战术知识的认识程度都可能比不少侃侃而谈的如X兵等要好得多。而目前越来越多的All-22 analysis的写手也会在自己的稿了使用EPA和success rate等数据说明问题,同时利用数据去让看录像的过程更加有针对性的效率。
例如Nguyen的稿:
例如很多坛友只知道Brady在前年超级碗里的制胜drive里和Gronk/Edelman的连线有多么的强,但实际上那个drive就连续数次执行了Hoss Y juke的经典战术。
而我也不知道有多少坛友对下图这个战术眼熟的:
高阶数据一直都在完善,但这也好比说看球,实际上平日的转播角度的限制根本就导致大量信息无法被正常阅读到,而也不是每一个球迷都会去复盘All-22。最后我借用微博维京人的微博主页的火神的一段话来做结语:
“如何相对正确的观看比赛、相对科学的评估每一位队内核心人士,是很多一线从业者究其一生也没能参透的事情,遑论媒体与球迷。但舆论往往裹挟着主观与恶意,转播视角的限制和知识渗透的门槛使多数人的主观可以和无知划等号。尝试去学习汲取,远比三言两语给出二元定论有价值,至少高卫兵在这点做得更好。”
-- By 火神
过去10年选秀按照大学生涯传球成功率的排名:
最后这里附上一篇对欧洲公民做的研究:
为什么一些人觉得占星学是科学?
What Makes Some People Think Astrology Is Scientific?
链接: https://pan.baidu.com/s/1zuMaZzthlNwNEpPjFfDoaw 提取码: sxjr
2016爱国者Playbook下载
链接: https://pan.baidu.com/s/1rhpMcNzyVnwCrvZPSSyePA 提取码: 5b6a
用户1721326710
· 广东2014年20码以上的Adj%校正传球成功率排名39个四分卫里面的31名,最后是冠军。 2016年20码以上的Adj%校正传球成功率排名36个四分卫里面的7名,最后是冠军。 2018年20码以上的Adj%校正传球成功率排名33个四分卫里面的12名,最后是冠军。 2020年20码以上的Adj%校正传球成功率排名37个四分卫里面的17名,最后是冠军。(而且在超级碗之前,很多人都拿他这个赛季深远打击高效作为他宝刀不老的证据)
我叫撒子昵称要你管哦
· 上海说明有人就能传,没人就传不了呗,你有wes、Randy你长传你也牛,没有就不行呗,联盟哪个四分卫又不是这样的呢?这数据有个鸡儿意义,我不否认四分卫长传好是种能力,就好像四分卫能跑我也给予很高的敬意🤫🤫但橄榄球是个回合制游戏又不是短跑,你5秒80码和我5分钟80码有区别么,而且相比中短传,长传明显更不稳定、遇到等量级防守也更容易吃瘪。这就是为何tb现在7冠加身,而某些天赋异禀的四分卫反而季后赛老贡献被虐名局。ps:整个季后赛你哪去了?是不是憋着等tb拉跨好发你这篇文章呢?黑了tb一个赛季不会长传,结果临近季后赛,人海盗教练团队和tb妥协了反而你晚节不保了,有趣有趣🤗🤗