【姚视野】NBA进阶数据介绍
我前面发过一个帖子:
数据不会说谎,NBA高阶数据怎么看?
链接如下:
数据不会说谎,NBA高阶数据怎么看
感兴趣的同学可以自己去查着看。
今天简单介绍一下其他的高阶数据
正文之前先附上微博篮圈即是原点对各个高阶数据的整合和他的个人推荐程度。
(1)PER值
PER值(Play Efficiency Rating),由前ESPN数据专家约翰.霍林格提出,可能是球迷最耳熟能详的高阶数据了。
PER值贵在综合,但是缺点非常明显。
它是一个彻头彻尾的评价模型,各项的权重完全由霍林格主观确定,没有客观依据,很难让人信服。比如上述公式的第四行,这一行在奖励球员得分,并且球队助攻越多(对应球员受助攻率越高),得到的奖励越少,即更看重单打。霍林格可能认为,受助攻多的球员往往是配角,没有靠个人改变对手防守阵型的能力。对一般的球员来讲有一定道理,但是对库里、浓眉这样的靠个人能力强行吃饼的球员显然是不公平的,况且NBA的助攻计算门槛是比FIBA低的。
变量过多,算起来麻烦。
防守型球员太过吃亏。引用知乎的一个例子,当年马刺的鲍文作为外线防守大闸,比赛影响是非常正面的,PER值却常年球队倒数。
WS(Win Shares)=OWS+DWS。WS/48则是消除上场时间不同的影响,计算球员每四十八分钟的数据。以OWS的计算为例:
Calculate points produced for each player.(计算球员贡献的得分) Calculate offensive possessions for each player. (计算球员的进攻回合数)这个回合数不同网站算法还有区别,不是单纯的数回合这里不做介绍
Calculate marginal offense for each player. Marginal offense is equal to (points produced) - 0.92 (league points per possession) (offensive possessions). (计算球员边际进攻贡献)
Calculate marginal points per win. Marginal points per win reduces to 0.32 (league points per game) ((team pace) / (league pace)).(计算边际进攻胜利贡献率) Credit Offensive Win Shares to the players. Offensive Win Shares are credited using the following formula: (marginal offense) / (marginal points per win). (计算OWS)
WS的是针对球员对于自己球队贡献的分析,优点在于对于防守端的贡献也做了比较好的描述。
而它的缺点在于,对胜利的贡献很大程度上依赖于体系,并不能真的反映球员实力,跨队比较不同球员,会有一定缺陷。同时,数据衡量贡献值本来就毕竟困难,比如防守好的人面临的是对面进攻箭头,防守数据自然会下降。
RAPM(Regularized Adjusted Plus Minus)极其重要,因为这是第一个正负值模型,是后续几乎所有高阶数据的基础。正负值模型特殊在于,它完全从比赛结果出发(赢分或者输分),一定程度上我们可以认为它反应的了球员在场的全部影响,无论这些影响有没有被数据记录到(比如库里的无球跑动吸引防守让队友上空篮,体现在数据上只有正负值的变化。)单场的正负值参考价值不高,因为阵容搭配的影响很大,但是大量正负值数据中我们可以得到一个球员的影响力。
我们来看看RAPM怎么计算的:
比如,A B C与D E F进行2v2比赛。从队伍一的角度,有如下回归方程:
其中,A~F均为01变量。每两次换人间我们可以得到一个样本,比如:
放到NBA的背景下,我们将得到的大量样本进行回归估计,便能得到每个球员对赢分的影响。值得注意的是,NBA有几百个现役球员,对应几百个变量,对样本量的要求是非常高的。因此单年的RAPM往往因为样本量不够多而不可靠,但是放在多年的背景下则有较高的参考价值。RAPM的缺陷除了对样本量要求高以外,还来自一个非常强的假设,即认为球员在场的每一分钟的表现都是恒定不变的,这与实际情况是不相符的,但当样本量足够大的时候我们认为球员表现是稳定的。
RPM(Real Plus/Minus)=ORPM+DRPM,为了解决RAPM的缺陷,在RAPM原有的基础上加入了Boxscore的修正,放大那些球场上做了更多事情的球员的作用而产生的。圈哥对旧RPM的评分非常高。
但具体怎么修正的我没查到,新和旧RPM的区别我也没查到..
BPM(Box Plus/Minus)=OPBM+DPBM,指一名球员每百回合为球队带来的净胜分,通过Boxscore各项数据加权得到,而各项的权重是通过Boxscore对RAPM的回归得到的。它的出现是为了实现跨年代球员比较————早年并没有详细的正负值或者pbp数据,难以得到早年球员的RAPM。通过BPM便可以绕过RAPM进行球员比较。
BPM的缺陷非常天然,因为Boxscore提供的变量与正负值之间的因果关系很难说,回归得到的系数也不知道显著与否。单从BPM的计算形式上来看问题也很大,最明显的是,用防守篮板(率)、抢断(率)、盖帽(率)三项数据无论怎么加权,都很难让人觉得它合理评价了球员的防守能力,得到的DBPM更多奖励防守侵略性强的球员,克雷·汤普森这样的学院派防守球员的DBPM常年为负。
BPM在威少的MVP赛季被打爆了(篮板、助攻同时多)后,作者对其进行了修正,得到了BPM2.0,不过计算思路应该类似。
VORP(Value over Replacement Player)=(BPM+2)×MP/Team MIN是BPM的一个延伸,代表球员的百回合净胜分贡献超出可替代球员的程度乘以他的上场时间占比。可替代球员被被一位底薪或者轮换边缘球员,-2是BPM模型中的Replacement Level,是人为假定的,后来也根据实际情况进行了调整。一般来说VORP×2.7就是球员贡献的胜场。
RAPTOR(Robust Algorithm (using) Player Tracking (and) On/Off Ratings),计算方法依然是正负值模型的基础上通过基础数据修正,不过基础数据考虑的东西更多,如受助功率等等。
PIPM(Player Impact Plus-Minus)作者叫雅各布·戈德斯坦 (Jacob Goldstein)。PIPM除了正负值+基础数据以外,还加入了运气修正,使一些数据的方差更小。比如,我在场的时候队友罚球命中率更差,影响到我的正负值了,但是跟我没关系;再比如,同样是封到脸上,我上场时对手的三分就是便准了等等。
PIPM已不再更新。
Lebron(Luck-adjusted player Estimate using a Box prior Regularized ON-off )计算结构与PIPM相似。但PIPM使用了估计的 RAPM 计算,并且在构建时没有LEBRON 使用的角色调整和稳定性。LEBRON 是唯一一个利用上述全套技术的影响统计数据,使用实际 RAPM 计算(而不是 RAPM 计算的估计值)进行角色调整、稳定和运气调整值。
EPM(Estimate Plus/Minus)的算法没有公开,但是效果出类拔萃(见下一部分的比较)。
SPR(Simple PlayerRating),思路与BPM类似(缺陷也类似),但是用于单场计算。计算公式如下:
TPA(Total Points Added)基于BPM(百回合带来的净胜分)计算,即BPM*球员回合数/100。这个公式TPA是一个累积数据,打得越久越高。篮圈在微博对它的评价是“不配被提到。”
GmSc(Game Score):简版per值。垃圾数据。
Daily Plus-Minus (DPM),使用“指数衰减”和“卡尔曼滤波器”的复杂方法来考虑时间序列和样本大小,以将所有历史数据考虑在内。用于衡量生涯。圈哥给了S的评分。
EPM的作者做了一个所有用于评定单赛季水平的一体化数据的比较。他进行了对各个指标进行了追溯分析(retrodiction analysis),其中使用球员指标值来预测下个赛季的球队评分。这个想法是预测误差越低,球员的指标值就越准确。
EPM作者语:“EPM 和 RPM 是唯一直接使用 RAPM 和贝叶斯先验信息(不懂怎么就贝叶斯了)的指标,在所有指标中始终表现最好,EPM总体领先RPM。RAPTOR 是明显的第三名指标。”
因为网速原因,还有一些历史数据要收费,所以我个人引用一般用RAPTOR比较多。 EPM比较少。
至于TPA 我赞同圈哥的评论:“不配被提到”
本文感谢 @篮圈即是原点 引用了他大部分分析。感兴趣的可以去关注一下。
本文感谢 @狗夕夕 的汇总。
黑色轩辕
· 四川所以数据显示小波特球商高🐶
冒牌大英雄z
· 山东你发的哪个贴不是夹带这种暗戳戳黑格林的意思,装什么呢,你要是真诚直接一点可能大家伙好好看你一眼。