关于高阶数据的简单介绍
最近似乎对高阶数据感兴趣的人比较多,那么我也简单介绍一下,这片文章也会参考很多其他博主的介绍,毕竟我也不是专业搞这个的
首先高阶数据是用来干什么的:
1.nba球队挺多比赛也多,想要不看球了解球员看高阶数据是一个很快捷的方式
2. 高阶数据客观的多,实际上就算你总是看球都是不可避免有主观因素的,比如这个人三分绝杀了一次就总下意识觉得这个人三分很好(浓眉夺冠赛季),强硬的抢下一次篮板就觉得这个人篮板很好,毕竟大家平时看球也不会拿笔记本。高阶数据可能不准确但确实不会犯这些问题,而且其实准确性方面也毕竟有专家在修正。
那么高阶数据的局限性:
1 高阶数据都需要一定量的比赛才能准确(人看球也一样),因此高阶数据一般只用来评价常规赛表现,季后赛模式和常规赛完全不同,比赛也不够多,因次用高阶数据预测球员的季后赛表现误差是很可能很大的。
2 防守难以衡量,进攻方面分数据相对容易获得,防守在很长一段时间里都只有盖帽抢断篮板这种最基础的,还很有迷惑性的数据(以防守篮板最为有迷惑性),用他们来建模的数据当然是没法反应球员的防守水平的,当然最近的防守数据收集也开始有了起色(比如对抗篮板率,篮板机会,防守篮板卡位,破坏球权(没抢断成),对位多样性,对位难度)之类的,使得最近的高阶数据里对防守也有了更全面的建模
高阶数据是如何计算的:
古早的高阶数据比如per是纯粹的专家通过基础面板加上自己的理解给定系数加权算出来的,在刚出现的时候还是有进步意义的,不过随着比赛的变化(比如三分以前不在乎)以及新算法的提出已经数据可有可无的了,各类直接算出来的数据都可以归结于此,他们都没有办法体现球员数据外的价值,直到真实正负值的出现。
之后就是一切高阶数据的始祖rapm,它的出现使得高阶数据对看不见的价值有了真正的估计。原理比较简单就是解方程,假设一个球员在场上每百回合能帮球队赢的分数是个固定的值(这个当然有问题,但最后算出来的你也可以认为是个平均值),那就可以列方程了,我方5个球员-对方5个球员就是最后的正负值,然后解方程。最后的结果当然就是解不出来,只能用最小二乘法估计
,得到一个尽量接近实际的值,同时为了提升泛化能力,引入了一个岭回归的正则化方法(有点像深度学习里的l2正则化)。这样算出来的结果就比较真实的反应球员的能力了。
当然rapm也是有缺陷的(不然没别的了)他需要大量的数据(毕竟仅仅用正负值,单赛季的信息量不够),一般认为5年的rapm是比较有参考性的,这导致rapm比较难于评价球员的单赛季表现。另一个是如果有一些球员同上同下的过于厉害,那就很难把他们分开(这个也需要时间够长,最好能转个会啥的)。另外rapm对所有比赛一视同仁,虐菜战绩会和攻坚的同等看待,因此衍生出了一些修正rapm(也引入了作者主观态度,凭啥虐菜就不是能力了233)微博能搜到。
为了评估球员的单赛季水平,常见的高阶数据就应运而生了,现在最流行的有 epm,lebron,raptor,bpm这四项(https://basketball-excel.com/里面都能查到,博主整理的,还有很多其他数据,十分推荐)epm和lebron属于比较可靠的数据,raptor我不太了解不过风评一般,bpm是我最开始接触的,不过bpm很大程度上是为了比较历史球员,所以不会使用最近才能看到的数据,这使得它的防守数据几乎没有任何参考价值,进攻精度尚可。
这些数据的核心目标就是通过球员的基础面板+最近采集的一些高级面板来拟合5年rapm,同时会有一些作者的主观修正,比如bpm会引入当前赛季的平均真实命中率来给以前的球员做补正,lebron会剔除作者认为是纯粹运气的数据(比如球员A在场时对手的罚球命中率提高10%,这真是太不幸了),他们的共同特点是进攻端非常有参考性,防守就见仁见智了,不过epm和lebron的防守数据还是有参考价值的(不过我至今没搞明白epm的数据是按照位置算的还是所有位置一起算的)。
最后附上077 的高阶数据
epm,lebron,raptor,bpm的排名分别为(20,32,8,4)
不过对排名要有个清晰的认识,实际上高阶数据相差在1以内的球员可以说非常接近,不要看epm和lebron的数据不高,实际上那个位置很挤(和高考密集分数段似的),raptor不了解不过似乎和bpm一个毛病,bpm则是因为077海量的篮板把他当成了防守大闸使得排名虚高。
综合来看不考虑出勤077是本赛季众多前十球员候补之一(大概有快20个都差不多),但不是稳定的前十球员
联赛33冠
· 江西好贴,顶顶
联赛33冠
· 江西群里另一个讲高阶数据的帖子怎么没了