【战术室】TPA和BPM榜单没有塔图姆字母哥和伦纳德?根源还是在于BPM重攻轻守
大部分数据是带偏差的,BPM就是其中一个。
今天刷到一条新闻:
"今日,数据媒体NBA_Math发推总结了截止到目前为止的反映攻防综合影响力的高阶数据TPA的联盟前十球员排名:
1. 尼古拉-约基奇:126.51
2. 乔尔-恩比德:82.23
3. 泰雷斯-哈利伯顿:77.75
4. 斯蒂芬-库里:74.59
5. 谢伊-吉尔杰斯-亚历山大:65.54
6. 泰雷斯-马克西:62.99
7. 卢卡-东契奇:62.85
8. 勒布朗-詹姆斯:59.41
9. 斯科蒂-巴恩斯:58.26
10. 多诺万-米切尔:56.69“
是不是很好奇为什么作为联盟第一的凯尔特人,首发攻防效率历史第一,为什么这个榜上一个凯尔特人的球员都没有?为什么字母连个名字都排不上?为什么伦纳德和杜兰特也不在这个名单里?
答案还蛮直接的,凯尔特人TPA榜上无名跟回合占有率、平均主义什么的都没有关系,纯粹就是BPM这个重攻轻守的高阶面板数据的硬伤。
TPA全名叫total points added (总加分值),它是BPM的衍生品——他跟BPM几乎没有区别,除了加了一个场上回合数修正。也就是说BPM倾向于每场的贡献值,但TPA是BPM反映在每回合上的贡献值。
现在我们可以开始追本溯源了:
BPM跟什么有关系?
为什么我说BPM重攻轻守?
为什么我会觉得BPM偏差大?
根据Basketball Reference的介绍,BPM2.0是根据面板数据做线性回归得出来的估计结果。这里就存在着一个重要的隐藏条件,那就是面板数据是进攻数据统计多于防守数据统计的。所以BPM模型的计算结果本质上就是更偏向于进攻数据的。
例如按照本赛季至今的数据:
BPM和进攻BPM的相关度高达0.91
BPM和防守D-BPM相关度仅仅位0.59。
这个重攻轻守的差距大到什么程度?Basketball Reference官网的介绍中甚至都不敢把BPM和防守数据D-BPM画在一起,只敢对比O-BPM、PER和Win Share。为啥不敢放D-BPM,是因为不想吗?还不是因为相关度低呗….
DARKO(每日调整和回归卡尔曼优化预测)是一个基于机器学习的篮球数据分析系统。DARKO结合了传统的统计技术和现代机器学习方法,用贝叶斯式的方式根据新信息来调整其预测,更新幅度根据球员和统计数据的不同而有所不同。DARKO的数据输入来源包括NBA的比赛记录、追踪数据和来自Basketball-Reference.com、NBA.com的其他比赛级信息。DARKO-DPM能够灵活地应对球员真实技能的变化和随机性的影响。
DARKO还考虑了多种客观因素,如轮休和主客场效应、对手的调整、球员年龄曲线和季节性因素。
所以目前来说,DARKO-DPM堪称篮球界第一高阶数据也不为过。我们根据DARKO-DPM重新来看这个前10的榜:
约老师:7.3
恩比德:5.9
字母哥:5.5
塔图姆:5.5
伦纳德:4.9
乔治:4.6
詹姆斯:4.5
库里:4.5
杜兰特:4.3
霍勒迪:4.0
下图是我自己画的DARKO-DPM和BPM的对比图。
我们可以看到约老师依旧稳如老狗,而在考虑了防守因素和上场因素后,BPM排第二的哈利伯顿被修正到了前10以外,而塔图姆和杜兰特则回到了联盟前10的榜单里。
为什么修正后差距那么大?还是因为防守BPM的不准确。
举个实在的例子,在bpm榜排第19的豪瑟,他的进攻BPM高达3.7,防守BPM高达1.2,也就是说他是个顶级进攻者还是个水准以上不少的防守者。
这合理吗?这不合理。实际上豪瑟的Darko-DPM只有-0.11,也就是说他实际上应该是个联盟平均水平附近的防守者,而非联盟中上水平。
同理,被D-BPM高估的球员还有
SGA
哈利伯顿
普理查德
科尔安东尼
杰伦布朗
博格丹
…
这类球员的D-BPM都是正的,意味着在BPM这个系统下,他们都是联盟水准以上的防守者。是不是有点反直觉?
另一方面,被D-BPM低估的球员有
维金斯
德里克琼斯
巴特勒
特纳
文班
…
这些球员在DBPM的系统下都是被认定为联盟平均防守水准以下的球员,但Darko-D-DPM则将他们归为联盟防守水平平均以上的球员。
由此可见,BPM这个系统在防守衡量上是有多糟糕。
所以这回到了最初的话题,为什么TPA榜单里面没有塔图姆和伦纳德?
答:TPA源自BPM,但BPM重攻轻守,会低估球员防守端的重要性,所以榜单里面会进去不少攻强守弱的球员(豪瑟、朗尼沃克),而忽视掉很多攻守均衡的球员(伦纳德、塔图姆)。
塞尔蒂克人
· 浙江我一直都认为高阶数据是有门槛的,需要了解数据的来源和计算公式。通过媒体传达和翻译呈现在中文受众者前,对于个体球员的认知往往会产生极大的偏差。
荣曜张大仙z
· 上海tpa、bpm、vorp、per、winshare这些一体化数据最大的局限性就是完全无法反映球员技术统计以外的贡献。与其说是高阶数据,不如说是基础数据的大杂烩。