简单讲一下nba官网数据的查询

avatar
关注

我之前介绍过一些高阶数据的算法,可能有人对高阶数据不屑一顾,这个也可以理解啊。毕竟其实算法本身缺陷还是很大的(主要怪这帮人老的太快,打球太少,都给我一年打个800场去啊),不过查数据本身不论是对了解一个球员还是和人对线都是很有用的,所以这里我主要讲一下nba官网数据的查询方法。

当然了,来个免责声明,毕竟我就一业余票友,讲错了是非常正常的事。

常见数据介绍

nba官网实际上数据还是很全面的啊,其他各种网站的数据基本上都是对它的再整理,所有高阶数据的数据来源也都是官网,不过因为是纯英文的,网页加载速度慢,解释也不算多,所以据我观察实际上会用的人不算很多,这里以一个球员的数据为例子讲一下,别的就都好说了。

就决定是你了肥仔

基本信息应该都能看懂

这里稍微讲一下,nba官网的数据大部分都有这么个框,能指定各个赛季,常规赛/季后赛,总数/每场比赛/每48分钟/每36分钟/每100回合,攻防,旁边展开后还有更详细的指定(比如近期几场比赛,对手之类的),不过每种数据详细程度略有区别。


这个是球员信息界面能查的所有大类信息,从上到下是球员基本数据,分割数据(分割成每个月主客场之类的),生涯数据,高级面板数据,追踪数据(重点),对位数据,每个数据能继续细分。我主要讲下后两个。

追踪数据了,这个虽然我觉得是最重点的,但是总体都比较好理解。Tracking数据是从2013赛季开始引入的,通过摄像头提供25fps的场上10个球员的二维坐标以及球的三维坐标,可以说除了球员的具体技术动作录不进去其他事无巨细了,最开始是由SportsUV提供的而且可以下载,很可惜的是从2016还是17赛季开始换成了second spectrum之后就不提供所有数据的下载了(原本留下的部分也就剩700多场,github上一搜就有),只剩下表格里整理的这些。


不过虽然这些数据比较重要,但也都算好理解,我简单介绍下就行。投篮数据里包括了如投篮时对手离你多远,离进攻超时还剩几秒,之前运了几次球,球在手里停了几秒。


篮板里包括对抗和非对抗篮板,以及一堆前置条件。


传球里主要是你传给了哪些队友,队友们接球后命中如何。以及各个队友把球传给你的情况。



防守里主要是你在各个范围内干扰投篮次数,对方命中次数,以及降低命中率的数值(这个我不太确定基准是什么,我怀疑时按照投篮球员平均命中加权算的,毕竟每个人不一样)。

Matchup对位数据,这玩意应该是撕逼最爱了,统计方法不明,实际上有论文写过可以直接用追踪数据算,这里就不赘述了。不过这个真的是看看就好了,为啥呢,我就随便举个例子,当然还是拿胖子。

胖子也算是出场时间不少的人了,结果对位最多的人一共对位了能有85.6回合,差不多折合一场比赛,其他大部分都到不了30回合,这个统计数据就算不考虑队友帮忙协防的问题,自带的方差都是非常大的。(库里面对胖子也就7投7分,难道胖子应该领防库里),所以平时看到拿这个说对位的无视就行。

实际上看单个对位几乎没有任何稳定的有用信息,但是合起来能看一些东西,主要就是俩

1 对位球员的难度,这个就是把对位球员的使用率加权做个和,毕竟大体上出手多的进攻厉害没啥问题。

2 对位球员多样性,这个主要看球员的换防能力,当然其实这个也不一定是换防能力,要和对位难度一起看,如果对位难度高就算换防能力,低就是不愿意防厉害的。

官网虽然数据都是有的,乐意的话也可以自己下载整理(具体怎么整理可以看后面),但是肯定不如直接看整理完的方便,这里安利一个网站

https://basketball-excel.com/

里面可以看到很多信息,虽然不是把官网包圆了,但是球迷比较关心的基本都有。

可以看到胖子的对位多样性一直是可以的,可惜难度太低了,这个往好听了说是解放胖子的协防能力,难听了说(实话说)就是把胖子保护起来,所以对位多样性不小,值得一提的是胖子常规赛防守形态和字母其实挺像的,就是协防能力就天差地别了。

不过球员信息界面实际上是无法获得所有信息的,Season Leaders | Stats | NBA.com这里有其他的球员信息,就不是单列一个球员的了。

Hustle(具体咋翻译我也不知道)这个数据很多开始统计的时候很晚,而且英文不太好懂。

Screen assists指的是掩护助攻,这个玩2k的应该比较熟悉,deflections指的是截断,应该是破坏对手传球或者强迫对手传球失误的意思,loose balls recovered是指抢到脱离双方球员控制的球, charges drawn:造进攻犯规,就是站那里等对面撞,大体上大家都差不多(都不太会造),不过有几个比较突出的。Contested shot是干扰投篮,可以看出里面包含了一些比较主观的因素,因此我比较倾向于这个是记录人员自己记的。


另外在这个页面里还有比较重要的lineup数据和playtype数据,分别是阵容数据(可以指定2,3,4,5人组合)

举个栗子,我想看东欧两人在场的进攻防守效率,就这么设置就行,nba官网这方面很细的。


进攻120,防守113,还行,不过正如我一直强调的,一共没打多久(也没考虑队友对手)随便看看就好。


另外一个比较有意义的是进攻方式playtype(单挑,转换,挡拆持球,挡拆顺下,低位,定点,手递手,空切,无球掩护,补篮,杂项,可以在我上面推荐的网站basketball-excel里找到,不过防守应该只有官网有) 


Nba官网我没讲到的数据其实也很多,里面互相重复格式很乱的也不少,但基本也够用了。

如何正确看待数据量

讲完数据获取之后我想说一下如何看待这个数据,首先大家一定要明白的一点是,单赛季来讲,几乎所有数据都是样本量不足的,我们拿lineup数据举例子,联盟一个赛季一般要打20w个回合,但是大部分组合都打不到10回合。

能打到100回合的可以说凤毛麟角,如果能打到100回合的话,我们可以简单算一下方差。(这里理想化的把每次进攻当成是独立的随机变量。)假设每次得分概率50%,一次得2分,100回合平均下来成功得分的标准差就有0.05,三个标准差就有0.15了,就算按照一个标准差来算百回合都有+-10分的偏差,然后联盟第一和末尾百回合一般也就差10多分……更别说现在3分扔的多了。作为佐证你可以看到一些打了100回合的5人组只需将数据剖分一下(比如说分为主客场)内部的净胜分差距都能到15分。三分投篮也类似,3D一个赛季能扔300个三分就是很好,一个标准差仍然能有+-3%的差距。

这个才是nba数据分析的最大困难,也是高阶数据这种粗糙计算方式大行其道的原因---数据质量就这样(如果能拿到tracking数据可能情况能好一些),当然你可以通过增加样本量来减小噪声,但是球员每年变化也是不小的,时间一拉长就很难分析实时的变化了。

 

所以有的时候看球也是这样的,比如说哈达威首发才能扔的准,替补就不行。欧文077进攻兼容性很差(实际这俩一起进攻效率挺高的,077无球不行但欧文咋也比dvd强吧),等等一些玄学说法都要谨慎看待的,毕竟一个赛季的样本都如此不足,一两场甚至十几场比赛的力度也肯定不行。

 

另外如果想自己整理的话推荐几个网站:

dblackrun/nba-stats-tracking: A package to work with NBA player tracking stats using the NBA Stats API (github.com)

 

swar/nba_api: An API Client package to access the APIs for NBA.com (github.com)

 

以前的tracking数据

sealneaward/nba-movement-data: SportVU movement tracking data. (github.com)

国内篮圈上的原点博主做的网站(不稳定,也许需要梯子)

Basketball Excel (basketball-excel.com)

阅读 8254

全部回复

discusser-avatar

俄城穿搭之神SGA

· 广西

老哥你好像发错区了

亮了(0)
回复
discusser-avatar

快来plq找野味

· 四川

纯分享帖,顶一个

亮了(0)
回复