足球是一项备受欢迎的运动,更是一项大生意。从教练的角度来看,球队经理做出的最重要的决定都与球员转会有关,因此与球员价值相关的问题,尤其是转会费和市场价值是球队最关心的问题。市场价值可以理解为对转会费用的估计,也就是球员在足球市场上可以支付的价格,因此它们在转会谈判中扮演着重要的角色。
众观当今足球,年轻的姆巴佩现在已经声名鹊起,已是当今足坛最好的球员之一。2017年,年仅19岁的姆巴佩以租借的方式转会巴黎圣日耳曼,时隔一年后巴黎正式将其买断,转会费高达1.45亿欧元+3500万欧的浮动条款。而在俄罗斯世界杯上姆巴佩带领法国队时隔20年再次捧得大力神杯,也让姆巴佩的最高身价一度超过了两亿欧元,成为当今足坛身价最高的球员,而且不出意外的话,他会将这一纪录保持多年。那么为何姆巴佩身价如此之高?我们试着通过文章分析得到答案。
1.介绍
拥有数百万球员和数十亿球迷的足球是世界上最受欢迎的运动。由于它的受欢迎程度,职业足球队产生了巨大的收入;它们不再仅仅是俱乐部,而是拥有股东和经理、销售和利润、客户和球迷的公司。从管理的角度来看,这些“足球公司”最重要的决定是考虑雇佣哪些球员。由于球员转会对俱乐部成功的机会有着巨大的影响,来自不同领域的研究人员开始长期研究影响转会费的因素。
市场价值长期以来都是由球队经理和体育记者等足球专家来估计的,而在过去的几年里,德转Transfermarkt等数据网站已经证明了它们在估计市场价值方面的作用。然而,早期以数据驱动市场价值的估算方法在职业足球中还没有流行起来。在数据分析方面,足球一直落后于其他主要运动项目。2010年《纽约时报》仍称足球是所有主要运动中“统计最少的”,这在很大程度上是因为当时可用的数据相对薄弱。如今,像Opta这样的体育数据公司收集了大量的详细数据,这些数据可以用于对职业足球运动员进行评估。虽然早期一些足球俱乐部已经开始分析这些数据用于训练和决定球队阵容,但只有少数俱乐部意识到这些数据的经济潜力。他们仍忽视了《点球成金》影片里的使用统计数据来指导球员的考察和招募的理念。
我们通过对Oliver Müller , Alexander Simons , Markus Weinman等人2017年在欧洲运筹学杂志发表的《Beyond crowd judgments:Data-driven estimation of market value in association football》,来评估了数据分析在评估职业足球运动员市场价值方面的适用性。为此,我们总结出以下四点:
1) 基于人群市场价值评估的缺点,证明了数据驱动的方法对市场价值评估的探索是正确的
2) 综合有关球员估值的学术文献,找出决定玩家市场价值的因素;
3) 通过欧洲五大联赛六个赛季的公开数据的大样本来建立一个基于数据驱动的市场价值估计的多级回归模型
4) 通过与实际转让费和估值的比较,我们评估了我们模型的准确性,定义数据分析在克服大众局限性方面的潜力。
2.背景
2.1职业足球的市场价值
无论是从体育角度还是从商业角度来看,球员都是职业足球最重要的投资。而在美国,职业运动员通常用来交换其他运动员或未来的选秀权(如美式足球或棒球),欧洲足球运动员通常用现金结算交换,即“转会费”。球员的市场价值是对最有可能为他们支付的转会费的估计。虽然存在概念上的差异,但市场价值和转让费是可比较的。因此,球员的市场价值可以被定义为“独立于实际交易之外,俱乐部为了让一名运动员签署合同而愿意支付的金额的估算”。同样的,市场价值会告诉我们买卖双方球员的金钱价值,所以在转会谈判中,市场价值是很重要的。市场价值传统上是由俱乐部自己或体育记者来估计的,但随着球迷对市场价值产生兴趣,提供球员市场价值估算的网站也出现了。特别是,众包已经证明了它在估计市场价值方面的有用性。
2.2基于大众的市场价值评估
Transfermarkt是足球转会市场的领先网站。该网站提供一般的足球相关数据,如进球和结果、足球新闻、转会传闻以及对大多数职业足球联盟的个人和球队层面的市场价值估计。一旦用户在Transfermarkt注册,他就可以关注有关球员市场价值的讨论,根据球员当前的价值和表现提出个人估计,并与其他社区成员讨论他们的建议。最后的市场价值是由各个估计的总和决定的。(Transfermarkt于2001年在德国推出,现在是德国访问量最大的网站之一,它在2009年发布了英文版,此后网站的版本已经在奥地利、意大利、波兰、葡萄牙、西班牙、瑞士、土耳其和荷兰开放,中国球迷称之为德转。)
Transfermarkt的想法是,用户可以一起建立市场价值的估计,甚至比专家评估的更好,这是Surowiecki(詹姆斯·索罗维基)提出来的“群体的智慧”的理念。欧洲一些最有影响力的报纸和杂志经常引用Transfermarkt对足球运动员的市场价值,这被发现与专家的估计和球员薪水密切相关。因此,Transfermarkt的市场价值为一些关于足球转会市场的研究提供了基础。Transfermarkt在估计市场价值方面的准确性是值得注意的,因为众包通常与社会影响、操纵企图以及缺乏经验和知识等有关,这些可能会对参与者的市场价值产生偏见。Transfermarkt通过实施“判断原则”来应对这些挑战,这是一种选择性的信息聚合方法。
赫姆等人在2014年发表的文章中认为信息聚合的判断原则是这样的。Transfermarkt并没有以一种民主的方式来评估市场价值,这样所有的用户评估都是相等的,但是它使用了一种分层的方法。因此,Transfermarkt并不计算最终的市场价值作为所有个别估计的平均值或中值,而是给出一些被赫姆等人称为“法官”的被授权的社区成员拥有最终决定权。因此,法官会对其他用户的估计进行审查,在做出决策时进行选择和权衡,从而降低或增加他们认为不合格或不合格的用户的影响。虽然最终的市场价值不是民主计算的,但是有理由相信选择-判断原则比纯粹的民主方法在信息聚合方面更有效。例如,当鲜为人知的球员只得到很少的投票时,用户的估计明显过高或过低会显著地影响结果——可能是由于操纵企图(比如投机的体育经纪人),也可能是由于缺乏知识(比如缺乏经验的球迷)。法官可以将这样的估计排除在外,这降低了偏见的风险。
然而,尽管众包的好处和它被证明的准确性存在争议,但这种评估市场价值的方法也有一些局限性。
首先,社区成员的估计是建立在任意的指标上的,这可能是无意识的,所以他们缺乏客观性。(Transfermarkt建议了一列评估标准,但这些不是强制性的。)
其次,法官可以根据个人对用户估计和其他指标的评价,独立地确定最终的市场价值,因此它们是不可重复的。(由于Transfermarkt没有以正式的方式计算最终价值,因此出现了由谁来判断这些法官的问题。)
第三,由于人群估计需要很多用户的参与,市场价值没有逐场更新,几场比赛后可能就不再准确,所以人群估计通常效率不高。(Transfermarkt通常每6到12个月评估一次市场价值。)
第四,对于那些为足够多的球迷所熟知的球员,球迷的估值往往更为准确,因此他们通常不支持在小联盟物色球员。(在一些国家和联赛中,Transfermarkt在论坛上发表的帖子数量相当少。)第五,球迷估计的市场价值是公开的,所以他们在转会谈判中不会给俱乐部带来竞争优势。(Transfermarkt的市场价值日益影响足球市场上的合同和工资谈判。)正如下一节所解释的,用数据驱动的方法来估计市场价值将解决这些限制。
2.3由数据驱动的市场价值估算
美国职业棒球大联盟(MLB)是第一个在球员招募中认真使用数据分析的运动。20世纪90年代末,奥克兰运动家队(Oakland Athletics)的总经理比利·比恩(Billy Beane)开始使用统计数据来寻找球员,并决定球队的花名册。这个故事在畅销书《点球成金》(Moneyball)和同名改编的电影中最为人熟知。从球员数据中产生的洞察力,帮助球队管理层识别出被低估但有天赋的球员,以及被高估但已经达到巅峰的球员。在接下来的20年里,尽管他们是大联盟球队中预算最低的球队之一,但运动员招募的创新方法帮助球队几乎每个赛季就进入季后赛,之后许多球队采纳了比恩的想法。
在使用定量数据方面,职业足球一直落后于棒球和篮球等运动,这源于足球俱乐部避开了《点球成金》的想法。例如,2010年美国美国职业足球大联盟(MLS)的网站只显示了每个球员6项指标,而美国职业棒球大联盟(MLB)的网站显示了29项打击率指标。“与大多数美国团队运动的情况相反,足球很少记录个人表现指标”。但如今,像Opta这样的体育数据公司已经开始收集足球运动员的详尽数据,一些俱乐部开始在训练和比赛中收集自己的数据。例如,在2014年巴西世界杯期间,德国足协(DFB)使用SAP的一个大数据解决方案(SAP Match Insights)来分析球员的表现。这家软件公司用10名球员和3个球进行10分钟的训练,就能产生超过700万个数据点。
布拉德皮特主演的《点球成金》然而,早期大多数俱乐部使用新获得的数据只是来调整训练计划和阵容的决定,而这些数据的潜在支持管理层的决定被忽略了。只有少数俱乐部会系统地使用数据分析来评估球员的价值,但大多数都是中小型俱乐部,对于这些俱乐部来说,购买昂贵的超级球星并不是可行的策略。例如,丹麦超级联赛中日德兰俱乐部(FC Midtjylland)使用统计模型来评估球队和球员,德国德甲俱乐部霍芬海姆的老板、SAP的联合创始人迪马特奥·霍普(Dietmar Hopp)在霍芬海姆推动了统计分析的使用。2015年,罗伯托·菲尔米诺以霍芬海姆俱乐部史上最高的转会费4100万欧元转会到利物浦,而四年前霍芬海姆只花了400万欧元引进菲尔米诺,老板霍普确定了未来运营团队成功因素:作为创新技术的早期采收者,在职业生涯的早期就发现有天赋的球员并加以发展,使他们在球场上和资产负债表上都有所贡献。
这对判断和决策的研究提供了强有力的经验和理论论证,支持统计估值而不是人为判断,尤其是当涉及到复杂的决策时。埃文、斯特沃斯基和卡尼曼在研究足球运动员的市场价值时,对136项实证研究的荟萃分析表明,统计技术比人类判断的准确度平均高出10% ,这些研究比较了从临床决策到经济学领域的统计预测和人类判断。统计方法比人类判断的优势同样适用于受过训练的、未受过训练的、有经验的和没有经验的“法官”。因此,我们的市场价值的数据驱动估计方法使用一个统计模型。
根据布伦斯维克(Brunswik,美国心理学家,是概率机能主义的创始人)提出来的透镜模型,赫姆等人用它来提出Transfermarkt是如何估算市场价值的概念,还可以用来解释我们的数据驱动的市场价值估计方法(图表格1)。因此,以大众为基础的评估市场价值的方法使用不同的指标和权重。相比之下,数据驱动的市场价值评估方法使用具有一致指标和经验衍生权重的统计模型来评估球员的市场价值,它克服了人群的局限性:
1. 由于模型为所有球员使用相同的指标和权重,是透明的和可复制的;
2. 时效性,因此市场价值可以将每一场比赛进行更新;
3. 可以对知名和不知名的球员进行无偏估计,可以用于球员的侦查;
4. 不需要公开宣传,可以为使用它的俱乐部在转会谈判中提供优势。
表格1.市场价值指标
3.市值指标
3.1概述
研究已经确定了几个可用于估计市场价值的因素,这些因素与Transfermarkt人群使用的因素相似。图1将最常见的市场价值指标分为三类——球员特征、球员表现和球员影响力——并展示了使用这些指标的一些研究。
研究人员研究了转会费的指标和市场价值,关于球员薪酬的研究也可以用来识别市场价值指标。事实上,球员的工资受到同样或者至少是类似的影响市场价值和转会费的因素的影响。因此,我们通过回顾关于球员估值、支付和市场价值的研究来解释市场价值的三个指标类别转移。
3.2球员的特点
我们将球员特征概念化为球员的身体和人口统计属性。年龄是市场价值的一个重要指标,因为它反映了经验和潜力。大多数关于球员估值的研究使用了二次年龄项来考虑非线性关系,考虑到球员的价值通常会在25岁左右时增长,然后下降。年龄显然对薪酬和价值产生积极(消极)影响。此外,球员的身高可以显著提高薪资回报,因为它表明了良好的头球能力,可能增加得分或阻止进球的可能性。
在球员估值研究中研究的另一个球员特征是双足能力。研究得出结论,双足能力提高了球员的工资,双足能力通常是一种更有利的足球技术,它反映了球员的灵活性,从而更擅长球场上的不同位置。研究人员也研究了球员的国籍是否会因为歧视而影响他们的价值和薪酬。在对西班牙职业足球联赛的研究中发现,非西班牙的欧洲球员被系统地高估,而非欧洲球员则被系统地低估。但Reilly和Witt在1995发布的《英格兰联赛转会价格:有种族因素吗?》没有发现职业足球运动员受到歧视的证据,这一结论也被Medcalfe发表于应用经济学快报的《英格兰联赛转会价格:有种族因素吗?用新数据重新检查》重新证实。
最后,一个球员的位置,守门员、后卫、中场或前锋在估计市场价值时同样重要。研究人员发现,球员的位置会影响球员的薪水和转会费,因为它们反映了球员专业化的程度和对应球迷的吸引力。研究发现守门员的收入明显低于中前场球员,因为守门员在场上的使用不太灵活。进攻球员比守门员得到更多的关注,因为进攻球员更容易被观众看到,因此有更高的吸引力。
3.3球员的表现
球员的表现反映了球员在场上的表现。比赛时间一直被用于球员评估研究中。例如,在国内联赛、欧洲联赛和国家队出场对转会费和市场价值有积极影响。研究者区分了球员赛季中的出场和职业生涯中的出场,并考虑了替补出场和上场时间来计算实际上场时间。
由于在职业足球中长期得不到详细的表现数据,只有少数研究人员使用进球和助攻以外的表现指标来解释价值和薪酬,如传球、防守能力、盘带、犯规、红黄牌。由于表现指标的重要性因位置而异,研究者在他们的球员价值模型中也包含了交互效应。例如,前锋应该进球,后卫应该拦截,中场应该防守和进攻同样出色。
3.4球员影响力
关于演员、歌手等“超级明星”出现的理论表明,不仅只是看天赋而且看重外界的受欢迎程度。因此,球员的市场价值也取决于他们对球迷的受欢迎程度,这与他们在球场上的表现无关,球星可以带来更多俱乐部的球衣销量和上座率。因此,对足球转会市场的研究也调查了与人气相关的因素。通过分析在线新闻和网络链接。莱曼和舒尔茨得出结论,媒体曝光率(以球员名字在德国体育杂志Kicke的在线版本中被提及的次数来衡量)与薪水有关。弗兰克统计了报纸和杂志中提到的德甲球员名字的频率,以确定超级巨星在主场和客场比赛中是否提高了上座率。
4.数据收集和描述
研究收集了关于球员特征、表现和受欢迎程度的赛季数据,这些数据来自一些互联网资源,包括Google、Reddit、Transfermarkt、WhoScored、Wikipedi和YouTube。我们收集了从2009/10赛季到2014/15赛季的6个赛季球员的数据,这些数据来自欧洲五大联赛,即英格兰超级联赛、西班牙足球甲级联赛、德国足球甲级联赛、意大利足球甲级联赛和法国足球甲级联赛。为了提高数据的可靠性,并与之前的研究一致,我们只考虑了在一个特定赛季中出现在球场上至少90分钟的球员,并将守门员排除在我们的样本之外,因为他们的表现是用一种与其他球员截然不同的方式来衡量的。结果数据集包括来自146支球队的4217名球员的10350个观察数据。表2提供了一个概述。
我们用数据驱动的方法来估计市场价值,在概念上类似于大众如何估计市场价值。为了估计一个球员在一个赛季后的市场价值,我们使用他在前一个赛季末对市场价值的估值作为基准,并添加他在那个赛季的特征、表现和受欢迎程度的数据。由于Transfermarkt对市场价值的估计的准确性已经被研究者反复确认,并且由于没有其他可靠的来源提供历史数据,我们使用Transfermarkt对市场价值的估计来训练我们的模型。我们首先收集了6个赛季结束时对样本中所有球员的估计。在Transfermarkt所有联赛和赛季的球员平均身价约为560万欧元;玩家的市场价值从5万欧元到1.2亿欧元,标准差约为820万欧元。
为了评估球员的市场价值,我们收集了他们的特征、表现和受欢迎程度数据。我们根据球员的年龄(年龄)、身高(厘米)、脚部(双脚是否灵活)、国籍(国籍)和场上位置(后卫、中场、前锋)。在我们的数据集中,球员的平均年龄是26.5岁,身高181.5厘米(接近6英尺)。8%的球员双脚熟练,41%的球员是中场(21%的前锋,38%的后卫),76%的球员来自欧洲(12%来自南美,10%来自非洲,2%来自其他洲)。
我们通过每个赛季的上场时间、进球、助攻、黄牌或红牌来衡量球员的表现以及每场比赛传球、盘带、争高空球和铲球的次数和成功率;以及每场比赛的拦截、解围和犯规次数。在我们的样本中,球员平均每个赛季上场1612分钟,期间进了2.4个球,1.6次助攻,得到3.5张黄牌和0.2张红牌。平均每场传球29次(成功率为78%),盘带1.2次(成功率为51%),犯规1.1次。场均进行了2.2次争高空球(获胜47%),2.2次铲球(成功71%),1.4次拦截和2.1次解围。
表格2 描述性统计
我们使用互联网四个指标来衡量球员受欢迎程度:一名球员的维基百科页面浏览量,多长时间一个球员的名字在谷歌上被搜素的频率,一个球员的名字出现在Reddit足球论坛上的次数,一名球员在YouTube上有多少关于他的视频。平均每位球员拥有超过10万的维基百科页面访问量和超过3.5万的YouTube视频,出现在Reddit论坛的15.4个帖子中,谷歌的平均搜索指数为13.4。
5.结果
5.1模型规范
为了建立估计球员市场价值的统计模型,我们拟合了一系列回归模型,这些回归模型包括球员之前的市场价值、球员的特征、性能指标和人气指标作为预测因子。由于我们的数据结构是分层的(球员嵌套在球队中,球队嵌套在联赛中)和纵向的(球员踢了多个赛季),模型的残差可能不是独立的,这将违反线性回归的中心假设。因此,我们使用了指定将球员、球队、联赛、位置、大陆和赛季作为随机因素的多层模型,并允许截取变化。
5.2回归结果
表3给出了固定效应的估计系数、标准误差和p值,以及随机效应的标准差。模型1作为基线模型,只包含一个拦截和以前的市场价值。模型2添加了球员特征,模型3添加了球员表现变量,模型4添加了球员影响力指标。以赤池信息准则(AIC)和贝叶斯信息准则(BIC)衡量的拟合优度随着变量块的增加而提高;似然比检验证实这些改进是显著的(从模型1到模型2:模型2 (3)= 2439.00,p=.000;模型2 - 3:模2(16)=4843.20,p=.000;由模型3到模型4:模型2 (4)= 144.12,p=.000)。
由于因变量是在对数尺度上测量的,模型的系数可以大致解释为百分比变化。对数变换的自变量的系数必须解释为弹性。例如,在模型4中,在其他所有变量不变的情况下,每个赛季增加一个额外的目标(助攻)会使球员的市场价值增加2.4(1.5%)个百分点,而维基百科页面浏览量的1%的增长会带来0.02%的市场价值增长。
在模型1,即基线模型中,之前的市场价值(.543;p < .001)显著。模型2中的显著变量为以前的市场价值(.610;年龄2(−.002;p < .001)显著。模型2中的显著变量为以前的市场价值(.610;年龄2(−.002;p <措施)。AIC从17,416.2下降到14,983.2,表明拟合优度有所提高。
在模型3中,模型2中显著性变量为前市价(.495;从一系列的表现变量来看,上场时间、进球、助攻、传球、成功传球、盘带、争高空球、铲球和黄牌也很重要。足球运动员每踢一分钟,他的市场价值就增加0.03% (p < .001),每个进球就增加2.60% (p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001)。传球(0.57%;p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001)。传球(0.57%;p < .001),传球成功率(30.05%;p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001)。传球(0.57%;p < .001),传球成功率(30.05%;p <.001)、盘带(3.02%;和争高空球(1.33%;而铲球(- 2.08%;p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001)。传球(0.57%;p < .001),传球成功率(30.05%;p <.001)、盘带(3.02%;和争高空球(1.33%;而铲球(- 2.08%;p < .001)和黄牌(-0.41%;p < .001),每个进球就增加2.60% (p < .001),每个助攻就增加1.58% (p < .001)。传球(0.57%;p < .001),传球成功率(30.05%;p <.001)、盘带(3.02%;和争高空球(1.33%;而铲球(- 2.08%;p < .001)和黄牌(-0.41%;p < .05)降低。模型的拟合优度较模型2有所提高,AIC从14,983.2下降到10,172.0。
模型4添加了受欢迎度数据。当添加维基百科页面访问量、谷歌搜索指数、Reddit帖子和YouTube视频时,模型3的变量基本保持稳定。四个受欢迎度变量中有三个与球员的市场价值显著相关,维基百科页面访问量每增加1%,就会增加0.02%(p<.001),Reddit帖子每增加1%,就会增加0.03%(p<.001),Reddit帖子每增加1%,就会增加0.03%(p<.001),YouTube视频每增加1%,就会增加0.01%(p<.001),Reddit帖子每增加1%,就会增加0.03%(p<.001),YouTube视频每增加1%,就会增加0.01%(p<.01)。与以前的模型相比,该模型的拟合优度增加,AIC从10,172.0下降到10,0359.0。
表3.固定效应的估计系数、标准误差和p
随机效应的参数估计(即标准差)在不同模型(σ2到σ6)中基本稳定,但在模型1(.444)中,未解释的特定于球员的变异性(σ1,嵌套在嵌套在联赛中的团队中的球员的标准差)相对较大,但当添加额外的固定因子和协变量时,则会减少(模型4:.185)。换句话说,这些变量解释了球员之间的额外差异。
5.3模型评价
市场价值是不可观察的,这使得评估我们的统计模型的准确性变得困难。因此我们将模型估计值与实际的转会费进行了比较。然而,市场价值和转会费不一定相同。例如,球员可以在俱乐部合同到期后自由转会,但这并不意味着他们的市场价值为零,有时俱乐部为球员支付费用太贵,特别是如果他们必须快速的找到替代受伤的球员或者想要削弱竞争对手。在此背景下,我们还将我们的模型估计与人群估计进行了较,这为评估我们的模型的准确性提供了另一个基准。从评估样本中选出转会费为零的球员(因为他们的合同已经到期或者他们是被租借的),以及数据集中146家俱乐部出售的球员(因为他们购买的球员可能来自欧洲五大联赛以外的联赛,所以我们不会有他们的数据)。在这个过程中,我们收集了845笔转会费,用来评估模型的准确性。
因为我们的样本跨越了几个赛季,我们不能对预测模型使用标准的评估策略,比如k-fold交叉验证,因为这些策略会引入泄漏的风险——也就是说,使用来自未来的数据来训练过去的模型。因此,我们采用了一种基于时间序列的评估方法,以确保一个球员在特定赛季后的市场价值仅基于当时已知的数据进行估算。例如,为了估2009/10赛季后球员的市场价值,我们用2009/10赛季的数据训练模型;为了估计2010/11赛季后球员的市场价值,我们用2009/10赛季和2010/11赛季的数据训练模型。在我们获得评估样本中所有845家球员的市场价值的统计估计值后,我们计算了每个玩家的模型估计值和转让费之间的差异,并在此基础上,将均方根误差(RMSE)和平均绝对误差(MAE)作为聚合度量。我们用同样的两种方法计算了群众的估计。
如表4所示,评估结果表明,大群的估计要比模型的估计稍微准确一些,他们更接近实际的转让费,RMSE(均方根误差)降低了3.4%,MAE(平均绝对误差)降低了3.6%。然而,将人群的估计值与模型的估计值进行比较的迪博尔德-马里亚诺测试显示,在统计学上没有显著差异(p < .340)。平均而言,人群对球员转会费的估计偏差了3,241,733欧元,而模型的估计则偏差了3,359,743欧元。
表格4 模型评价
然而,探索性数据分析显示,球员的市场价值分布高度扭曲,存在极端异常值,转会费也是如此。因此,我们评估了模型估计和人群估计在不同价格区间的准确性。如图1显示了在各个截止点对数据集进行滤波时,模型估计和人群估计之间的RMSE差异的发展情况。虽然两种估计方法之间的差异通常不是很大,但是模型对于中低价格的球员更准确,而大众对于高价球员更准确。
图1模型与人群估计值的比较说明
模型估计和人群估计之间的交叉发生在大约1800万欧元的转会费,这是分布的90%。(图2给出了转让费的直方图。)换句话说,平均而言,对于所有交易中较低的90%,模型的估计要比人群的估计更准确。相比之下,对于转会费较高的球员,人群给出的平均估值更准确,比如大卫·路易斯(David Luiz)和埃丁森·卡瓦尼(Edinson Cavani)等超级明星,他们分别被巴黎圣日耳曼足球俱乐部(Paris Saint-Germain F.C.)以4950万欧元和6450万欧元的价格买下。
图2转会费的分布
6.讨论
总的来说,我们的统计模型的评估结果证实了数据分析在估计市场价值方面的适用性,因为估计的市场价值与实际的转让费没有明显的偏离。平均偏差约为340万元,考虑到当今足球高昂的转会费,这不算多。(在我们的样本中,球员转会费的范围从1000欧元到101,000,000欧元,标准差为9414,575欧元。)不过,很难仅从转会费的比较中得出结论,因为它们在概念上与市场价值不同。为了获得另一个基准,我们还将我们的模型估计与Transfermarkt对市场价值的估计进行了比较,我们发现市场价值与实际转会费的关系更密切。然而,差异相对较小,RMSE仅降低了3.4%,在统计学上并不显著,因此我们的评估结果并不一定表明群体在估计市场价值方面更准确。
事实上,我们发现模型倾向于提供更准确的估计低-中等价位的球员,而高价的球员往往人群估值更准确。具体来说,对于我们考虑的较低的90%的交易,该模型产生了更准确的平均市场价值估计,尽管人群估计和模型估计之间的差异通常不大。但是,特别是对于更小比例的昂贵球员,模型的估计是不准确的,这扭曲了平均,所以人群对整体样本更准确。对于这一发现,至少有两种可能的解释。
首先,由于缺少重要的无形指标(例如,球员提高球票或球衣销量的潜力),这种模型可能无法准确地评估身价高昂的球员,尤其是超级明星。虽然大众可以考虑这些因素,这些因素在不同球员之间的范围很广,但统计模型对所有球员使用相同的预定义因素集。换句话说,大众在选择球员价值相关信息方面有更多的自由,这可能是一个优势。
其次,职业足球俱乐部有时会为球员支付很高的转会费,这可能不能反映球员的“真实”价值,因此该模型难以估计球员的价格。在这种情况下,球迷们会被这些球员的天赋和受欢迎程度严重偏见,而统计模型将允许发现在转会市场上不成比例和不合理的支付。
我们的研究结果对职业足球市场价值的评估有几点启示。我们认为,以数据为基础的市场价值估计可以克服基于人群的市场价值估计的几个限制。数据分析的使用可以说比人群判断更加透明和可重复性,因为估计的回归系数直接量化了几个变量对球员市场价值的影响。市场价值与球员特征、表现和受欢迎程度之间的关系透明,可以帮助经理人预测未来的市场价值发展,这种发展可以以最低成本和高可靠性重复进行。由于数据分析是有效的,它甚至可以让球员的市场价值在一场又一场的基础上被估计,而人群只能偶尔更新市场价值。
通过与实际转让费的比较,我们发现正式模型可以提供对市场价值的准确估计,与基于大众的估计相差不大,尽管大众的估计需要相当多的时间和精力。因此,我们的统计结果可以成为建立实时信息系统的基础,从而估计和预测球员的市场价值。此外,我们的结果也可能是有趣的对运营商心仪的网站,参与者进入俱乐部经理的作用和选择他们的每支球队买卖球员,因此游戏同样使用性能数据来确定球员的价值,显然这是更简单的方法。
此外,在像Transfermarkt这样的众包平台产生公众数据的同时,数据分析可以让足球俱乐部在内部评估球员,从而为足球俱乐部在转会谈判中提供竞争优势。具体来说,数据分析可以帮助俱乐部在球员搜寻方面发挥作用,而球场上的观众很难评估不太知名的球员(例如,来自不太受欢迎的联赛)。大部分不为人所知的球员往往只从观众那里得到很少的选票,这增加了估计偏差的风险。正式的模型有潜力在职业生涯早期发现有天赋的年轻球员,那时他们的价值还不为大众所知。在此背景下,我们的研究证明了《点球成金》思想在足球联赛中的适用性。
据我们所知,这项研究基于最大的数据集,涵盖范围(5个联赛,6年)和细节水平(超过20个指标),用于估计职业足球的市场价值。因此,我们的研究也可以为该领域的未来研究提供参考。特别地,我们确定了指导相关工作的各种市场价值指标的重要性,并据此提出了估计市场价值的多层模型。然而,尽管我们的模型包含了大量的市场价值指标,但体育数据的商业提供商获得了我们无法获得的每一场比赛的每位球员超过200项指标。
因此,未来的研究需要检验替代模型规范的适用性,并确定附加的市场价值指标的重要性。例如,它可能是,市场价值是其他几个变量的函数在联赛级别(例如,欧足联系数),在俱乐部层面上(例如,球队受欢迎度),和个人层面上的(例如,外观和能力在国家队或冠军联赛或欧罗巴联赛),我们没有包括在我们的模型中。此外,未来的研究不仅可以考虑Reddit上分享的新闻量或谷歌上使用的关键词作为市场价值的指标,还可以考虑他们的公众情绪。例如,社交媒体数据在预测政客受欢迎程度方面的适用性研究表明,将公众情绪以及数量的结合起来可以提高预测模型的准确性。
在此背景下,我们的研究有几个局限性。首先,我们不能从经验上证实数据分析在寻找年轻和/或未知球员方面的潜力。因为我们使用的数据来自欧洲五大联赛,我们的样本中的大多数球员已经为公众和观众所熟知。因此,未来的研究应该使用小联盟的数据进行类似的分析,这可能是一个挑战,因为小联盟的数据较少。其次,我们认为,数据分析可以根据一场又一场的比赛来估计球员市场价值的变化,而人群的估值则需要更多的时间和精力。
然而,这种潜力还有待于经验的证实。我们的模型使用的是赛季数据,因此未来的研究面临着使用比赛日数据进行类似分析的挑战。第三,由于没有其他可靠的来源提供市场价值的历史估值,我们基于Transfermarkt对市场价值的估计来训练我们的模型,这也是我们的评估结果难以解释的另一个原因。因此,在这个阶段,数据分析不应该被视为一种替代方法,而应该被视为基于人群的评估的一种补充方法。由于我们的模型包含了人的判断,我们可以认为它是一个“判断模型”——即我们使用Transfermarkt法官的主观估计来训练一个基于客观市场价值指标的统计模型。为了评估纯形式模型比人群估计的优势,或者相反,未来的研究应该开发基于时间序列的方法,以数据驱动的市场价值估计,根据自己过去的估计预测未来的市场价值。
7.结论
基于对来自欧洲五大联赛146支球队的4217名球员的独特数据集和6个赛季的分析,我们展示了使用多级回归模型来估计球员市场价值的价值。将我们的结果与众包估计的结果进行比较表明,以数据驱动的方法来估计市场价值可以克服众包的一些实际限制,同时产生相对准确的估计。随着来自商业数据提供商的数据集和来自网络的用户生成内容越来越多的可用性,我们预计足球产业将越来越多地采用数据分析来支持球员招募和转会谈判。
我们收集了Transfermarkt对样本中所有球员在6个赛季末的市场价值的估计。在所有联赛中,球员的平均身价在2009/10年度为540万欧元,2014/15年度为600万欧元,仅在6年内就增长了11%,这说明近年来球员的身价变得多么重要。
图A.1 不同位置球员的市场价值变化
图A.2 欧洲五大联赛的市场价值变化
所有位置的市场价值一般都有所增加,但增加的数量却有很大的不同。其中后卫球员的市场价值最低,后卫球员的平均市场价值为440万欧元;中场球员和前锋球员的平均市场价值分别为590万欧元和720万欧元。从2009/10年到2014/15年,前锋市场价值从680万欧元增长到760万欧元(11.8%),中场球员市场价值从570万欧元增长到650万欧元(14.0%),后卫球员市场价值从440万欧元增长到460万欧元(4.5%)。英格兰超级联赛每个赛季都拥有最高的平均市场价值。2009/10年的平均市值为730万欧元,2014/15年增长到850万欧元(16.4%)。最有价值的两支球队是切尔西足球俱乐部(球员平均价值1930万欧元)和曼城(球员平均价值1880万欧元)。但这两支球队都远不如比西甲的2支顶级球队巴塞罗那(平均球员价值€2940万)和皇家马德里(平均球员价值€2640万),尽管西班牙联赛球员整体平均市场价值低得多(€680万)。
图A.3 平均市值最高的球队
德甲球员的平均市场价值从2009/10年度的430万欧元增长到2014/15年度的580万欧元(34.9%)。两家最有价值的俱乐部是拜仁慕尼黑(球员平均身价1780万欧元)和多特蒙德(球员平均身价1130万欧元)。相比之下,意大利的意甲球员却在贬值,他们的平均市场价值从2009/10年度的550万欧元下降到2014/15年度的500万欧元,因此意甲在欧洲最有价值联赛前三名的位置被德国取代。最有价值的两支球队是尤文图斯(平均球员价值1260万欧元)和国际米兰(平均球员价值1020万欧元)。最后,法甲球员的市场价值在六年时间里基本保持稳定,2009/10年度的平均市场价值为350万欧元,2014/15年度为340万欧元。最有价值的两支球队分别是巴黎圣日耳曼足球俱乐部(球员平均价值1200万欧元)和马赛足球俱乐部(球员平均价值660万欧元)。
我们以转会费低于1800万欧元的球员为样本,通过评估不同赛季、不同位置和不同联赛的市场价值与实际转会费之间的差异,来调查我们的模型的准确性。评价结果如图B所示。在前四个赛季,球迷们的估计更接近实际转会费,尤其是在2012/13赛季(RMSE的相对差异为+20.0%),但在2013/14和2014/15赛季,模型的估计更准确(分别为- 13.2%和- 3.1%)。虽然模型给出了德甲(6.4%)和英超(5.2%)更准确的数据,但人群给出了西甲(0.9%)、法甲(2.1%)和意甲(9.4%)更准确的估计。最后,球迷的估值更接近后卫(+4.6%)和前锋(+7.3%)的实际转会费,而模型的中场实际转会费更准确(- 8.4%)
图B.跨赛季、位置和联赛的模型评估
可以看出不管是模型数据分析还是德转的市场估计,大数据在转会市场起到了主要的作用。在俱乐部实际进行转会操作时,也不仅仅拿着数据纸上谈兵,而是更广泛的从多角度来考虑,因此对于球员身价的预测还有着巨大的提升空间。