【科普】关于elo的相关概念简介,并浅谈其应用于网坛GOAT讨论中的合理性

avatar
关注

1 概念界定和算法公式

资料来源:百度百科

1.1 概念界定

Elo(埃洛等级分系统)是指由匈牙利裔美国物理学家阿帕德·埃洛(Arpad Elo)创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动。

看了这个概念界定后,先不要下任何结论,在我介绍完其原理和算法公式后,大家就会明白Elo系统究竟如何应用在上述项目之中。

1.2 算法公式

Elo的根本原理是,通过一系列的计算,将双方的对垒胜率可视化为Elo评分,其落脚点在于“胜率”。Elo系统对双方胜率的计算方法如下(嫌烧脑可直接跳转至1.3):

请注意,这里介绍的是一种常用的简便算法,最原始的算法需要一定的微积分基础以及计量经济学的基础,有兴趣的可以移步https://zhuanlan.zhihu.com/p/28190267

假设对阵双方A和B的Elo值分别为RA和RB,则按照逻辑分布(Logistic distribution),A对B的期望胜率为:


类似的,B对A的胜率为


假如一位选手在比赛中的真实得分SA(胜取1,和取0.5,负取0)和他的期望胜率不符(通俗的讲,就是按照上述两式计算后,胜率高的实际反而输了),则他的等级分要作相应的调整。具体的数学公式为:

其中,RA和RA'为调整前后的Elo值,K为常数,通常取16。

1.3 小结

总结一下,Elo评分体系的本质,按照比赛双方取胜的概率来计算比赛结果应该带来的积分增减。其特点有如下几条:

1.Elo积分更高的球员在数学模型中拥有更高的胜率,双方积分差距越大,胜率差距也就越大。

2.Elo积分高的选手击败了积分低的选手,不会增加太多的Elo积分,因为这是模型判定你理应获胜的,同理,积分低的选手败给积分高的选手,也不会扣除太多的积分。

3.积分高的选手如果败给了积分低的选手,会被扣除大量的积分,同理积分抵的选手战胜积分高的也会获得大量的积分。

以上便是Elo评分系统的简单介绍,下面我将详细阐述其优缺点及其在各个领域中的应用,并说明这个评分系统在讨论网球GOAT时极大的局限性。

2 Elo系统的优缺点

2.1 Elo系统的优点

1. 有助于跨时代的比较

Elo算法增加了老百姓们喜闻乐见的“关公战秦琼”的可实现性,竞争对手、整体环境的变化不会影响Elo算法的评分,如果一个时代是”菜鸡互啄“的时代,那么这个时代的球员Elo分普遍都不高,那么在这样的时代鹤立鸡群的那个人,Elo积分也不会高到哪里去。

2. 有助于计算出选手的”真实水平“

举个例子,A和B都是英雄联盟黄金3的玩家,但A是玩小号的,其胜率高达75%,B是代练打上去的他自己打又把胜率输到了25%,显然他们之间的水平是存在差异的。A虽名为黄金,但真实水平可能已经达到钻石,而B的真实水平可能只有青铜。因此,用段位来判断二人的游戏水平显然不太科学,但Elo评分可以轻松将二人的水平差异体现出来,原因不再赘述。

综合1、2,特别是2,大家可以发现Elo评分系统在电子竞技中的应用之处了——其实这就是在计算Rank玩家的隐藏分。事实上,现在的LOL及其手游、王者荣耀等等的排位机制就是Elo算法。Elo在足球、篮球中的应用也体现在了博彩上,精算师通过事先计算两队的Elo评分,在综合各种其他因素,最后给出一个合适的赔率。但通过对其优点的介绍,我相信大家能一眼看出其缺点,也是其不能应用于网球GOAT讨论的致命缺陷。

2.2 Elo系统应用于网球的致命缺陷

1. 时滞性

这也是在虎扑提出Elo观点的里见一(虎扑ID:虎1001)亲口承认的缺点。延用上一节举的英雄联盟的例子,玩家A在黄金3拥有75%的胜率,其Elo评分特别高,但在此时A突然要考研了,准备了一年,一年后再回来,他的账号由于没有打任何一场排位赛,因此其Elo评分不会有任何改变,系统仍然会判定该玩家的水平远超过黄金3段位。但事实上呢?一年没碰过这款游戏的A,其真实实力真的还能像一年前一样吗?相信大家心中有数。

咱们把话题说回到网球上,时滞性带来的弊端体现在哪呢?看下面两张图:



资料来源:https://www.rank-tennis.com/zh/history/activity


资料来源:https://www.ultimatetennisstatistics.com/eloRatings

2017年是公认的德约科维奇”冥想年“,全年他只参加了40场比赛,连他正常年份参赛数的一半都没有。即便这样,在Elo评分中,德约依然能高居第二。原因很简单,因为他没打多少比赛,所以elo评分和16年相比下降幅度很小。

当然,这只是其不能应用于网球的一个很小的原因,真正的致命原因是下一条。

2. 无法体现比赛重要性差异

划重点:在第一章提到的Elo评分公式中,对所有级别、所有轮次的比赛均是一视同仁的。

这才是该评分体系的致命伤。在这个评价体系中,纳达尔在大师赛输蒂姆和德约在法网输蒂姆没有本质上的区别。然而众所周知,顶尖选手肯定会在重大赛事和重要伦次分配更多的精力,Elo将每场比赛一视同仁是极其不科学的,这也是其无法当作Goat评判标准最关键的原因。而和网球相比,电子游戏中所有参与排位的玩家所面对的每一场排位赛都是同等重要的,所以在比赛和比赛之间的重要性差异,不会影响玩家在游戏中的评分,这一点恰恰规避了ELO积分将所有比赛一视同仁的缺点。而另一项广泛应用Elo评分系统的项目国际象棋,则是益智类体育项目,其相对网球来说体力消耗和伤病较少,因此对于国际象棋选手来讲比赛的重要性差异影响也相对不大(说实话,不太了解国际象棋,有懂行的朋友可以交流一下)。

3 总结

本贴旨在反驳”Elo评分至上论“,通过数据和道理论证了用Elo积分来评判网球GOAT归属的不合理性,希望某些把Elo奉为圭臬的人正面面对我,用道理把我打服。

此外,我找到了德约吧”大神“Obscur发的原帖(里见一基本就是个搬运工),他贴子的技术含量远比里见一截取过来的要高,虽然这位大神也选择性无视了Elo的致命缺点,但有部分观点是值得肯定的,其中还运用了统计学的知识论证了德约的签表是最硬的(不知道为啥这么精彩的论证里见一反倒没搬来,可能是他压根不懂啥叫线性回归吧),这的确和我个人的直觉是相符的,德约的签表绝对是三个人之中最硬的毋庸置疑。


链接:https://tieba.baidu.com/p/7251569184?see_lz=1

最后,就用Obscur本人的原话做结尾吧,希望某些人都能好好看看,这才是真正的德约粉丝。









发布于天津阅读 30904

这些回复亮了

discusser-avatar

数码讨论

· 上海

elo模型对于网球的缺点就是这个模型完全不能应用于任何巅峰期短且实力不平滑的项目,不能应用于有备战周期的项目,不能应用于比赛环境有明显不同的项目。完全不适合网球,没有哪怕一丁点参考意义。elo对于棋类适用性较好,国象和围棋都不错,因为棋类选手实力平稳,巅峰期较长,实力曲线相对平滑,过巅峰也很少断崖下滑,比赛规则环境改变较小。除此之外,elo对于大多数体育运动完全是抓瞎,比如田径百米。有备战周期,一般奥运年出好状态,世锦赛中等状态,没大赛则摆烂,且巅峰较短,过巅峰会断崖下滑。以博尔特举例,公认巅峰是08-12,09破纪录9.58,08最好成绩9.69(不放水大概9.63),12最好成绩9.63。然而10没大赛最好成绩只有9.82,差了足足五档。百米有绝对成绩作为刻度一下就能看出实力曲线不平滑。这种不平滑的表现elo是完全不能拟合的。而网球同样也有备战周期,大满贯一年四次是高峰。实力不平滑不适合用elo分析。博尔特17最好成绩9.95,断崖下滑,输了两次下一代第一人科尔曼。科尔曼硬实力9.79,在五虎都不行的后面几年胜率也极高。看成绩都知道科尔曼硬实力明显低于博尔特,按照elo评分,17科尔曼赢博尔特会有一个很高的起评分,后面的胜率高elo评分怕是能超博尔特。网球还有一个问题是四大场地各有特性,场地环境变换大。和elo相性实在太差。说一个能让人笑掉大牙的反例。根据elo计算,桑普拉斯的红土(celo)和草地(gelo)实力旗鼓相当。https://www.tennisabstract.com/cgi-bin/player.cgi?p=PeteSampras其中红土elo评分居然也有四次年度第一。。。要是还想保住大牙不被笑下来,就别用elo去分析网球。。。

亮了(28)
查看回复(2)
回复
discusser-avatar

虎扑JR0554979105

· 广西

真正的体育迷不是贬低别人来抬高自家。支持这样的价值观

亮了(21)
查看回复(1)
回复