球员个人效率怎么计算?
谢邀,其实这也是我自己一直想知道的问题,所以做了一个小统计,发一下自己博客的被引用记录(百度指数)以供参考, 其中引用量最大的三篇分别是: 其中第二篇是关于球员个人累计总效用的文章,第三篇是关于C罗和登贝莱在2015-16赛季的净助攻数据的。 这三篇文章分别引用了大约6700、4300和8900人次,所以合计大概2.1万读者曾对我的文章感兴趣。 所以我按照以下步骤建立了这个数据模型: 这个模型中主要考虑的影响因素包括:进球数(Goals)、助攻数(Assists)、犯规数(Fouls)、被侵犯数(Yellows and reds)、完场时所在球队的胜差值(Team’s win difference at end of match)以及该球员在本场的跑动作用值(Moves for the team from when he came on)。 因为数据获取的原因,本文只能包含英超和中超的数据,所以样本容量只有两个赛季,共计496个观察值。 为了评估上述影响因素的重要性,我们首先对各个变量进行主成分分析,得到四个特征值大于1的主成份(见下图)。
然后,使用四主成份回归方法重新估计各个变量的效应。 可以看到,对于每个加入模型的变量,对应的p值都小于0.0001,说明各个变量均显著影响球员的个人效率。 进一步地,我们可以得到各变量的标准化系数,由此可以得知各个变量对球员个人效率的影响程度。 可以看到,对球员个人效率影响最大的是犯规数和被侵犯数,其次是上场时间,接着是进球或者助攻,影响最小的是完场时的胜负差别和上场单位的贡献度。
值得注意的是,这里的标准化系数仅仅反映了变量对球员个人效率影响的程度,并没有考虑变量间相互作用的可能性。为了控制这种可能性带来的偏差,我们还需要检验多元共线性问题。 这里引入了VIF(VIF=1/1—R^2,其值介于[1,∞)之间,当存在共线性问题时,VIF会非常大)来检测多重共线性的问题。可以看到,所有变量的VIF都小于4,说明不存在严重的共线性问题。因此上面的回归结果是可以信赖的。 对模型进行估计后,可以使用以下公式来计算任意球员的个人效率值: 其中,x为影响球员个人效率的各种变量,b为参数向量,e为误差项。