러셀 웨스트브룩의 1차스탯과 승리와의 상관관계
듀란트가 떠나고 웨스트브룩이 팀의 리더가된 지난 15-16 시즌부터 올 시즌까지,
웨스트브룩의 스탯과 팀승리와의 상관관계를 살펴보고자 글을 씁니다.
GmSc는 단일경기에서 다양한 박스스코어를 하나의 숫자로 통합하여 경기 퍼포먼스를 보여주는 올인원 스탯입니다. 먼저 웨스트브룩의 단일경기 퍼포먼스 (GmSc)가 팀의 승패에 따라 차이가 있는지를 보시면!
오클이 승리한 경기에서 웨스트브룩의 퍼포먼스가 유의미하게 좋았다는 것을 알 수 있습니다.
(p-value가 작다는 것은 원하는 항목 여기에선 승패에 따라 GmSc 차이가 없을 가능성이 낮다는 말입니다, 별표가 많을 수록 p-value가 낮습니다)
저는 이중에서 특정 스탯이 승패에 따라 어떠한 양상을 보이는지 살펴보았는데요.
첫 번째로 매니아에서 웨스트브룩이 자제해야한다고 말씀하시는 3점시도입니다.
엄청나게 유의미한 결과가 나오네요, 위에서 말씀드린대로 별표가 4개나되죠.
(p-value는 별 하나당 10배 차이입니다.)
즉, 지는 경기에서 유의미하게 많은 3점시도를 기록하고 있다는 것을 알 수 있습니다.
그럼 이게 3점이 패배하는 경기에서 유독 안 들어가기 때문인가를 보았을땐
그렇지 않았습니다. (ns는 non-significant의 줄임말로 유의미하지 않다는 의미입니다)
패배하는 경기나 이기는 경기나 3점슛 성공률은 유의미한 차이가 나지 않았습니다.
또한 턴오버도 경기 결과에 따른 유의미한 차이는 없었습니다.
그렇다면 어시스트와 리바운드는 어떨까요?
어시스트와 리바운드의 분포양상을 산점도로 보시면 아래와 같습니다
(분포 양상을 더 파악하기 쉽도록, 이산적 데이터지만 겹치지 않게 jitter 형태로 그렸습니다)
각각 10개를 기준으로 선을 그렸을 때 1사분면에 해당하는 부분이 트리플더블이라고 할 수 있겠는데요,
한눈에도 그 구간에서 유독 붉은 점, 즉 승리가 많다는 것을 바로 알 수 있으실 겁니다.
재밌는 것은 2사분면에 해당하는 곳, 즉 리바운드가 10개를 넘더라도, 어시스트가 10개에 미달할 경우에는 패배가 많다는 것을 볼 수 있으며, 3사분면에 해당하는 곳, 리바는 10개가 안되더라도 어시스트가 10개가 넘는 곳에서는 상대적으로 높은 승수를 챙기고 있다는 것또한 알수 있습니다.
이는 높은 트리플더블에서 얻어진 고승률은 리바운드 때문이 아니라 어시스트 때문에 기인할 수 있다는 추측을 하게 해줍니다.
이는 박스 플랏의 분포에서 p-value 절대치의 차이로도 어느 정도 확인 가능합니다
.
어시스트가 유의미하게 차이가 날 p-value는 0.000018인데 반해 리바운드는 0.014, 만약 "유의미"하다라고 부를 기준을 좀 빡빡하게 p-value<0.01이라고 잡았다면 저정도 차이는 통계적으로 유의미하지 않다고 말할 수도 있게되죠. (일반적으로 유의미하다고 보는 기준이 "p-value가 0.05보다 작다"이지만 분석하는 사람이 정하기 나름이라 엄격한 기준을 정하는 경우엔 실제 p-value<0.01을 사용하기도 합니다, 즉 리바운드는 어시스트에 비해 상대적으로 승패에 따른 차이가 적다는 말이죠)
정말 트리플더블에 의한 고승률이 어시스트에 기인했는지, 또 그 수치는 얼만큼인지 확인하고자 웨스트브룩의 다양한 1차스탯 (득점, 리바, 어시, 스틸, 턴오버, 3점시도, 2점시도)가 팀 승패에 미치는 영향력을 로지스틱 회귀분석을 통해 확인해보았는데요.
확인한 6가지 변수 중에서, 유의미한 설명력을 가진 변수는 "3점시도"와 "어시스트", 그리고 "득점"이었습니다. 어시스트와 득점이 많을 수록, 3점 시도가 적을 수록 팀 승리를 더 잘 예측한다는 말이되죠.
다만 득점의 경우 Estimate의 절대값이 작습니다. 유의미하게 영향을 미치기는 하되 영향력의 크기는 작다는 말이죠, 상대적으로 높은 영향력을 주면서도 유의미한 스탯은 어시스트와, 3점시도였습니다.
또한 ANOVA를 통해 각각의 변수가 전체 승패가 가진 편차를 얼마나 설명해주는지 측정해았습니다.
맨 위에 NULL Deviance가 281.64였는데요,
위에서부터 한 가지 항목씩 제외했을때 잔여 편차 (residual deviance)가 얼마나 감소하는지를 통해 각 변수가 가진 설명력을 보는 것입니다.
6가지 변수중 유의미한 설명력을 보인 변수는 단 2개, 위와 마찬가지로 어시스트와 3점시도였습니다.
또한가지 주목하실 점은, 저 6가지 변수를 모두 제외해도, 여전히 남아있는 deviance가 236.72나 된다는 거죠. 즉, 승패 편차의 84%는 저 6가지 변수 "이외"의 항목으로 설명된다는 말입니다.
사실 이게 당연합니다, 승패는 두 팀의 십수명의 선수가 함께 영향을 미치는 것이고 저건 웨스트브룩이 기록한 스탯의 일부니까요. 어찌보면 웨스트브룩의 3점시도와 어시스트 수치가 승패 편차의 16%나 설명한다는 것도 그의 영향력을 단편적으로 보여주는 수치라고 할 수 있겠네요.
그래서 가져오진 않았지만, 저 항목들을 가지고 승리예측 모델을 만들었을 때,
예측력은 매우 구렸습니다-_-a
Take-home message라고 하면,
"웨스트브룩은 트리플더블시 승률이 높은 것은 사실이며 이렇게 트리플더블이 승률과 높은 correlation을 보이는 이유는 필연적으로 따라오는 10+ 어시스트에 기반했을 가능성이 높다" 입니다.
좋은 글 감사합니다!