Xp
NBA Maniazine
/ / /
Xpert

러셀 웨스트브룩의 1차스탯과 승리와의 상관관계

 
86
  5420
Updated at 2019-02-14 20:53:03

듀란트가 떠나고 웨스트브룩이 팀의 리더가된 지난 15-16 시즌부터 올 시즌까지,

웨스트브룩의 스탯과 팀승리와의 상관관계를 살펴보고자 글을 씁니다.

 

GmSc는 단일경기에서 다양한 박스스코어를 하나의 숫자로 통합하여 경기 퍼포먼스를 보여주는 올인원 스탯입니다. 먼저 웨스트브룩의 단일경기 퍼포먼스 (GmSc)가 팀의 승패에 따라 차이가 있는지를 보시면! 


 

오클이 승리한 경기에서 웨스트브룩의 퍼포먼스가 유의미하게 좋았다는 것을 알 수 있습니다.

(p-value가 작다는 것은 원하는 항목 여기에선 승패에 따라 GmSc 차이가 없을 가능성이 낮다는 말입니다, 별표가 많을 수록 p-value가 낮습니다)

 

저는 이중에서 특정 스탯이 승패에 따라 어떠한 양상을 보이는지 살펴보았는데요.

첫 번째로 매니아에서 웨스트브룩이 자제해야한다고 말씀하시는 3점시도입니다. 

 

엄청나게 유의미한 결과가 나오네요, 위에서 말씀드린대로 별표가 4개나되죠.

(p-value는 별 하나당 10배 차이입니다.)

 

즉, 지는 경기에서 유의미하게 많은 3점시도를 기록하고 있다는 것을 알 수 있습니다. 

그럼 이게 3점이 패배하는 경기에서 유독 안 들어가기 때문인가를 보았을땐

 

그렇지 않았습니다. (ns는 non-significant의 줄임말로 유의미하지 않다는 의미입니다)

패배하는 경기나 이기는 경기나 3점슛 성공률은 유의미한 차이가 나지 않았습니다.

 

또한 턴오버도 경기 결과에 따른 유의미한 차이는 없었습니다.

 

그렇다면 어시스트와 리바운드는 어떨까요?

어시스트와 리바운드의 분포양상을 산점도로 보시면 아래와 같습니다

(분포 양상을 더 파악하기 쉽도록, 이산적 데이터지만 겹치지 않게 jitter 형태로 그렸습니다)

각각 10개를 기준으로 선을 그렸을 때 1사분면에 해당하는 부분이 트리플더블이라고 할 수 있겠는데요,  

한눈에도 그 구간에서 유독 붉은 점, 즉 승리가 많다는 것을 바로 알 수 있으실 겁니다.

 

재밌는 것은 2사분면에 해당하는 곳, 즉 리바운드가 10개를 넘더라도, 어시스트가 10개에 미달할 경우에는 패배가 많다는 것을 볼 수 있으며, 3사분면에 해당하는 곳, 리바는 10개가 안되더라도 어시스트가 10개가 넘는 곳에서는 상대적으로 높은 승수를 챙기고 있다는 것또한 알수 있습니다. 

 

이는 높은 트리플더블에서 얻어진 고승률은 리바운드 때문이 아니라 어시스트 때문에 기인할 수 있다는 추측을 하게 해줍니다. 

 

이는 박스 플랏의 분포에서 p-value 절대치의 차이로도 어느 정도 확인 가능합니다

  

.

 

 

어시스트가 유의미하게 차이가 날 p-value는 0.000018인데 반해 리바운드는 0.014, 만약 "유의미"하다라고 부를 기준을 좀 빡빡하게 p-value<0.01이라고 잡았다면 저정도 차이는 통계적으로 유의미하지 않다고 말할 수도 있게되죠. (일반적으로 유의미하다고 보는 기준이 "p-value가 0.05보다 작다"이지만 분석하는 사람이 정하기 나름이라 엄격한 기준을 정하는 경우엔 실제 p-value<0.01을 사용하기도 합니다, 즉 리바운드는 어시스트에 비해 상대적으로 승패에 따른 차이가 적다는 말이죠)

 

 

정말 트리플더블에 의한 고승률이 어시스트에 기인했는지, 또 그 수치는 얼만큼인지 확인하고자 웨스트브룩의 다양한 1차스탯 (득점, 리바, 어시, 스틸, 턴오버, 3점시도, 2점시도)가 팀 승패에 미치는 영향력을 로지스틱 회귀분석을 통해 확인해보았는데요.

 

확인한 6가지 변수 중에서, 유의미한 설명력을 가진 변수는 "3점시도"와 "어시스트", 그리고 "득점"이었습니다. 어시스트와 득점이 많을 수록, 3점 시도가 적을 수록 팀 승리를 더 잘 예측한다는 말이되죠. 

 

다만 득점의 경우 Estimate의 절대값이 작습니다. 유의미하게 영향을 미치기는 하되 영향력의 크기는 작다는 말이죠, 상대적으로 높은 영향력을 주면서도 유의미한 스탯은 어시스트와, 3점시도였습니다. 

 

또한 ANOVA를 통해 각각의 변수가 전체 승패가 가진 편차를 얼마나 설명해주는지 측정해았습니다.

 

맨 위에 NULL Deviance가 281.64였는데요,

위에서부터 한 가지 항목씩 제외했을때 잔여 편차 (residual deviance)가 얼마나 감소하는지를 통해 각 변수가 가진 설명력을 보는 것입니다.

 

6가지 변수중 유의미한 설명력을 보인 변수는 단 2개, 위와 마찬가지로 어시스트3점시도였습니다.

 

또한가지 주목하실 점은, 저 6가지 변수를 모두 제외해도, 여전히 남아있는 deviance가 236.72나 된다는 거죠. 즉, 승패 편차의 84%는 저 6가지 변수 "이외"의 항목으로 설명된다는 말입니다.

 

사실 이게 당연합니다, 승패는 두 팀의 십수명의 선수가 함께 영향을 미치는 것이고 저건 웨스트브룩이 기록한 스탯의 일부니까요. 어찌보면 웨스트브룩의 3점시도와 어시스트 수치가 승패 편차의 16%나 설명한다는 것도 그의 영향력을 단편적으로 보여주는 수치라고 할 수 있겠네요.

 

그래서 가져오진 않았지만, 저 항목들을 가지고 승리예측 모델을 만들었을 때, 

예측력은 매우 구렸습니다-_-a 

 

 

Take-home message라고 하면,

"웨스트브룩은 트리플더블시 승률이 높은 것은 사실이며 이렇게 트리플더블이 승률과 높은 correlation을 보이는 이유는 필연적으로 따라오는 10+ 어시스트에 기반했을 가능성이 높다" 입니다.

이 게시물은 아스카님에 의해 2019-02-14 23:38:07'NBA-Talk' 게시판으로 부터 이동되었습니다.
34
Comments
1
2019-02-14 20:23:30

좋은 글 감사합니다!

3
2019-02-14 20:26:44

오늘도 날카로운 분석 감사합니다. 그러고보니 그간 너무 트리플더블이라는 상자에 갇혀 생각해왔네요. 어시 10개이상이라는 것이 더 의미가 있었던거군요. 그렇다면 어시스트 10개 이상시의 승률을 살펴봐도 비슷한 결과가 나오겠군요. 어시스트는 동료들이 필드골을 성공해야 나오는 것이니 결국 어시가 많이 나오는 환경은 팀이 강하다는것일테구요.

WR
2019-02-14 20:45:16

저도 그렇게 생각합니다. 물론 리바운드 자체도 승패시 차이가 나기도 하고, 로지스틱 회귀분석으로도 거의 유의미의 경계에 있기도해서 다다익선이라고 봐요~ 

 

재밌는건 본인의 3점시도가 줄어들면 그 포제션을 남에게 주고있을 가능성이 높으니, 저 두 변수가 높은 설명력을 가진 것으로 나오는게 의미가 특히 있는 것 같습니다. (다만 2점슛 시도랑은 큰 상관이 없네요)

1
2019-02-14 20:28:28

감사합니다~~~

WR
Updated at 2019-02-14 20:38:44

Assist opportunity 라고 해서 어시스트가 가능했던 패스 기록도 있는 것으로 아는데, 그걸 사용하면 말씀하신 부분이 어느정도 설명 가능할 것 같네요.

 

어시스트 기회는 승패에 따라 차이가 없는데 어시스트만 차이난다면, 팀원의 슛감 때문이 가능성이 조금더 높다고 봐야겠죠고, 반대로 어시스트 기회가 어시스트 만큼 비슷한 수준으로 차이가 난다면, 패스 마인드가 차이가 났다고 보는게 맞겠네요. 그것도 재밌겠어요~

WR
2019-02-14 20:46:26

저도 직접 찾아보고 그런적은 없고 풍월로 들었는데, 저런 세부 기록이 풍부해질 수록 더욱 통계로 설명할 수 있는 부분이 많아 질것 같아 좋습니다.

재밌게 보셨기를 바래요~

8
Updated at 2019-02-14 21:28:33

 언제나 이런 통계적이고 재밌는 분석을 해주셔서 감사합니다

 이 글과는 별개로 개인적으로 생각하는 러스의 패스에 관한 생각을 다른 분들에게 말하고 싶은데 보시면 아시겠지만 러스는 올해 AssistsPotential Assist, Assist Points Created, Assist Adj, Assist-to-Pass Percentage, Assist-to-Pass Percentage Adj 모두 리그 1위입니다

https://stats.nba.com/players/passing/?sort=POTENTIAL_AST&dir=1&Season=2018-19&SeasonType=Regular%20Season

 돌격대장이라는 그의 이미지와는 달리 그는 듀란트의 부상으로 반홀로서기 하던 시절부터 매해 어시스트관련 수치들이 늘면서 그는 올해 리그 내의 누구보다 뛰어난 패서로 많은 생산성을 만들어 내고 있습니다

 이런 패서가 슛을 쏜다면 전 그 슛이 셀렉션이 안좋았다고 보기보다는 쏴야할 상황에서 쏜다고 생각하겠습니다

WR
4
2019-02-14 21:30:17

마지막 줄만 빼고 동의합니다 

웨스트브룩이 패스를 정말 정말 잘하긴 하는데, 패스를 하는 영역이 좀 한정되어있다는 생각이 듭니다. 그래서 좀 본인이 패스하기 꺼리는? 좋아하지않는 곳에 있을 때, 좀 무리한 슛으로 포제션이 마무리되는 경향이 있는 것 같아요. 팀 입장에선 배드 셀렉션일테고요. 
1
2019-02-14 23:01:11

트리플더블에서 어시스트가 중요할 수 밖에없는게, 현재 리그 리더만 봐도
리바운즈는 15리바의 드러먼드가 1등이고 15위까지도 10개가 넘는데 반해, 어시스트는 1위인 웨스트브룩만 10개가 넘어가거든요. 더 어럽다는거죠. 그리고 어시스트 한개 자체가 2점 또는 3점을 얻었다는 뜻이니...

사실 트리플더블도 원래대오라면 10점이 아니라 야투 10개여야겠죠...
아무튼 웨스트브룩은 확실히 3점시도는 줄이는게 좋을거 같네요

엄청난 분석글 정말 재밌게 잘 읽었습니다. 데이터 분석이란게 참 신기하네요

WR
2019-02-15 10:02:36

말씀하신 대로 두 스탯의 레인지와 분포 양상이 상당히 다릅니다. 


어시스트는 많이하는 팀이라고 해봐야 경기당 30개도 잘 안되는데, 리바는 한 선수가 20개씩 잡는 일도 종종 나오니..  반대로 어시스트는 볼 핸들링을 한정된 선수가 담당하는 특성상 생기는 편중효과가 있기도 하고요.

 

다만 웨스트브룩 같은 경우는 거의 1:1 비율로 잡고 있습니다. 

이런 어시/리바에 따른 스탯 분포가 센터들은 편중이 극명한데 반해 다른 포지션, 특히 가드는 사실 거의 비율이 일정해서 어느정도는 스케일이 맞춰지는 느낌도 있어요. 

2
2019-02-14 23:46:22

상대적으로 낮은 성공률로 많이 쏴서 진건지, 팀원들 득점이 안좋아 지고 있는 상황에서 ‘나라도 던져야지’ 하면서 적극적으로(!) 던졌는데 그게 그냥 안들어간건지, 선후관계도 쉽게 알 수 있었으면 좋겠네요(풀경기 흐름에 따라 체크하면 가능할듯 하지만 쉬운건 아니니..)

WR
1
2019-02-15 10:04:18

요즘엔 play-by-play 기록이 좋아져서 경기 안에서의 맥락도 파악할 수 있는 환경이 되긴 했는데, 이걸 수집하고 원하는 목적대로 추출하는게 가장 힘든 일입니다. (적어도 저에겐..ㅜ_ㅜ) 

2019-02-15 11:19:49

그렇죠. 완전 노가다성 작업이 될 듯 합니다. 다만 제가 말하고 싶었던 부분은 웨스트브룩이 비난 받는게 안타까워서 진실(!)을 한번 제대로 파헤쳐보면 어떨까 했던것 입니다(그래도 깔 사람은 까겠죠..). 좋은 글 잘 보고 갑니다!

1
2019-02-15 00:36:14

지난번에 SOM으로 클러스터링 했던 글도 굉장히 재미있게 읽었었는데, 요즘 제가 눈여겨보는 서브룩 스탯과 관련된 분석도 해주셔서 매우 흥미롭게 보았습니다!

살며시 구독을 눌러봅니다..

WR
2019-02-15 10:03:00

재밌게 봐주셔서 감사합니다^_^

1
Updated at 2019-02-15 23:16:16

논외이긴하지만,, 혹시 박스플랏 위에 p-value 표시하거나 유의성 나타내는 것은 ggplot에 있는건가요!? 아니면 박스플랏을 저런 형식으로 그리는 라이브러리가 따로있나요? 처음본것 같은데 깔끔하고 좋은것 같아서요

WR
2019-02-16 00:55:50

ggpubr 패키지에서 stat_compare_means 함수를 사용합니다!

저 함수 자체가 ggplot에 p-value 추가하는 기능이라 자주 써요~

2019-02-15 04:00:13

결국 3점을 많이 쏜날과 적게 쏜날 팀원들의 슛성공률도 체크가 필요하겠네요.

 좋은글 감사합니다!

WR
1
Updated at 2019-02-15 10:05:29

경기 로그랑 선수의 게임로그를 경기날짜를 기준으로 매치시킨 다음 구할수는 있을 것 같네요. 

다음에 마음이 동할 때 해보도록 하겠습니다.

2019-02-15 04:37:59

Plot이 참 예쁘네요. 뭘로 그리셨나요?

WR
1
2019-02-15 08:57:32

r studio에서 ggplot2 패키지로 그립니다!

2019-02-15 08:15:26

단순화시키면 3점 조금 던지고 패스 많이 하면 이길 확률이 높아진다 겠네요

WR
Updated at 2019-02-16 15:32:04

정확히 하자면, "이긴 경기에서는 유의미하게 3점을 적게 던지고 어시스트가 많았다"가 더 적절할것 같습니다. 이게 미묘하지만 꽤 중요한 늬앙스 차이가 있죠.

1
2019-02-15 10:32:09

요즘 세상에 가드가 3점을 안던져야 승리한다니 참 유니크한 선수입니다
아마 커리를 대입하면 정반대의 결과가 나오겠죠?

WR
2019-02-16 15:32:22

커리도 해보면 재밌겠네요!

Updated at 2019-02-15 10:51:33

웨스트브룩의 1차 스탯과 트리플더블과 관련된 논쟁을 종식시킬만한 글이 아닌가 싶네요.

1
Updated at 2019-02-15 11:11:33

10어시 이상을 찍어주는 포인트가드의 존재가 상당히 저평가 받던 요즘인데, 이 자료는 확실히 평균 10어시 이상 찍는 메인 게임리딩가드가 승리에 큰 영향을 줄 수 있다는 자료로 볼 수 도 있을거 같습니다. 서브룩을 듀얼가드로 분류하는 경우가 많있는데 저는 개인적으로 MVP시즌이후 최근2년은 리딩가드에 가깝다고 봤었거든요.

2019-02-15 11:45:15

웨스트부룩 팬인데요...

그냥 오픈이나 돌파 아니면 슛을 안 쐈으면 좋겠네요.(게임당 10개 이하)

이 것만 잘 지키면 바로 MVP급이라고 생각합니다.

 

WR
2019-02-16 15:33:53

그래도 게임당 15개는 쏴줘야할 것 같긴해요, 

MVP 시즌엔 지금보다 슛을 더쐈는데도 효율이 리그 평균이 되니까 임팩트가 어마어마했죠.

효율을 끌어올리는게 급선무인데, 아직 글을 쓰진 않았지만 서버럭 피지컬이 점차 감소하는 느낌이라서요.. 그때문이가 싶어 다시 효율이 올라갈수 있을지도 살짝 의문입니다. 

2019-02-15 20:34:58

와! 제 생각대로 더블더블이!

2019-02-16 16:13:17

 제가 놓쳤을 수도 있는데 박스 표시는 어떤 의미인가요?

그리고 서부룩의 단일경기 퍼포먼스와 경기 결과와 상관관계가 유의미하게 적다고 하셨는데 통계적으로 검증이 된 건가 궁금합니다

WR
2019-02-16 16:30:24

단일경기 퍼포먼스와 경기결과의 상관관계가 적다고 썼었나요?

"오클이 승리한 경기에서 웨스트브룩의 퍼포먼스가 유의미하게 좋았다는 것을 알 수 있습니다."

승리한 경기에서 좋았다고 표현했습니다. GmSc로 그린 그림에서 **로 p-value<0.01 미만의 높은 유의미성을 보이고 있죠.

 

박스플롯은 따로 설명드리진 않았는데, 상위 25분위와 하위 75분위 값의 범위를 표현합니다. 박스 가운데 있는 굵은 선은 중위값 (or 중간값;median)이고요. 

2019-02-16 16:35:05

제가 p-value 설명부분을 그대로 적었던것 같습니다.

박스는 4분위수 표현이군요.

그럼 1% 유의확률로 승리했을 때, 웨스트브룩의 경기 퍼포먼스가 차이가 없다는 가설을 기각시킨다고 이해해도 될까요? 경기결과에서 경기 퍼포먼스 평균의 단순비교처럼 보여서 질문드렸습니다.

WR
2019-02-16 16:46:24

p-value 설명 부분을 그대로 보더라도 승패에 따라 GmSc 차이가 없을 가능성이 낮다는 말이고 즉 말그대로 차이가 있다라고 보시면 됩니다. 

 

지는 경기와 이기는 경기에서 웨스트브룩의 경기 퍼포먼스 (or 스탯 생산성)에는 차이가 있다. 차이가 없을 확률은 0.01 미만 말씀하신대로 1% 미만이다라는 것이죠. 

hou
52
8592
24-03-23
bos
122
27573
24-03-18
atlgsw
86
19959
24-03-18
bosden
57
7073
24-03-16
den
122
24088
24-03-14
lal
44
8555
24-02-24
den
92
18735
24-02-20
dal
80
16244
24-02-17
dal
79
8871
24-02-06
bos
54
6244
24-02-15
dal
72
11541
24-02-14
cha
69
21210
24-02-14
orl
36
6246
24-02-09
phi
42
6874
24-02-10
indphi
60
6386
24-02-08
atlbkn
45
10624
24-02-08
sas
50
16923
24-02-05
phi
46
11125
24-02-04
cle
40
12455
24-02-04
검색 대상
띄어쓰기 시 조건









SERVER HEALTH CHECK: OK