Xp
자동
NBA-Talk
/ / / /
Xpert

농구의 여러 변인 간 상관관계

 
  2332
Updated at 2019-11-20 01:48:37

18-19 시즌 30개 팀의 다양한 스탯들 사이에 존재하는 상관관계를 알아보았습니다.

 

여러 시즌에 대해서 상관성을 확인하고, 일관되게 나오는 항목을 선택하는게 더 나은 방법이지만, 일단 가장 최근 시즌만 확인해보았습니다. 

 

총 65가지 스탯이고요,

우리에게 친숙한 득점, 리바, 어시, 블락, 스틸, 파울, 턴오버와 같은 박스스코어 스탯,

Drive 수, 페인트존 터치, 디플렉션, 루즈볼 리커버리, 박스 아웃과 같은 트랙킹 스탯,

승리, 패배, SOS (strength of schedule), SRS, MOV (margin of victory) 과 같은 팀 전력 스탯 등이 포함되어있습니다. 

 

그래서 어떠한 스탯이 팀전력과 승리에 어떤 상관관계를 보이는지 전반적인 양상을 볼수 있었습니다.

 

일반적으로 어떤 분석을 했을때,

이미 알고 있던 것이 70, 새로운 게 30정도 나오면 좋은 결과라고 하더군요.

 

예상되는 결과가 intra-positive control 역할을 해주고, 새로운 결과가 기존에 알지 못했던 시각을 제공해 줄 수 있기 때문인데요. 

 

나오는 모든 correlation은 65 x 65 가지 이기에.. 모든 것을 설명드리긴 어렵고

이중에서 특히 유의미한 결과들 (FDR < 0.1)에서 제가 흥미롭다고 여긴 점들 몇개를 소개해드리고자 합니다.

 

(FDR은 P-value 보정값으로, 낮을 수록 더 유의미하다고 보시면 됩니다, 낮을수록 더 연관있다!)

 

1) 나이

첫 번째로 가볍게 살펴본 것은 나이입니다.

 

슈팅 효율 스탯, TS%, eFG%, 2P%, 3P%가 양의 상관관계를 보였고,

SRS, MOV, NRtg와 같이 팀 전력과 관련된 수치도 양의 상관관계를 보였습니다.

 

아무래도 어느 정도 나이가 들고 경험이 쌓인 라인업일 수록 어린 선수들로 이루어진 라인업보다 전력이 좋다? 라고 볼수 있겠네요, 

 

Second Assist, 소위 하키 어시스트도 나왔네요.

 

 

2) 승리

 

역시 가장 궁금한건 승리죠.

 

당연하게도, Net rating, Margin of victory, Simple Rating System과 같은 팀 전력과 관련된 스탯이 최상위, 엄청나게 높은 양의 상관관계를 보였고요, 

 

득점, Ortg, eFG%, TS% 등이 뒤를 이었습니다.

 

우리에게 친근한 1차 스탯중에서는

디펜리바가 총 리바, 어시스트 및 어시스트 관련 스탯들보다 더 강한 상관관계를 보였습니다.

이는 아마도 디펜리바가 높다는 것이 필연적으로 상대 야투 실패를 의미하기 때문이 아닌가 생각되네요.

 

재밌게도 스틸은 유의미한 연관성을 보이지 못한 것에 반해, 블락 수치는 연관성이 높게 나왔습니다.

 

한가지 재미삼아 볼만한 점은,

Ortg와 Drtg의 상관관계를 보면,

Ortg와는 0.8411, FDR = 6.27E-08 의 수치를 보였는데, Drtg와는 -0.7598, FDR=8.95E-06이었습니다

 

쉽게 말하면,

팀 공격과 수비 둘다 팀 승수와 높은 상관관계를 보이지만, 특히 공격이 수비보다 팀 승수와 더 강한 상관관곌를 나타낸다는 말입니다. 18-19 시즌 기준으로는 결국 공격을 잘하는게 수비를 잘하는 게 낫다고 볼수도 있습니다. 어느 정도는..

 

 

3) Deflection

 

디플렉션이란 비록 공격권을 가져오진 못하더라도, 상대 공격을 더 어렵고 빡빡하게 만드는 역할을 하다보니 수비코치들이 많이 신경쓰는 스탯이라고도 알려져 있습니다.

 

개인적으로 이 분석을 하면서 특히 관심있던 스탯이었는데, 

예상과는 달리 유의미한 상관성을 보이는 항목은 4개로 많이 나오지는 않았습니다.

 

당연하겠지만, 팀 스틸 숫자와 가장 높은 상관관계를 보였고요, (0.8989)

루즈볼 리커버리와도 상당히 높은 상관관계를 보였습니다. (0.6636)

 

신기한 항목은, 디플렉션과 음의 상관관계를 보이는 변수가 2개 나왔는데, 

이게 전부 "스크린 어시스트" 관련 항목입니다.

 

스크린 어시스트 -0.5941 

negative correlation, 즉 디플렉션이 많은 팀은 스크린 어시스트가 적다는 말입니다

 

스크린 어시스트에 의한 득점과도 -0.5653

 

디플렉션이 많은 팀은 스크린을 잘 이용하지 않는 경향이 있다라고 볼수 있는데,

추측컨대, 디플렉션에 강점이 있을만한 라인업, 윙스팬이 길고 기동력있는 선수로 채워진 라인업은, 빅맨 위주의 스크린 플레이에 약점이 있다라고 해석할 수도 있겠습니다.

 

디플렉션, 루즈볼, 스틸은 모두 서로 강한 양의 상관관계를 보이는데,

이 3가지 스탯 모두 팀 전력관련 스탯, 어떤 것과도 유의미한 수치를 보이지 못했습니다.

조금 의외였네요.

 

 

4) 블락

 

일반적으로 PER과 같은 2차스탯에서 스틸에 비해 그 영향력을 낮게 평가받는 블락입니다. 

 

일단 쉽게 해석되는 항목들로는 DFG%, Drtg, DRB 등이 있습니다. 

상대 야투율 억제하고, 이로인해 디펜리바가 늘어나고, Drtg가 낮아지는 긍정적인 효과가 있겠죠.

 

이로 인해서인지 18-19 시즌 SRS, Nrtg, MOV, Win과 같은 팀 전력, 팀 성과와 높은 상관관계를 보였습니다.

정작 스틸에서는 위와 같은 팀 전력수치와는 상관관계가 딱히 나오지 않았는데 말이죠

 

또한 놀랍게도.. 어시스트 자체를 비롯해서 어시스트 관련 트랙킹 스탯과 고루 매우 강한 연관성을 나타냈습니다.


강한 수비력 --> 원활한 패스 플레이? 

 

중간에 어떤 missing link를 통해 이게 연결되는 것인지 쉽게 상상이 되진 않네요

 

 

5) 스케쥴 강도 (SOS: Strength of Schedule)

 

스케쥴 강도는 예상할 수 있다시피 팀 성과 및 전력 수치와 뚜렷한 연관성을 보입니다. 

재밌는 점이라면, 


스케쥴 강도가 강해질 때, 가장 영향을 많이 받는 것은 DRtg입니다.

Drtg가 낮아지는 것이 가장 뚜렷하며, Ortg는 유의미한 상관성은 아니었습니다. 

 

Correlation with DRtg = 0.5111, FDR = 0.079497

Correlation with Ortg = -0.3038, FDR = 0.2840

 

 

6) 몇몇 트랙킹 스탯

 

사실 이 글을 준비하면서 특히 관심을 가진 부분들은 다양한 트랙킹 스탯들이었는데,

기대에 비하면 다른 1차 박스스코어 스탯에 비해 유의미하게 재밌는 결과, 팀 전력 수치와 연관된 경우는 거의 나오지 않았습니다.

 

앞서 소개해드린 디플렉션, 루즈볼 리커버리도 그랬고,

 

Drive 수치 같은 경우는 2가지 항목과 음의 상관관계를 보였는데,

하나는 포스트업 (Correlation = -0.7154), 다른 하나는 필드골 성공이었습니다 (-0.5445)

 

드라이브를 하기 위해선 포스트업이 주로 일어나는 페인트존을 많이 비워야하기 때문에 일어나는 현상인가하는 생각이 들었네요. 

 

필드골 성공 갯수가 줄어드는건 조금 예상 외였는데..

드라이브인을 많이 하는 팀일수록 필드골 성공이 줄어드는 양상을 보였고, 필드골 성공 갯수가 팀 승수와 양의 상관관계를 보였기에.. 조금 오바하면 드라이브를 많이 하는 것 자체가 강팀의 요건이라고 볼수는 없다고도 해석할 여지도 있습니다.

 

직접적으로 보면, 드라이브와 팀승수와의 correlation 수치는 -0.2693 이었습니다.

FDR이나 P-value로 봤을때 유의미한 수치는 아니었으나, 경향성으로는 negative correlation에 더 가깝다고 봐야겠죠.

 

 

7) 페이스


페이스 & 스페이스 농구의 시대인데요.

페이스가 빨라질 수록, 어시스트 관련 스탯, 야투율 (특히 2점슛 성공률)이 유의미하게 상승했고, 

슛 컨테스트 숫자도 늘어나는 것을 볼 수 있었습니다.

 

하지만 승수와의 상관관계는 매우 낮았습니다. (0.0889)

 

실제 올시즌도 SRS 1위팀인 밀워키는 빠른 페이스의 3점팀, 

2위인 레이커스는 느린 페이스의 수비팀이라는 다른 컨셉을 사용하여 각자 컨퍼런스의 강팀으로 자리잡고 있습니다.

 

 

8) 전체 상관관계 히트맵 

모든 항목을 다 소개해드리긴 어렵기에, 히트맵을 통해 원하시는 변수간 상관관계를 찾을 수 있도록 하였습니다.  클릭하시면 더 잘 보입니다. 

 

 

내용과 방법은 언제나 그렇듯 간단합니다만, 

원래 그럴 것이라고 생각하던 것이 실제로 드러날 때의 즐거움이 있고, 또 그사이에 예상치 못한 항목들을 보며 insight를 발견할 수 있었다는 생각이 듭니다. 

 

재밌게 보셨기를

24
Comments
2019-11-20 01:37:26

언제나 넥스트님의 통계학적인 접근은 농그에 다해 많은 화두를 던지는 듯해 너무나 재밌게 보고 있습니다.

매니아진에서 생각날때마다 두고 두고 볼수 있으면 좋겠습니다.

언제나 응원합니다.

WR
2019-11-20 01:49:00

좋게 봐주셔서 감사합니다 

2019-11-20 01:38:22

좋은 글, 감사합니다.

WR
2019-11-20 01:49:18

감사합니다!! 

2019-11-20 02:00:57

좋은 분석 감사합니다. 정말 재밌게 읽었습니다.

블락과 어시스트 관련 미싱링크는 혹시 페이스(속공)과 관련있지 않을까 조심스레 추측해 봅니다. 블락 후 속공이 이뤄지는 빈도가 높은 편이니 어시스트도 유의미하게 늘어나는 게 아닐까 싶네요.

WR
Updated at 2019-11-20 02:06:46

네, 그렇게도 생각 해보기는 했습니다만 스틸같이 확실하게 포제션을 가져오고 속공으로 연결되기 쉬운 수비스탯에서도 나오지 않는 어시 계열 스탯이, 확실히 포제션을 가져오기도 어려운 블락과 연관성이 높게 나오는걸 설명하기가 어려워서 차마 설명을 넣지는 못했습니다ㅜㅜ


원래 블락의 가치를 낮게 보던 입장이었어서.. 어시스트 계열 스탯과 높은 연관성, 더나아가 승리와의 연관성이 나오는건 정말 예상외였네요. 

 

재밌게 읽으셨다니 다행입니다!

Updated at 2019-11-20 02:12:52

블락도 디펜리바와 같은 맥락으로 상대 야투 실패를 불러오기 때문 아닐까요? 블락된 야투도 집계되는 걸로 알고 있어서요. 아, 제가 말씀드린 건 2번 항목에서 블락이 스틸보다 높은 이유입니다.

좋은 글 감사합니다. 통계 글은 항상 재밌게 읽게 되네요.

WR
Updated at 2019-11-20 02:16:53

블락과 승리와의 연관성을 말씀하신 설명이 가장 타당하다고 생각합니다.

블락과 가장 강한 negative correlation을 보이는게 DFG%인데, 사실 경기당 몇개 안나오는 블락 자체 때문에 Drtg가 바뀐다기 보단, 블락 잘하는 팀이 가진 야투율 억제력이 결과적으로 팀수비를 향상시키고 이게 승리까지 이어진다고 보는 입장이긴합니다.

 

다만 그냥 분석전에는 스틸이 블락보다 더 informative하고 중요한 수비스탯이라고 나이브하게 생각했던 터라, 스틸에서도 안보이는 게 나왔다는 부분이 놀라웠네요. 

 

물론 여전히 어시스트와의 상관관계는 어떻게 이뤄지는 건지 잘 모르겠습니다. 수치가 낮기라도 하면 모르겠지만 값 자체도 강력해서 이것 참..

2019-11-20 02:20:24

정말 유익한 글 잘 봤습니다.

디플렉션은 짜여진 농구 보단 하드헷지 위주로 난전 펼치는 팀이 많아서 그런 것 같고, 블락은 빅라인업 돌리면서 얼리 오펜스보단 짜여진 오펜스를 펼쳐서 그렇지 않을까 추측해보입니다. 빅맨들은 ast%가 높기도 하고요.

WR
2019-11-20 08:53:55

개인적인 선입견으로 작은 라인업이 더 공을 많이 돌리고 패스 위주의 게임을 한다여겼는데 그럴수도 있겠습니다. 감사합니다!

2019-11-20 03:07:00

블락이 강한 팀들은 전체적으로 운동능력이 좋고 키가 큰 빅맨을 보유하고 있는 경우가 많고 이런 빅맨을 가지고 있으면 팀원들이 어시스트를 올리기도 쉬우니까요. 지금 레이커스에 맥기 AD 하워드가 뛰고 있는 상황에서 르브론이 커리어하이 어시스트를 찍고 있는데 이 어시스트들의 상당수가 AD 맥기 하워드에게 올려주는 랍패스입니다. 자연히 이런 빅맨들을 보유하고 있는 팀들은 전력이 강하고 승수를 많이 올릴 수 있겠죠.

Updated at 2019-11-20 04:54:02

Heatmap까지...이분 최소 Data analysis 전공자 선수들 데이터뽑아서 논문하나 쓰시죠.

2019-11-20 08:18:20

항상 좋은 글과 정성들인 통계 및 분석에 감사드리며 덕분에 농구를 즐기는 방법이 하나 더 늘어났습니다
질문이 있는데, 상관 관계의 지표로 나타낸 저 숫자들은 상관 관계 계수(r^2, coefficient of correlation)인가요?

WR
2019-11-20 08:46:20

네, 피어슨 상관계수입니다.(r, Pearson's correlation coefficient)

2019-11-20 09:42:19

감사합니다. 피어슨 상관 관계에서 값이 0.4정도면 상관관계가 있다고 볼수잇는건가요? 뭔가 제가 The Next 23님의 자료를 제대로 이해못하고 있다고 느껴져서요
개인적으로 제가 논문에서 사용할때 r^2값이 1에 가까울수록 상관관계가 뚜렷하다고 보며 그 값이 0.9 이상이 되는 팩터들에 대해서 상관관계가 있다고 얘기하며 자료를 제시하거든요
물론 분야마다, 상관 관계의 정도에 따라 다르겠지만요
저는 통계쪽을 배우지 않고 그냥 구글링 등으로만 겉핥기 식으로 익힌지라 제가 틀렸거나 뭔가 잘못 이해하고 있는부분이 잇을거같아 여쭤봅니다

WR
2019-11-20 09:51:24

분야마다 상관성 기준이 실제 다르긴 합니다. 물리, 기계 이런쪽에선 0.9 밑으론 쳐다도 안본다고 들었는데, 사회과학이나 좀 다양한 변수가 혼재하는 케이스는 0.5만 넘어도 잘나왔다고 보기도 하고 제가 종사하는 분야는 변인이 매우 zero-inflated, sparse 분포라서 0.3만 나와도 p-value=0이 뜰 때도 있습니다.

2019-11-20 14:49:36

상세한 설명 감사드립니다

저도 공학쪽이라 그런가봐요. 항상 좋은 자료와 분석 잘보고있습니다 앞으로도 염치불구하고 부탁드립니다

2019-11-20 08:35:49

좋은 분석 글 감사합니다. 아주 많은 정성을 들이신기 한눈에 보이네요.
한가지 질문드릴 것은, 승패는 binary 변수인데 피어슨 상관계수를 사용해서 상관성분석을 실시하여도 괜찮은가요?
물론 샘플이 많다면 다른 방법과 결과는 비슷할 것 같긴 한데, 그래도 다른 방법을 써야하는 게 아닌가 하는 궁금증이 생기네요.

WR
2019-11-20 08:42:55

승패는 binary이나 여기서 넣은건 30개 팀의 승수이고 82경기 결과라서 rank-based Spearman correlation을 사용해도 거의 동일한 결과가 나옵니다!

2019-11-20 08:47:20

그렇군요. 답변해주셔서 감사합니다.

2019-11-20 09:13:41

우왕. 보기 좋은 분석글 감사합니다. 

저도 데이터 분석을 업으로 삼고 있어서 실례가 안 된다면 두가지 정도 여쭤보고 싶습니다.

혹시 곤란하거나 보안에 걸리는 것이면, 알려주시지 않으셔도 괜찮습니다. ^^

 

1. 제일 중요한 것은 역시 원데이터일 것 같은데, 혹시 데이터를 어디서 얻을 수 있는지 알려주실 수 있는지요?

2. 혹시 툴은 어떤 걸 쓰셨는지 알 수 있을까요? R, Python 등으로 코드를 짜거나 하신건지, 혹은 상용으로 쓰시는 툴이 있는 건지 해서요.

WR
2019-11-20 09:24:17

여기서 사용한 데이터는 Basketball-reference,com과 nba.com의 stat 페이지에서 긁어왔습니다. 툴은 R을 사용합니다.

2019-11-20 09:56:33

답변 감사드립니다.

저도 숫자만 보면 막 이거저거 해보고 싶은 성격이라서, 데이터 좀 긁어와서 이것저것 보고 싶어지네요. ^^ 

WR
2019-11-20 10:29:01

재밌는 글 기대하겠습니다~!

okc
24-05-04
1
2031
글쓰기
검색 대상
띄어쓰기 시 조건









SERVER HEALTH CHECK: OK