Xp
NBA Maniazine
/ / /
Xpert

(번역) CARMELO 프로젝션에 대한 이해를 돕기 위하여 <1>

 
6
  3596
Updated at 2016-08-22 17:03:54

원문

http://fivethirtyeight.com/features/how-were-predicting-nba-player-career/

번역 출처:
http://m.post.naver.com/viewer/postView.nhn?volumeNo=4746327

* 제가 얼마 전 번역하여 '주경야덕'이라는 야구 컨텐츠 번역 집단의 네이버 포스트에 업로드했던 세 편의 CARMELO 관련 글 중 첫 번째 글입니다. 원저자들이 저 글들을 시리즈라고 명시한 것은 아니고요, 번역하는 과정에서 제가 임의로 하나의 시리즈처럼 묶어 취급하게 되었습니다. 어쨌든 CARMELO의 유래와 원리, 독법에 대해 설명하고 있는 이 첫 번째 글은 굉장히 스크롤의 압박이 심한데요. 다행히도 이어지는 두 편은 그리 길지 않다는 희망적인 사실을 미리 전해드리고 싶습니다. 아무쪼록 즐거운 감상이 되시기를 바라겠습니다.





1. 우리는 모든 NBA 선수들의 커리어를 예측하고 있습니다. 이렇게 말이죠.
- 네이트 실버 (FiveThirtyEight)


* 2015-2016 시즌 개막을 앞둔 2015년 10월 9일에 업로드된 글입니다.


축하합니다! 여러분과 32억의 다른 네티즌들은 NBA 선수들의 향후 퍼포먼스를 예측하는 알고리즘인 "CARMELO"의 당당한 주인이 되셨습니다.

CARMELO의 기본 원리는 간단합니다. CARMELO는 모든 현역 NBA 선수를 대상으로 근대 NBA⑴에서 활동한 유사한 선수들을 발견해내고, 이들의 커리어를 활용해서 현역 선수의 미래를 예측합니다.

CARMELO 에 의하면, 예를 들어 워싱턴 위저즈의 포인트가드 존 월은 지금까지의 커리어를 놓고 보았을 때 아이재아 토마스, 제이슨 키드, 스티브 프란시스나 케니 앤더슨과 같은 기존의 NBA 선수들과 흡사합니다. 키드는 20대 중후반까지도 계속해서 발전했고, 토마스는 오랜 전성기를 누리면서 디트로이트 피스톤즈를 두 번의 챔피언십으로 이끌었습니다. 따라서 이 둘은 월에게 있어 긍정적인 비교대상입니다. 그에 비하면 프란시스와 앤더슨은 부정적인 비교대상들이죠. 때문에 존 월은 슈퍼스타로 발돋움할 가능성을 지니고 있기는 해도, 불안요소가 없는 것은 아닙니다.

CARMELO는 제가 2014년에 뉴욕 닉스의 카멜로 앤써니에 대하여 기사를 쓰기 위해 준비했던 작업으로부터 유래했습니다. CARMELO라는 이름은 이 때문에 만들어졌죠. 우리(FiveThirtyEight을 뜻합니다 – 역자 주)의 수석 스포츠 칼럼니스트인 닐 페인과 저는 여기에다가 나중에 "국부적 최적화를 거친 커리어 곡선의 회귀분석 모델(Career-Arc Regression Model Estimator with Local Optimization)"이라는 멍청한 역두문자어(backronym)를 갖다 붙였습니다. 하지만 정말로 CARMELO에 영감이 되어준 것은 2003년, 제가 베이스볼 프로스펙터스에서 야구선수들의 커리어를 예측하기 위해 만들었던 시스템인 PECOTA였습니다. 저는 10년도 넘는 시간 동안 "농구계의 PECOTA"를 만들어보겠다는 생각을 품고 있었는데요. 닐 페인과 앨리슨 맥캔, 그리고 다른 모든 FiveThirtyEight 동료들의 도움에 힘입어 마침내 여기에 힘을 쏟을 수 있었습니다.

하지만 CARMELO는 PECOTA에 비하면 상당히 단순한 편입니다. 부수적인 요소들이 상대적으로 적지요. 각 선수들의 출장 시간과 공수에서의 전반적인 가치를 예측하기는 하지만, 그의 세부적인 기록을 제시해주지는 않습니다.⑵ 이 단순명쾌함은 반쯤 의도적인 것입니다. 우리는 CARMELO가 핵심을 잘 짚고 있다고 생각했고, 보다 즐겁고 흥미롭게 NBA를 탐색하기 위한 수단이 되어줄 것이라고 생각했습니다. 허나 모델을 구체화하기에 앞서, 우리는 먼저 이것이 어떻게 작동하는지를 눈으로 확인하고 싶었습니다.

CARMELO 가 어떻게 해서 예측 결과를 도출하는지를 한번 빠르게 훑어봅시다. 월을 우리의 기니피그로 삼아서 말이죠. 한 가지 주의할 점은, 이어질 몇 단락에서 설명하는 내용은 CARMELO가 NBA에서 적어도 한 시즌을 마친 기존 선수들을 상대로 어떻게 작동하는지에 대한 해설이라는 것입니다. 신인들에 대한 예측도 본질적으로는 비슷하지만, 몇 가지 차이가 있으므로 조금 나중에 따로 설명하겠습니다.


1단계. 선수의 능력 규정하기



비교대상이 될 선수들을 구분하기에 앞서, CARMELO는 먼저 각 선수들의 능력과 속성을 통계적으로 규정지어야만 합니다.

우선은 선수들의 몇 가지 기본적인 신상 정보에서 출발합니다. 선수들의 향후 커리어 궤적을 결정짓는 가장 중요한 속성은 그의 연령이지요. NBA 선수들은 MLB 선수들과 비슷하게 약 27세 정도까지 발전을 이어가다가 그 이후로 하락세를 타기 시작합니다. 선수들의 CARMELO 페이지에 표시되는 나이는 다음 NBA 시즌 중간 즈음인 2016년 2월 1일 시점에서의 나이입니다.

그 다음으로 우리는 선수의 신상 정보를 표시합니다. 그의 키와 몸무게, 그리고 드래프트 순번이지요. 다른 모든 조건이 동일하다면, 선수들에게는 키가 크고 몸무게가 많이 나가는 편이 항상 유리합니다. 보다 이른 드래프트 순번에서 뽑힌 선수들은 더 높은 실링을 소유하는 경향이 있습니다. 다른 변수들을 모두 동등한 수준으로 통제한다고 해도 말이지요.⑶

선수의 신상 아래로는 여러 가지 기록들이 표시되어 있습니다. 이 항목들이 예측 성적을 나타내는 게 아니라는 점에 주목해주세요. 이것들은 가장 근래의 시즌일수록 가중치를 두어 평균을 낸 대상 선수의 최근 3시즌 평균 기록입니다.⑷

가장 먼저 등장하는 것은 선수의 득점과 슈팅 능력에 관한 몇몇 기록들입니다(이 기록들의 구체적인 정의는 베스킷볼 레퍼런스의 Glossary 페이지를 참조해주세요). Usage%는 팀의 포제션 중 몇 퍼센트가 이 선수에 의하여 슈팅, 턴오버 혹은 자유투 획득의 형태로 '소모'되었는지를 나타냅니다. 한 팀의 라인업에서 동시에 출전할 수 있는 선수는 다섯이기 때문에, 평균적인 Usage%는 20%입니다.

TS%는 2점 필드골에 3점슛과 자유투 득점의 가치를 추가적으로 반영하여 보강한 버전의 야투율입니다. 르브론 제임스나 제임스 하든처럼 Usage%와 TS% 모두에서 높은 순위에 위치하는 선수들은 득점의 볼륨과 효율을 모두 제공해주는 최고의 득점원이지요. 우리는 또한 선수의 자유투 성공률을 따로 표기합니다. 전체적인 선수의 가치에 있어서는 중요도가 그리 높지 않기는 해도, 슈팅능력과 샷 셀렉션이 동시에 작용하는 TS%에 비하면 이쪽이 선수의 슈팅 능력을 보다 순수하게 나타내주기 때문입니다. 사실, 두 카테고리를 동시에 살펴보는 쪽이 가장 좋습니다. 클리퍼스의 디안드레 조던은 턱없이 부족한 자유투 능력에도 불구하고 리그 최고 수준의 TS%를 기록하고 있는데요, 이는 그의 대부분의 슛 시도가 림 근처에서의 확률 높은 레이업과 덩크로 이루어져 있기 때문입니다.
 
이어지는 두 항목, 3점슛 빈도와 자유투 빈도는 선수가 슛을 성공시키는 빈도가 아니라 시도하는 빈도를 나타냅니다. 3점슛 빈도는 선수의 전체 야투 시도에서 3점슛이 차지하는 퍼센티지이고, 자유투 빈도는 선수의 자유투 시도가 야투 시도에 대해 차지하는 퍼센티지입니다. 대부분의 경우에는 양쪽 모두에서 높은 순위에 위치하는 쪽이 바람직합니다. 당신이 디안드레 조던이 아닌 이상, 자유투라는 것은 일반적으로 NBA에서 쏠 수 있는 가장 효율 높은 슛이고 페인트 존에서의 효율적인 움직임에 대한 보상입니다. 3점슛 역시 평균적으로 2점슛에 비해 효율이 높습니다. 뿐만 아니라, 이들 중 하나 이상의 항목에서 높은 순위를 기록한다는 것은 선수에게 코트를 넓게 사용하게 해주는 스페이싱 능력이 있다는 것을 의미합니다. 이는 팀 동료들에게도 좋은 영향을 미칠 가능성이 높지요.

다음은 선수의 볼 핸들링과 직결되는 두 가지의 익숙한 항목들입니다. 선수가 코트 위에 있는 동안 동료들이 성공시킨 야투 가운데 그의 어시스트를 받아 이루어진 야투가 차지하는 퍼센티지를 나타내는 Assist%와 포제션 중 선수의 턴오버로 이어진 퍼센티지를 나타내는 Turnover%가 바로 그들이지요. CARMELO의 입장에서도 높은 턴오버 확률은 NBA에서 이를 바라보는 것과 동일하게 나쁜 것으로 받아들여집니다. 예를 들어, 월의 높은 턴오버 화률은 그의 많지 않은 중대한 단점 가운데 하나이지요.

마지막으로 선수의 리바운드와 수비에 관한 일련의 항목들이 있습니다. Rebound%는 선수가 코트에 나서 있는 동안 거머쥐는 리바운드의 퍼센티지로, 10%가 평균입니다. Block%는 상대의 2점 야투시도 중 선수가 블록슛에 성공한 퍼센티지를, Steal%는 상대의 포제션 중 선수의 스틸로 이어진 포제션의 퍼센티지를 나타냅니다. 가장 마지막에 있는 것은 선수의 Defensive Plus-Minus 레이팅인데요. CARMELO의 Plus-Minus 레이팅은 BPM과 RPM을 50 대 50으로 섞어서 보여주고 있습니다. 이 Plus-Minus 레이팅에 대해서는 아래의 세부항목 섹션에서 더 말씀드려야 할 것 같습니다. 지금 알아야 할 핵심적인 사실은 0의 레이팅이 형편없는 수비수가 아니라 평균적인 수비수를 나타낸다는 것이겠네요.


2단계. 비교대상 구별해내기

때로는 이 기록들이 각각의 선수들에 대하여 상당히 완성도 높은 그림을 그려주기도 합니다. 월을 예로 들면, 기록은 그를 많은 득점과 평균적인 효율을 기록하면서 볼을 리딩하는 데 아주 능한 스코어러로 묘사합니다. 또한 그는 좋은 운동능력을 지닌 좋은 수비수이죠. 포인트가드로서는 특히나 말입니다. 반대로 부정적인 쪽을 보면, 월은 많은 턴오버를 저지릅니다. 게다가 3점을 자주 쏘지도 않고 파울을 많이 이끌어내지도 못하죠. 이는 그의 경기를 때때로 답답하게 만들어버릴 수 있습니다.

이 항목들에 내구성이나 출장 시간과 관련된 몇몇 항목들이 더해져 CARMELO의 비교대상 선별 공식을 형성합니다. 기본적인 개념은 이렇습니다. 월이 25세 시즌에 들어서기 때문에, CARMELO는 25세 시즌에 진입하고 있던 기존⑸의 NBA 선수들의 목록을 추려냅니다.⑹ 그리고는 가장 유사한 선수들을 선별하지요. 기존의 선수들은 100점 만점의 유사성 점수에서 출발하여 각 항목에서의 차이마다 점수를 차감 당하게 됩니다. 예컨대 월은 높은 Assist%를 기록하는 선수이기 때문에, 낮은 Assist%를 기록하는 선수들은 많은 점수를 차감 당하게 되어 월의 주요 비교대상이 되기가 쉽지 않습니다. CARMELO는 이러한 프로세스를 19가지의 기록 항목에 걸쳐 진행합니다. 그중 몇 가지 항목들은 다른 항목들에 비해 높은 가중치를 부여받고 있지요.⑺

이 과정이 복잡하게 들리실 수도 있겠습니다만, 사실 이 비교대상들 중에는 직관적으로 잘 맞아떨어지는 경우도 종종 있습니다. 일례로, 자랄 때부터 피스톤즈 팬이었던 저는 월과 그의 제1 비교대상인 아이재아 토마스 사이의 유사점을 쉽게 떠올릴 수 있습니다. 베스킷볼 레퍼런스 닷컴에서 그들의 성적을 확인해보신다면 여러분은 CARMELO의 답안이 어디에서 비롯되었는지를 확인하실 수 있을 겁니다. 어떤 면에서 그들은 정말 소름끼칠 정도로 똑같거든요. 물론 그렇다고 해도 둘이 완벽하게 일치하는 것은 아닙니다. 토마스는 골밑에서 더 많은 컨택을 이끌어내고, 결과적으로 보다 자주 자유투 라인에 섭니다. 대신 그는 신체 사이즈가 작았죠. 반면, 월은 딱히 작지는 않습니다.

표현을 달리 해본다면, 예컨대 눈송이들의 경우와 마찬가지로 NBA 선수들 중에도 모든 특성과 능력이 완벽하게 일치하는 두 선수는 존재하지 않는다고 말씀드릴 수 있겠습니다. 이론적으로 존재하는 완벽한 유사성 점수는 100점입니다만, 토마스는 57점으로 기재되어 있죠. 이는 CARMELO의 기준에 의하면 상당히 높은 득점입니다. 50 이상의 유사성 점수를 확보한 비교대상을 보유하지 못한 선수들도 많거든요. 60 이상의 유사성 점수는 더더욱 드뭅니다.

이는 어느 정도는 CARMELO가 유사성 점수를 책정하는 방식 때문이기도 합니다. 0점은 평균이지, 나쁜 점수가 아니에요. 예컨대 도미닉 윌킨스는 월을 상대로 0의 유사성 점수를 기록하고 있는데, 이들은 많이 닮은 관계는 아니지만 그렇다고 완전히 다른 범주에 존재하는 선수들도 아닙니다. 수많은 선수들이 아예 음의 유사성 점수를 기록하지요. 마누트 볼과 월의 유사성 점수는 -113입니다.⑻ 아래의 표는 유사성 점수를 해석하는 대략적인 기준을 제시하고 있습니다.

 


최근접 이웃 탐색을 활용하여 산출되는 CARMELO의 이 유사성 점수에 대한 보다 원론적인 설명은 각주에서 확인하실 수 있습니다.⑼


3단계. 예측 작성하기

선수들의 CARMELO 페이지에는 그의 탑 10 비교대상들이 표시됩니다. 각각의 비교대상들은 이후 7시즌 중 작성 가능한 부분⑽에 걸쳐 그의 커리어가 어떤 식으로 진행되었나를 보여주는 스파크라인 형태(꺾은선과 유사합니다. - 역자 주)의 자그마한 그래프를 달고 있습니다. 이때 바탕이 되는 것은 WAR이고요.

 


그렇다면 선수들의 CARMELO 예측결과는 단순히 그의 탑 10 비교대상들의 커리어 경로를 평균 냄으로써 만들어지는 걸까요? 이는 어느 정도 맞는 이야기이기는 한데, 사실과 완벽하게 일치하는 것은 아닙니다.

일단 첫째로, 비교대상들 중 탑 10만이 선수의 CARMELO 페이지에 표시되기는 하지만, CARMELO 시스템은 예측 과정에서 양의 유사성 점수를 기록한 모든 기존 선수들을 활용합니다.⑾ 이는 일반적으로 수십의, 어떨 때는 수백의 선수들이 예측을 생성하기 위해 활용된다는 것을 의미합니다. 월의 경우에는 179명의 기존 선수들이 양의 유사성 점수를 보유하고 있지요. 각각의 선수들이 예측에 미치는 영향력은 그의 유사성 점수에 비례합니다. 50의 유사성 점수를 지닌 선수는 25점의 유사성 점수를 올린 선수에 비해 두 배만큼의 영향력을 예측에 행사하는 것이죠.

두 번째 문제는 보다 원론적입니다. 스테픈 커리의 CARMELO 페이지를 한번 보시죠(15-16시즌을 앞두고 만들어진 프로젝션임을 주지하세요! - 역자 주).
 


커리는 어깨를 아주 으쓱하게 할 만한 몇몇 비교대상들(마이클 조던!)을 지니고 있지만, 나머지 비교대상들은 그에 비하면 대체로 많이 떨어집니다. 예컨대 테렐 브랜든, 테리 포터, 크리스 뮬린 같은 선수들이 커리의 비교대상으로 올라와 있는데요. 이들은 좋은 선수들이었고 어쩌면 조금쯤은 저평가 받았던 선수들일 수도 있지만, 이들 중 커리가 이미 밟은 수준의 경지를 밟아본 적이 있는 선수는 아무도 없습니다. 그들은 보급형 스테픈 커리였지요. 커리와 스타일상으로는 대체로 비슷하지만, 전반적으로 보면 커리에 미치지 못합니다. CARMELO는 이러한 문제점에 대해서 인식하고 있으며, 이에 대하여 '기준선'이라는 해결책을 내세웁니다. 자세한 내용은 각주에서 설명 드리죠.⑿


확률론적으로 생각하기

더 중요한 것은 CARMELO의 예측이 확률론적이라는 사실입니다. 월은 다음 시즌을 8.7의 WAR을 기록하면서 마무리 지을 것이라 전망되고 있습니다. 하지만 이 예측에는 불확실성이 존재하지요. 각 선수의 차트는 선수로부터 도출될 수 있는 결과 중에서 중단의 80%에 이르는 영역을 회색으로 표현하여 우리에게 보여주고 있습니다.

 


이 영역의 범위는 때때로 상당히 넓어지기도 합니다. 농구가 미국의 4대 프로 스포츠 중에서 가장 예측하기 쉬운 종목이라고는 하지만, 불확실성은 그럼에도 차고 넘치죠. 일례로 월의 영역은 리그의 평균적인 선수들보다 크게 뛰어나지 않은 4.7의 WAR로부터 올스타 후보군인 12.9의 WAR에 이르는 구간에 걸쳐 나타나고 있는데요. 거듭 말씀드리지만, 이는 그가 낼 수 있는 결과의 중단 측 80%를 나타내고 있을 뿐입니다. 만약 CARMELO의 계산이 정확하다면, 월은 10%의 확률로 자기 영역의 상단을 뛰어넘어 MVP 후보가 될 수도 있고, 10%의 확률로 자기 영역 아래로까지 추락하여 워싱턴의 스포츠 잔혹사를 연장시킬 수도 있습니다. 어떤 선수들은 다른 선수들에 비해 유난히 넓은 영역을 부여 받는데요. 앤드류 위긴스처럼 젊은 선수들이나 폴 조지처럼 부상에서 돌아오는 선수들의 것이 특히 그렇습니다.
 

세부 기록

지금까지 우리는 선수의 WAR 예측에 대해서 주로 이야기했습니다. 하지만 WAR은 CARMELO 예측의 종착점이 아니고, 또 시작점도 아닙니다. 선수의 CARMELO 페이지를 맨 아래롤 스크롤하시면 "세부 기록"이라 적힌 단락을 발견할 수 있으실 겁니다. 이 단락은 WAR이라는 결과물이 어떤 식으로 형성되는지에 대하여 보다 깊은 통찰을 제공합니다.



WAR은 선수의 예상 출전시간과 코트 위에서의 예상 생산성을 결합한 결과물입니다.⒀ 생산성은 기록상의 득실마진에 의하여 계산되는데요. 여기에는 설명이 조금 필요합니다.

엄밀히 말해서, 득실마진을 정의하는 것 자체는 어렵지 않습니다. 이는 선수가 평균적인 선수에 비하여 얼마만큼의 100 포제션당 플러스 마진을 팀에 안겨주느냐를 뜻하지요.⒁ 월을 예로 들면, 그는 지난 시즌 위저즈에서 +3.9의 득실마진을 기록했습니다. 이는 월이 코트에 리그 평균 수준의 네 선수와 함께 나와 있는 동안 위저즈가 상대를 100 포제션당 3.9점의 차이로 앞섰다는 것을 의미합니다. 득실마진은 공격과 수비라는 두 분야로 나누어볼 수가 있습니다. 월은 지난 시즌 +2.5의 공격마진을 기록했는데요, 이는 그가 100번의 포제션 동안 위저즈의 득점에 몇 점을 더해줬는지를 나타냅니다. 월은 거기에 +1.4의 수비마진을 기록했습니다. 이는 그가 수비를 통해 상대의 득점을 얼마나 감소시켰는지를 나타내지요.⒂

하지만 득실마진에도 단순과 복잡을 망라하는 여러 가지의 버전이 존재합니다. 우리가 CARMELO에서 사용하는 버전은 두 종류를 50대 50으로 섞은 것이죠. 전통적인 '박스 스코어' 스탯을 활용하여 계산되는 상대적으로 단순한 대니얼 마이어스의 Box Plus/Minus(BPM)과 Play-by-play 데이터를 활용하는 보다 복잡한 스탯인 예레미아스 엥겔만의 Real Plus-Minus(RPM)이 그 대상입니다.⒃

우리의 수석 스포츠 칼럼니스트인 닐 페인과 저는 지금처럼 BPM과 RPM을 섞기로 결정하기 전까지 어떤 2차 스탯을 활용할 것인지에 대하여 아주 많은 토론을 거쳤습니다. 수많은 농구 스탯쟁이들 사이에서 오래도록 이어져 온 논쟁을 계승해서 말이지요. 토론의 결론은 BPM과 RPM의 혼합이 다양한 무작위 샘플 테스트에서 PER이나 Win Shares 같은 대체재들에 비해 나은 결과를 보인다는 것이었습니다.

하지만 마법처럼 완벽한 종합 2차 스탯이란 존재하지 않습니다. 그리고 이것이 바로 NBA 예측 시스템의 구조적인 불확실성을 불러오는 근원이지요. 만약 CARMELO가 특정한 선수를 총애하거나 혐오하는 것처럼 보인다면, 그 이유는 BPM이나 RPM이 그 선수에 대해 내리는 평가에 있을 것입니다. 예를 들어, BPM과 RPM 양자가 랩터스의 요나스 발렌시우나스를 향해 내리는 평가는 PER 등의 평가에 비해 상당히 박합니다. 그렇기에 만약 발렌시우나스를 향한 예측이 지나치게 부정적으로 느껴지신다고 해도, 이는 CARMELO가 그의 퍼포먼스가 하락할 것이라고 평가한 탓이 아닙니다(사실 CARMELO는 그가 앞으로 조금 발전하게 될 것이라고 평가합니다). 그것은 BPM과 RPM이 애초에 발렌시우나스를 그리 빼어나지 않은 선수라고 평가했기 때문입니다.

CARMELO는 앞으로의 시즌 동안 선수들이 출장하게 될 시간을 또한 예측하여 보여드리는데요. 여기에서 전망하는 바를 조금 부정적이라고 느끼게 되실 지도 모르겠습니다. 실제로 CARMELO는 지난 시즌 2500분 이상을 출장했던 29명의 선수 가운데 26명이 더 적은 시간을 출장할 거라 예상하고 있습니다. 하지만 이는 NBA 역사의 진실을 반영한 결과입니다. 페이서스의 폴 조지처럼 커리어의 특정 시점까지 완벽하게 건강했던 선수들조차 때때로 끔찍한 부상에 시달립니다. 아니면 질병이나 출장정지, 난데없는 은퇴 같은 인생의 다른 굴곡들을 마주하게 되지요. 사실, CARMELO에서 예측하는 출장 시간은 평균적으로 살짝 낙관적인 성향을 띄도록 고안되었습니다.⒄


CARMELO는 어떤 선수들을 대상으로 하는가?

휴. 이제 WAR에 대한 전쟁(war)을 다 지나 왔군요. 그러면 이제 자잘한 것들에 대해서 얘기해봅시다. 어떤 선수에 대해 찾아보고 싶은데 그의 CARMELO 페이지가 존재하지 않는다, 이미 은퇴하거나 큰 부상으로 빠져 있는 선수인데도 CARMELO 페이지를 보유하고 있는 이유가 궁금하다, 뭐 이런 거요.

우리의 CARMELO 플랫폼은 14-15시즌 동안 100분 이상을 출전했거나 13-14시즌 동안 250분 이상을 출전한 선수 전원을 포함하고 있습니다. 이 과정에서 셰인 베티에처럼 은퇴했다는 사실이 알려져 있는 선수들도 포함되게 되는 것인데요. 우리는 이들처럼 어렵지 않게 다음 시즌부터 복귀하기로 결심할 수 있는 선수들의 예측 화면을 보여드리는 것은 별 문제가 아니라고 생각했습니다.

또한, 우리는 심각한 시즌아웃급 부상을 입었다고 알려져 있는 선수들의 예측 역시 정상적으로 보여드리고 있습니다. 호네츠의 마이클 키드-길크라이스트 같은 선수들이요. 그 이유는 분명합니다. 우리는 CARMELO가 사전에 습득하지 못한 추후의 정보를 바탕으로 선수를 생략하기로 결정하는 것은 일종의 부정행위라고 생각했습니다. 하지만 팀 뎁쓰 차트를 구성하는 과정에서는 이러한 부상들을 전부 반영시켰는데요. 여기에 대해서는 조금 뒤에서 설명 드리겠습니다.


신인 예측

우리는 또 대학 경력이 있는 80여 명의 신인들을 대상으로도 예측을 실시했습니다. 예를 들어, 디안젤로 러셀의 장밋빛 전망은 여기에서 나온 결과물이지요. 이 예측 결과는 ESPN Stats & Info에서 우리에게 제공해준 데이터베이스를 통해 산출되었습니다. 이 데이터베이스에는 2001년도 이후의 NBA 드래프티들 가운데 한 경기라도 NBA 무대를 밟는 데 성공한 유망주들의 대학 성적이 스케쥴상의 난이도가 반영된 상태로 저장되어 있습니다.

엄밀하게 말씀드려서, 신인들의 성적을 예측하는 데는 CARMELO와는 또 다른 프로그램이 사용됩니다. 우리는 이를 시라큐스 대학의 스타(이자 NBA에서는 망픽인 듯 보이는)였던 Fab Melo의 이름을 따 FABMELO라고 종종 부르는데요. 하지만 신인들과 기존 선수들의 성적을 예측하는 기본적인 방식은 동일합니다. 그 차이는 이 정도의 자잘한 설명으로 정리해볼 수 있겠네요.

- 신인을 예측할 때는 Stats & Info 데이터베이스에 포함되지 않은 몇 가지 기록⒅들을 건너뜁니다. 또, TS% 대신 eFG%를 활용하지요.
- 비교대상들을 식별하기 위한 가중치 역시 약간은 다릅니다. 대학 유망주들을 예측할 때는 예컨대 드래프트 순번의 가중치가 훨씬 높아지지요.
- 기존 선수들을 예측하는 프로그램이 나이를 절대적인 기준으로 간주하는 데 반해(31세의 선수는 무조건 다른 31세의 선수하고만 비교될 수 있습니다), 신인 예측 프로그램은 이 면에서 조금 유연합니다. 예를 들어 21세의 드래프티라도 다른 모든 면에서 극단적으로 유사하다면 20세의 드래프티와 비교해볼 수가 있다는 것이죠.
- 기존 선수들의 경우, CARMELO는 선수의 나이와 지난 세 시즌 동안의 출전 시간, 그리고 득실마진을 바탕으로 기준선을 형성합니다. 반면 신인 예측에서 활용하는 것은 선수의 나이와 드래프트 순번, 그리고 키입니다.⒆

너무 길어서 읽지 않으실까봐 정리하자면: 신인 예측은 선수의 나이와 드래프트 순번에 따라 크게 좌우됩니다. 전체 1픽이 거의 대부분의 경우 상당히 호의적인 전망을 부여받는 반면, 2라운드 후반 픽들은 거의 대부분이 그렇지 못하죠. 그럼에도 알고리즘은 가끔씩 드래프트 순번에 비해 아주 선호하는(러셀처럼), 혹은 미워하는 선수(프랭크 카민스키처럼)들을 찾아내게 됩니다. 몇 년이 지나고 나면 이 전망들의 옳고 그름을 확인할 수 있겠지요.

가끔씩은 예상치 못했던 결과들을 마주하게 됩니다. 우리가 지난 신인 예측에서 미래를 예측했던 선수들 가운데는 휴스턴의 2014년 드래프티 조쉬 후스티스처럼 첫 시즌 거의, 혹은 아예 출전해보지 못한 선수들이 둘, 셋가량 존재합니다. 레이커스의 줄리어스 랜들도 여기에 해당되지요. 그는 부상으로 아웃되기 전까지 딱 한 경기에 출장했습니다. 그리고 CARMELO는 이처럼 트래프트된 해와 뒤늦은 NBA 활약 사이에 "갭 이어(gap year)"가 존재하는 선수들에게 상당히 가혹한 평을 내려줍니다.

미국 대학에서 뛰지 않은 유럽이나 다른 대륙 출신의 드래프티들은 어떻게 하냐고요? 그들에게는 온전한 CARMELO 예측 페이지가 주어지지 않습니다(미안해요, 크리스탑스 포르징기스). 우리는 그럼에도 그들의 나이, 키 그리고 드래프트 순번을 바탕으로 간단하게 기준선을 예측하고 있습니다. 그렇기 때문에 팀 뎁쓰 차트에서는 이들의 이름을 발견하실 수 있는 것이고요.

 
팀 예측과 뎁쓰 차트


선수들의 성적을 예측하는 데서 한 발 더 나아가, 우리는 각 팀들의 승패를 포함한 시즌 예측을 발표하고 있습니다.⒇ 예로 들어볼까요. 오클라호마 시티 썬더입니다.



선수를 전망할 때와 달리, 팀을 예측하는 과정에는 약간의 인위적인 간섭이 들어갑니다. 우리는 ESPN의 NBA 담당 칼럼니스트들의 자문을 거쳐 전체 팀의 뎁쓰 차트를 작성했습니다. 여기에는 부상에 대한 최신 정보와 함께 팀의 로스터 구성에 대한 다른 소식들이 적용되어 있지요. 그렇다고 우리가 이를 아주 제멋대로 만지작거리는 것은 아닙니다. 만약 선수에게 새롭게 적용시키는 출장 시간이 CARMELO가 제안하는 출장 시간을 아득하게 뛰어넘는다면, 시스템은 그의 득실마진을 하락시키는 방향으로 이에 대응하게 됩니다. 일례로, 마누 지노빌리가 게임당 36분을 뛰어야만 한다면 지금처럼 효과적이기는 힘들겠지요. 이는 지노빌리가 뛰고 있는 샌안토니오 스퍼스처럼 뎁쓰가 탄탄한 팀들에게는 좋은 쪽으로 작용하고, 로스터 메우기에 급급한 팀들에게는 마이너스가 됩니다.
 

그렇다면, 이거 믿어도 되는 겁니까?

흠, 음. 아마 아닐 걸요? FiveThirtyEight의 RPM에 기초한, 상대적으로 단순했던 구 예측 시스템은 지난 시즌 상당히 좋은 퍼포먼스를 보였습니다. 베가스를 포함한 대부분의 다른 예측 시스템들을 제쳤지요. 이론적으로는, 과거의 자료를 통해 자체적으로 테스트해본 바에 의하면, CARMELO는 그보다도 상당히 더 정확할 겁니다. 기존의 단순한 RPM 예측에 비해 10%쯤은 개선된 모습일 테지요. 하지만 과거의 자료를 통해 실시한 테스트는 것은 예측 시스템이 실제로 처음 마주하는 진짜 데이터를 맞았을 때 어떤 퍼포먼스를 보여줄 것인지를 보장해주지 않습니다. 신인 예측 시스템은 오류투성이일 공산이 더욱 크고요. 저라면 이 알고리즘이 한두 시즌 정도의 데이터를 축적하기까지 조금 기다리는 쪽을 택하겠습니다.
 

카멜로 앤써니의 CARMELO 예측 결과는 우수한가요?

아니요, 딱히. 사실, CARMELO는 닉스에 대해 상당히 박합니다. 편애하는 게 아니라요.





각주

1976NBA-ABA 통합 이후.

예를 들어, 월의 WAR은 예측하여 제시하면서도 그의 자유투 성공률은 제공해주지 않는 식으로 말입니다.

그러나 이 효과는 선수들의 데뷔 초 몇 시즌 이후로는 사라지고 맙니다. 안드레아 바그냐니가 마법처럼 나아질 거라고는 기대하지 마세요.

구체적으로 말씀드리면, 가중치는 가장 최근 시즌이 60%, 그 전 시즌이 30%, 전전 시즌이 10%로 맞추어져 있습니다. 이 기본적인 가중치에 선수가 각 시즌마다 출장한 시간()의 제곱근을 곱합니다. 이렇게 해서 보다 오랜 시간을 출장한 시즌은 보다 높은 가중치를 지니게 됩니다.

1976NBA-ABA 통합 이후.

더 정확하게 말씀드리면, CARMELO는 선수의 나이를 소수점 첫째 자리까지 계산하여 0.5세 이내로 나이가 많거나 적은 선수들만을 추려냅니다. 20162월에 25.4세가 되는 월의 경우를 예로 들면, 시스템은 기존 시즌의 21일에 24.9세부터 25.9세 사이의 나이였던 선수들만을 대상으로 탐색을 진행하게 됩니다.

이 항목과 가중치들은 다음과 같습니다.

이 가중치들이 어디서 나왔냐고요? 솔직히 말씀드리면 약간은 임의로 만든 것입니다. 예전의 빌 제임스 유사성 점수 같은 방식을 따르되, 과적화될 정도로 최적화를 거듭하기보다는 농구적으로 말이 되도록만들고자 했습니다. 어쨌든 대략적으로 말씀드려서, 다섯 가지의 주요 카테고리를 나누어 각각 20%씩의 가중치를 부여하고자 했습니다.

신상 정보와 신체조건

내구성과 출장시간

슈팅과 득점력

기타 공격 성향과 능력

리바운드와 수비

유사성 점수의 상한선이 100인 반면, 그 하한선은 존재하지 않습니다. 선수는 다른 선수에 대해서 음의 무한대에 이르는 유사성 점수를 지닐 수도 있지요. 실질적으로 -300 아래의 점수는 찾아보기 어렵습니다.

CARMELO는 각각의 통계 항목에 대해서 표준편차를 바탕으로 현재의 선수와 기존 선수 간의 차이를 계산합니다. 그리고는 이를 제곱하고, 각 항목에 주어진 가중치만큼을 곱한 후 그 제곱합의 제곱근을 취합니다. CARMELO는 이를 선수의 '편차값'이라고 지칭합니다. 선수의 유사성 점수는 100 * ((1.25 - 편차값)/1.25)라는 공식을 통해 계산됩니다. 정확히 일치하는 두 선수에게서 나올 수 있는 최소의 편차값은 0이고, 따라서 유사성 점수의 최고점은 100입니다.

CARMELO는 각 항목의 기록을 한 시즌 단위로 평가합니다. 따라서, 선수가 지난 시즌의 클레이 탐슨이나 케빈 러브처럼 급격한 발전이나 퇴보를 보인다고 해도 CARMELO는 결국 그와 유사한 패턴을 보인 비교대상들을 찾아내게 됩니다. 그러나 이런 요소들은 실제로는 CARMELO가 균형을 위해 다양하게 고려하는 내용들 때문에 아주 엄청난 영향을 미치지는 못합니다.

만약 비교대상이 되는 선수가 아직 일곱 시즌을 더 뛰지 않았다면 어떻게 될까요? 마찬가지로 예를 들어 설명해보겠습니다. 러셀 웨스트브룩의 14-15시즌은 월의 16-17시즌을 예측하기 위해 활용되는데요. 문제는 CARMELO가 그 이후의 웨스트브룩의 기록에 대해 접근하지 못한다는 점입니다. 웨스트브룩은 아직 15-16시즌을 마치지 않았으니까요. 어쨌거나 웨스트브룩에게서 2시즌 동안의 유용한 데이터를 확보하고 있는 만큼, CARMELO는 향후 2시즌 동안의 월의 퍼포먼스를 예측할 때는 웨스트브룩의 기록을 포함시켰다가 3년차부터 7년차까지는 배제시키는 식으로 이를 해결합니다.

예외가 하나 있다면 CARMELO가 식별해낸 비교대상군 선수들의 수가 아주 적을 때입니다. 아주 나이가 많은 선수나 하싼 화이트사이드 같은 아웃라이어들의 경우 이렇게 되기 쉬운데요. 이때 CARMELO 시스템은 선수의 미래를 계산하는 과정에서 그 기준을 보다 느슨하게 만들어 살짝 마이너스의 유사성 점수를 기록한 선수에게도 약간의 비중을 부여합니다.

기준선은 선수의 나이와 지난 세 시즌 동안의 출장 시간, Plus-Minus 수치를 바탕으로 만들어지는 Marcel the Monkey류의 아주 간단한 프로젝션입니다. CARMELO는 각 선수마다 기준이 되는 선을 계산하여 선수들이 기준선에 비해 얼마나 좋고 나쁜 퍼포먼스를 보여주었는지를 측정합니다. 예를 들어, 만약 테리 포터가 그의 기준선을 뛰어넘는 활약을 보여준다면 이는 커리 역시 그의 기준선을 뛰어넘는 활약을 보여줄 것이라는 징조로써 받아들여지게 된다는 것이죠. 조금 더 간단하게 말해서, 포터의 기준선이 10승의 가치로 책정되었는데 그가 12승 가치의 활약을 펼친다면, CARMELO는 이를 커리도 그의 기준선을 2승만큼 초과하는 활약을 펼칠 것이라는 뜻으로 받아들인다는 것입니다. 그러므로 만약 커리의 기준선이 15승 가치로 책정되어 있었다면, 포터가 만들어준 선례에 따라 CARMELO는 커리가 17승만큼의 활약을 펼쳐줄 것이라고 예측하게 되는 것이죠.

보다 구체적으로 말하면, WAR은 이런 식으로 계산됩니다. 여기서 PMPlus-Minus 레이팅을, MIN은 출장시간()을 나타냅니다.

WAR = (PM * MIN * (2.18)) / (48 * 82)

NBA의 경우, 각 팀은 한 경기에서 일반적으로 100개 남짓의 포제션을 가져갑니다. 그러므로 이는 선수의 48분당 생산 가치와도 대체로 흡사합니다.

헷갈리실까 하여 말씀드리는데, 이 경우 높은 수치를 기록할수록 좋은 선수입니다.

문제는 RPM에도 여러 가지 버전이 존재한다는 겁니다. 어떤 버전들에서는 지난 시즌들 동안의 데이터가 현 시즌의 RPM을 산출하는 과정에서 활용됩니다. 예컨대 13-14시즌의 성적이 14-15시즌의 RPM에도 영향을 미치게 된다는 것이죠. CARMELO는 해당 시즌의 데이터만을 포함시키는 버전을 사용합니다. 엥겔만은 너그럽게도 00-01시즌부터 14-15시즌까지의 자료들을 FiveThirtyEight에 제공해주었습니다. 00-01시즌 이전으로는 RPM을 산출하는 것이 불가능하며, CARMELO 역시 BPM만을 활용합니다.

이는 CARMELO가 비교 대상들 중 해당 시즌 동안 한 경기에도 출전하지 못했던 선수들의 기록을 배제시키기 때문입니다. 그 여파는 고령의 선수들 사이에서 가장 확연하게 드러납니다. 예컨대, 덕 노비츠키에 대한 예측은 37세 시즌까지 경기에 나섰던 비교대상들의 기록만을 반영한 결과물입니다. 그전에 은퇴한 선수들은 제외하고요.

자유투 성공률이나 DBPM 같은 것들입니다.

기준선을 예측하는 데 있어 키가 아주 본질적인 도움을 주는 것은 아닙니다. 그렇지만 신인 예측 알고리즘은 선수의 키가 크다면 수비 쪽에, 작다면 공격 쪽에 그의 가치를 주로 분배할 것입니다.

승패의 예측은 피타고리안 공식에 기초하여 이루어집니다. 이때 공식에서 활용하는 피타고리안 지수는 11.5, 상당히 보수적으로 승패 예측을 산출하도록 만들어져 있습니다. 하지만 과거의 자료를 바탕으로 우리들이 조사해본 바에 의하면, RPM-BPM-에 기초해서 예측을 실시했을 때 가장 정확하게 팀 성적을 예측해주는 것이 바로 저 수치입니다.




CARMELO 프로젝션 주소

http://projects.fivethirtyeight.com/carmelo/

2
Comments
2016-08-17 18:19:57

시간 가는 줄 모르고 재미있게 봤네요. 다음 편들도 감사히 보겠습니다.

2016-08-21 14:12:43

전 이 알고리즘 이름이랑 카멜로 앤써니의 이름이 같길래 참 재밌는 우연이라 생각했었는데 그냥 끼워맞춘것이었네요

hou
52
8664
24-03-23
bos
122
27790
24-03-18
atlgsw
86
20173
24-03-18
bosden
57
7089
24-03-16
den
122
24282
24-03-14
lal
44
8559
24-02-24
den
92
18741
24-02-20
dal
80
16247
24-02-17
dal
79
8875
24-02-06
bos
54
6245
24-02-15
dal
72
11541
24-02-14
cha
69
21212
24-02-14
orl
36
6246
24-02-09
phi
42
6875
24-02-10
indphi
60
6387
24-02-08
atlbkn
45
10625
24-02-08
sas
50
16923
24-02-05
phi
46
11125
24-02-04
cle
40
12455
24-02-04
검색 대상
띄어쓰기 시 조건









SERVER HEALTH CHECK: OK