[번역] PER의 재발명: PER 2.0
* 기본적으로 번역 글입니다만 PER에 대한 설명은 기존 매니아진 링크로 대체하겠습니다. 전체적인 글의 순서와 단락구조를 재구성한 면이 많고 문장도 개인적 판단하에 의역한 부분이 있습니다.
* 원문은 아래와 같습니다.
https://fansided.com/2017/01/31/nylon-calculus-reinventing-per/
대략 10여년 정도 전에, 존 홀린저는 PER이라고 하는 보편적 스탯을 개발하였다. 이는 사용가능한 모든 농구 1차스탯들을 하나의 숫자로 통합하여 선수를 평가하고 비교하려는 시도였다. 이후 꾸준히 농구 분석 방법이 발전하고 새로운 정보들이 제공되었기에 여전히 이 스탯이 사용된다는 것은 놀라운 일이다. PER은 빅데이터 분석 및 통계 기술의 혁명적 발전의 수혜를 받지 않고 개발된 스탯이다.
이런 단점에도 불구하고, 지금도 PER은 흔히 사용된다. 아마 여전히 가장 많이 인용되는 NBA 스탯일 것이다. 이는 농구 스탯계에 있어 지도자급이라 할 수 있는 홀린저가 미친 영향력 때문일 수도 있고, (PER을 제공하는) ESPN의 보편성, 그리고 basketball-reference 사이트에도 PER이 등재되어 있는 까닭이기도 할 것이다.
만약 이 스탯이 이른 시일내에 사라져버리지 않는다면, 아마 지금이 이 스탯을 업데이트할 때이다.
이제 PER을 다시 발명해보자 (Let's reinvent PER~!)
1. PER의 작동 원리와 계산법
* 원문 작성자가 읽기를 추천한 글 링크는 아래와 같고 매니아진에 이미 올라와있는 PER에 대한 설명 링크를 보시는 것도 좋습니다. 내용은 거의 동일합니다.
http://athletametrics.weebly.com/nba/player-efficiency-rating-per-and-what-it-means
* PER에 대한 설명 및 한계에 대한 매니아진 링크
https://nbamania.com/g2/bbs/board.php?bo_table=maniazine&wr_id=171294&sca=&sfl=wr_subject&stx=per&sop=and&scrap_mode=&gi_mode=&gi_team_home=&gi_team_away=
https://nbamania.com/g2/bbs/board.php?bo_table=maniazine&wr_id=109301&sca=&sfl=wr_subject&stx=per&sop=and&scrap_mode=&gi_mode=&gi_team_home=&gi_team_away=
* 이부분의 결론 한 단락만 번역하면,
PER은 선수의 "시간당" 생산하는 "순수 득점 (net point)"을 구해서 "페이스"와 "리그 평균"으로 보정하는 스탯이다. 득점은 당연히 순수 득점으로 치환하기 쉽지만, 스틸이나 리바운드같은 것들은 "포제션 가치 (value of a possesion;VOP)"을 통해 변환된다. 스틸 한 개는 순수한 하나의 포제션을 얻어내는 것이므로 선수는 1번에 해당하는 리그 평균 포제션 가치를 창출하게 된다. 조금 더 난해하긴 하지만 미스샷같은 경우에도 마찬가지의 과정이 진행된다. 미스샷이나 자유투는 포제션 소모이므로 리그 평균적인 수비리바운드 비율을 통해 보정된다. 개인 파울은 리그 전체의 파울 당 자유투 비율을 통해 보정된다. (즉, 파울을 통해 줄 것으로 예상되는 자유투 실점만큼 손해를 주고있다고 생각하는 것입니다.)
2. PER 업데이트!!
1) 팀 어시스트 비율
위 수식에서 보듯 선수는 어시스트 수치의 2/3 만큼의 점수를 받는다. (1/3은 넣은 선수의 몫이라고 보는 것입니다.) 결과적으로 선수는 어시스트 받은 득점의 가치 일부를 패서에게 떼어줘야한다. 홀린저가 처음 PER을 개발하였을 때는 "선수 개인에 대한 어시스트 비율 데이터가 없었다". 그래서 그는 "팀 어시스트 비율(team_AST/team_FG)"을 사용하였고 이를 팀의 모든 선수에게 동일하게 적용하였다.
(* 2-factor*(team_AST/team_FG))*FG 에 해당하는 부분입니다.)
같은 가정은 자유투에도 적용되었는데, 이는 자유투가 실제 포제션을 종결시키는 빈도에 대한 가정이 들어가야해서 좀더 복잡하다.
(* FT*0.5*(1+(1-(team_AST/team_FG))+(2/3)*(team_AST/team_FG) 에 해당하는 부분입니다.)
첫 번째 재발명은 바로 이 어시스트 비율에 있다. 특정 팀의 모든 선수는 같은 어시스트 비율을 갖는다는 가정을 하는데 이를 play-by-play 로그를 바탕으로 선수 개개인의 값으로 대체하였다. 자유투에서도 마찬가지이지만 조금 더 복잡한데 이는 기본적인 스탯으로는 자유투가 실제 포제션을 종료시켰는 지를 알수가 없기 때문이다. PER은 포제션의 가치를 득점으로 환산하기 때문에 실제 포제션을 사용한 자유투 수치를 아는 것이 중요하다. Play-by-play 기록을 통해 우린 실제 자유투가 포제션을 사용한 경우를 정확히 알아낼 수 있었고 테크니컬 파울을 통해 얻은 자유투를 모두 제외하였다.
또한 우리는 3점 야투가 따로 보정되지 않는 것을 발견했으며 이는 PER이 필연적으로 3점시도에 의한 득점을 더 높게 평가하고 있다는 것을 의미한다. 3점 성공률은 너무 혼란하기 때문에 (*chaotic), 3점에도 어시스트 팩터 (2/3)를 동일하게 적용하는게 큰 문제가 될 것으로 판단하지는 않았다. 대신 밸런스를 맞추기 위해 3점슛의 어시스트 비율은 따로 분류하였다. 결과적으로 3점을 어시스트한 선수는 1/3, 즉 득점 1점에 해당하는 크레딧을 받게 된다.
2) 파울당 기대 실점
PER은 개인 파울 당 리그 평균 실점을 통해, 파울 당 실점 기대값을 계산한다. 필자는 동일한 방법을 사용하되 슈팅파울에 대해서만 적용하였다.
위에서 새로 적용하게된 변수들을 사용할때 반드시 고려해야만했던 것은, 몇몇 선수들에게선 (*특히 출전시간이 적은 선수들) 추가되는 선수별 비율의 분모가 0이 되는 원치않는 상황이 생길 수도 있다는 것이다. 그래서 필자는 선수별 어시/득점 비율, 자유투당 포제션 소모 비율, 3점슛의 어시/득점 비율 등을 리그 평균으로 회귀하는 방식을 사용하였다. 기본적인 형태는 다음과 같다. (개별 선수값+리그평균 비율*50)/(개별 선수값 +50) (*50이라는 임의의 값을 리그 평균만큼 주어서 분모가 0이되는 경우가 없게하는 것입니다.)
3) 자유투 수비 리바운드
필드골 리바운드와 자유투 리바운드는 근본적으로 다르다. 그래서 우리는 이를 적절하게 나눠서 두 개의 서로 다른 리그 평균 수비리바운드 비율을 적용하였다. 이는 데이터가 있으면 꽤 쉬운 일이며 쉬운 수비 리바운드로 스탯 패딩을 하는 선수에게 큰 차이를 만든다.
4) 블락
PER에서, 블락의 가치는 상대 포제션을 끝냈는지 여부에 있다. (* PER 계산식에서 블락은 VOP (포제션 가치)*DRB% (리그 평균 디펜리바 비율)*BLK의 영향을 미치는 것으로 계산됩니다. 블락을 상대 야투실패로 보고 여기에 평균적인 디펜리바 비율을 곱해서 계산하는 것이죠), 따라서 우리는 이를 실제 수비리바로 이어진 블락을 의미하는 용어 "러셀"로 대체하였다 (* 빌 러셀을 의미하는 듯 합니다., 결과적으로 목적은 같되 리그 평균 디펜리바비율을 개개인의 실제 결과로 치환했다고 보면 됩니다, 전반적으인 업데이트에서 뭉뚱그린 수치를 선수 개인의 값으로 바꾸는게 주를 차지합니다.)
5) 추가 변인
우리는 여기에 필자가 가장 좋아하는 오펜스 파울 유도를 추가하였다, 스틸처럼 갯수에 VOP를 곱하는 방법으로 쉽게 추가할 수 있다. 또한 개인 파울 유도를 추가하였으며, 파울을 범하는 것과 동일한 공식을 쓰되 점수가 차감되는 것을 반대로 (*얻어내는 것이므로) 플러스되도록 하였다. 또한 골텐딩 역시 중요한 변수가 될 수 있는데 이는 2득점 차감 효과가 있다고 계산하였다.
6) 포제션 가치 수정
동일한 포제션으로 계산되더라도, 스틸 후에 공격은 훨씬 효율적이다. 그래서 우리는 스틸에 약간의 추가점을 주었고 라이브-볼 턴오버에 추가적인 페널티를 주었다. (* 예를 들어 수비가 정돈할 시간이 있는 아웃 오브 바운드 턴오버와 달리 상대 스틸에 의한 발생하는 라이브볼 턴오버는 실점의 위험이 더 높으므로 추가적인 페널티를 주는 것입니다.) 이 추가점은 역사적으로 턴오버에 따라 팀이 얼마나 더 좋은 평균 대비 좋은 야투율을 기록했는 지에 기반하여 계산되었다. 구해진 계수는 0.14로 이는 스틸이 기존의 1 VOP가 아닌 1.14 VOP를 갖게 된다는 의미이다. 결과적으로, 이러한 수정은 패싱 레인 스틸에 의한 턴오버가 많은 패서들에게 더 치명적으로 작용할 수 있다.
7) 스페이싱의 가치
또한 우리는 스페이싱을 위한 변인을 추가하였고 이는 3점시도와 어시스트 받은 3점 성공 갯수를 통해 구해졌다. 스페이싱의 중요성이 무시되어선 안된다. 이는 본인의 능력만으로 슛을 창출할 순 없어도 스페이싱을 통해 팀을 도울 수 있는 롤 플레이어들을 위한 것이다. 따라서 이는 캐치앤슈터에 의한 추가적인 수혜를 반영하여 어시스트 받은 슛에 가중치가 주어진다.
(* 링크된 글이 있는데 http://nyloncalculus.com/2014/11/12/offensive-pt-pm-1-1/ 이게 현재는 연결이 되지 않네요.)
8) 득점의 과대평가
최종적으로 우리는 중대한 수정 사항에 이르렀는데, 우린 득점 수치가 지나치게 높은 평가를 받는 것에 무언가 조치를 취해야했다. 우리의 수정사항들은 어시스트를 만들고 어시스트 받지 않은 슛을 쏘는 선수들을 과대평가하게 만든다. 고작 35%의 필드골 성공률로 외곽슛이나 자유투를 생산하지 못하고 단순히 슛을 많이 쏘는 것 만으로 PER을 올릴 수 있다는 것은 말이 되질 않는다. PER 계산법을 완전히 뜯어고치지는 대신 우린 PER의 정신에 기반하여 약간의 보정을 가했다.
우리는 FGCoef라고 하는 새로운 요인을 포함시켰는데 이는 모든 필드골 및 자유투 메이드, 그리고 어시스트에 적용된다. 이 수치는 특정 평형점 (equilibrium point)에 기반하는데 "net value가 리그 평균 포제션 가치(VOP)보다 크지 않는한, 어시스트에 의한 필드골 성공은 PER 수치를 올리지 못한다"는 것이다. 이는 비효율적인 득점원에게 페널티를 주고 리그 평균에 좀 못미치는 나쁜 팀 소속 슛 크리에이터들은 페널티를 면제받는 것을 의미한다-이러한 선수들의 필드골/어시스트 비율은 평형점을 떨어뜨리기 때문.
(* 리그 평균 이하의 팀에서는 야투율이 낮더라도 필드골/어시스트 비율이 낮은, 즉 슛을 만들어내는 유형의 선수들은 페널티를 받지 않도록 한 것으로 보입니다. FGCoef가 글에서 저때 한 번 등장하는데 추가적인 설명이 없어 정확히 어떻게 구하는지는 알수가 없습니다. 팀마다 포제션의 net value가 다를 수 있는데 이 수치가 리그 평균보다 낮다는 것이 약팀의 근거로 사용되는 것으로 보이고요.)
결과
이런 수정의 결과는 아래 링크에서 확인할 수 있다. https://docs.google.com/spreadsheets/d/1peRETu85GEECHpu3qI-6I9GBfKusva1lVPcw7FgTMbk/edit#gid=1549531054
처음 눈에 띄는 것은 아마도 기존 PER보다 더 넓어진 분포일 것이다. 기존의 31 부근에서 형성되던 PER 최고 범위는 업데이트 후 40대 후반까지 올라간다. 이는 주로 한 팀 구성원에게 동일하게 적용되던 어시스트 득점 비율이 선수마다 따로 적용되었기 때문이며, 그 결과 이미 득점과 어시스트로 인해 높은 수치를 보이던 다득점의 플레이메이커가 PER에 추가적인 높은 상승폭을 얻게 된다.
표를 통해 지난 20시즌 동안의 최고 시즌들을 정리해볼 수 있었는데, 1500분 이상 출전한 선수 중 최고치는 무려 50에 육박하는 게빈 가넷의 04-05 시즌이다. 필자는 이전에도 가넷에 대한 거침없는 격찬을 한 적이 있는데 (* 링크 글이 열리지 않습니다ㅜㅜ), 본인은 여전히 그가 04-05 시즌에 논란이 있던 스티브 내쉬를 꺾고 MVP를 탔어야 한다고 생각한다 (* 제 의견 아닙니다! 참고로 04-05 시즌 가넷은 PER 1위, WS 1위,BPM 1위를 기록했었습니다).
Table: top PER 2.0 seasons, 1997-2017, min. 1500 MP
Player | Season | Team | PER | PER 2.0 |
Kevin Garnett | 2005 | MIN | 28.2 | 49.9 |
Chris Paul | 2009 | NOH | 30.0 | 48.1 |
Kevin Garnett | 2004 | MIN | 29.4 | 47.0 |
Charles Barkley | 1999 | HOU | 23.1 | 46.5 |
LeBron James | 2009 | CLE | 31.7 | 45.5 |
Charles Barkley | 1997 | HOU | 23.0 | 45.1 |
Tracy McGrady | 2003 | ORL | 30.3 | 44.8 |
Charles Barkley | 1998 | HOU | 21.6 | 43.4 |
Kevin Garnett | 2003 | MIN | 26.4 | 42.9 |
LeBron James | 2013 | MIA | 31.6 | 42.8 |
Chris Paul | 2008 | NOH | 28.3 | 42.8 |
Tim Duncan | 2005 | SAS | 27.0 | 42.6 |
Grant Hill | 1997 | DET | 25.5 | 42.0 |
David Robinson | 1998 | SAS | 27.8 | 42.0 |
LeBron James | 2010 | CLE | 31.1 | 41.3 |
Elton Brand | 2002 | LAC | 23.6 | 41.3 |
Ben Wallace | 2002 | DET | 18.6 | 41.3 |
Tim Duncan | 2002 | SAS | 27.0 | 40.7 |
이는 꽤 괜찮은 리스트라고 생각한다, 르브론 제임스와 뉴올 시절 크리스폴의 몬스터 시즌이 잘 드러나있으며, 몇몇 레전드들도 보인다. PER 2.0은 리바운드를 많이 잡는 플레이메이커를 엄청 좋아하는 것처럼 보이는데 이는 대부분의 최신 마진 스탯계열에서도 실제 나타나는 현상이다. 이미 전성기가 지난 휴스턴 바클리의 수치를 보라...
만 35살의 휴스턴 바클리가 지난 20년간 역대 4번째로 높은 PER 2.0을 보이네요. 사실 이런 점은 오히려 스탯에 대한 신뢰도를 떨어뜨린다는 개인적인 생각이 들긴 하지만 일단 재미있는 현상이긴 합니다. 특히나 기존에 PER로 인해 퍼포먼스의 저평가가 없지 않았던 팀던컨의 시즌도 보이고, 벤월러스는 기존 PER에서 18.6밖에 되지 않았던 수치가 41.3으로 뛰어올랐습니다. 스테판 커리의 PER 1.0으론 31.5였던 15-16 시즌보다 높다는 말이죠..
12-13 시즌부터 17-18 시즌까지 900분 이상 출전선수 중 PER 탑 50 시즌입니다.
찾기 쉽도록 몇몇 선수들에게는 음영 처리를 해놓았습니다,
17-18 시즌은 출전시간을 보니 저 글 작성당시 기준으로 보입니다.
(* 원문 내용으로 돌아와서... 중간에 워스트 PER 2.0 부분은 생략합니다)
이 버전이 기존 버전보다 더 나은 것인지에 대한 의문이 들 수 있다. 우리는 2013-15 시즌 PER과 RAPM (* 온/오프코트 마진을 통해 구한 순수한 마진스탯)의 상관계수를 구하였고 기존 PER (0.417)에 비해 PER 2.0 (0.490) 이 더 높은 상관관계를 보인다는 것을 확인하였다. 비록 이 수치를 미래 예측을 위해 사용하도록 권하지는 않겠지만 이런 결과는 단순한 실험 이상의 좋은 징조이다.
존 홀린저가 기존 PER에 대해 설명하면서 했던 경고를 기억하라, 이 스탯은 단지 선수에게서 얻을 수 있는 가능한 정보를 모두 정리한 것에 불과하므로 우리는 어떤 정보가 빠져있는 지를 바탕으로 "주관적인 보정"을 해야만 한다. PER, 심지어 발전된 형태의 신버전일지라도, 수비적 측면을 정확히 반영하지 못하며 게임에 미세하게 영향을 주는 상당 부분은 박스스코어 스탯에 기록되지 않고 또한 리그 평균을 사용한 변환 과정에서 사라져버린다.
우리는 신버전의 PER이 사람들이 가진 모든 이슈를 전부 해결해준다고 생각하지 않는다. 우린 비효율적인 스코어러 문제를 해결하려는 우리의 시도가 꽤 용감했다고 생각하며 이 모든 것은 계산식의 근본적인 구조로 귀결된다: 포제션에 기반하여 각 스탯의 가치를 어떻게 분배할것인가?
리바운드는 사실 추가적인 포제션을 제공하지 않는다. (* 득점 성공이나 실패 후 상대팀의 수비리바운드는 모두 포제션이 넘어가는 것이며, 오펜 리바는 추가적인 포제션으로 계산하지 않습니다) 또한 박스스코어 스탯 뿐아니라 play-by-play스탯도 리바운드가 경합 리바운드였는지 아니면 누군가라도 잡았을 쉬운 리바운드였는지를 구분하지 못한다.
특히 수비는 분석하기가 더 까다로운데, 이 스탯을 만들어낸 포제션 모델은 현재 사용가능한 데이터에 잘 작동하지 못한다. 수비란 단순히 포제션 숫자를 제어하는 것 이상이며, 일례로 야투 성공을 무시하는 것은 극심한 간과라고 볼수 있다. 팀의 수비를 단순히 스틸, 블락, 리바운드 갯수로 평가한다고 생각해보라, 완전 미친 짓이지 않은가
매 포제션마다 차곡차곡 수치를 계산하고 가중치를 주면서 선수를 평가하고 싶어하는 마음은 이해하지만 현재 이용 가능한 데이터는 그정도로 세분화되어 제공되지 않는다. 이는 플러스-마이너스 스탯, 마진 스탯이 그토록 성공한 이유이기도 하다. 박스스코어는 충분치 않다. 온갖 잡다한 스탯을 들여온다고 해도 여전히 그러하다. 하지만 어떤가, 우리가 PER을 계속 사용할거라면, 더 발전된 버전을 사용하는 것도 괜찮을 것이다. 물론 이전 버전의 PER이 그러하듯이 이 버전 또한 단점이 많다.
* 간단한 구글링으로는 PER 2.0을 지속적으로 제공하는 곳이 있는 것 같지는 않습니다. 그래도 꽤 재밌는 시도네요.
PER 2.0기준 40이 넘는 선수들 면면을 보니 기존보다 개선된 것 같은 느낌이 들긴 합니다.
두번이상 나오는 선수로는 가넷, 바클리, 릅, 폴, 던컨이네요. 큰 덩어리들 사이의 폴이 대단하게 느껴집니다.