여기는 스포츠가 공용어입니다.


❝스포츠에서 유일한 것이 승리라면 이기는 그 순간 다시 경합을 벌여야겠다는 욕구는 사라질 것이다. 그렇다면 마이클 조던과 로저 클레멘스가 나이 마흔에 계속 경쟁을 벌였던 사실을 어떻게 이해할 것인가.❞

─ '소크라테스 야구장에 가다' 中에서


'더 하드볼 타임즈'(THT)에 '머신러닝(기계학습)으로 2018년 최우수선수(MVP) 예상하기'라는 글이 올라왔습니다. THT는 '그레이디언트 부스팅(gradient boosting)'이라는 기계학습 방법론을 적용해 아메리칸리그에서는 무키 베츠(26·보스턴·사진 오른쪽), 내셔널리그에서는 크리스티안 옐리치(27·밀워키)가 각각 MVP를 탈 것이라고 예상했습니다.



그레이디언트 부스팅 뒤에는 흔히 트리(tree)가 따라 나옵니다. 기계학습에서 부스팅은 간단한 학습기(learner)를 결합해서 보다 강력한 학습기를 만드는 방식을 뜻합니다. 그레이디언트 부스팅은 기본적으로 '의사결정 나무(Decision Tree)'를 부스팅하는 형태입니다. 그래서 트리가 따라나오는 겁니다.


의사결정 나무는 "의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종"(위키피디아 한국어판)입니다. 


말로 쓰면 어려운 것 같아도 그림을 보시면 뭔지 아시겠죠? 이 그림은 타이태닉호에 탔던 사람 중 어떤 사람이 생존했는지를 나타낸 의사결정 나무입니다. 


이런 나무 하나로는 의사결정 과정에 '구멍'이 있을 수 있으니 이런 나무를 여러 개 그려서 그 구멍을 최대한 줄이는 겁니다.


이렇게 의사결정 나무를 부스팅하는 방법에 그레이디언트 부스팅만 있는 건 아닙니다. 아래 그림처럼 의사결정 나무를 아주 많이 그린 다음에 어떤 결과가 나오는지 다수결 투표로 최종 의사결정을 내리는 방식도 있습니다. 이를 '랜덤 포레스트(Random Forest)'라고 합니다.



한번 이 랜던 포레스트 기법으로 한국 프로야구 MVP도 예상해 볼까요?


기계학습을 진행하려면 먼저 컴퓨터에게 공부를 시키는 과정이 필요합니다. 21세기 들어 타자가 MVP로 뽑힌 건 2001, 2002, 2003, 2009, 2010, 2012, 2013, 2014, 2015년 등 총 9번. 각 연도별로 규정 타석을 채운 타자들 △포지션 △팀 순위 △타율 순위 △홈런 순위 △타점 순위 △최다 안타 순위 △OPS(출루율+장타력) 순위 △도루 순위를 가지고 컴퓨터에게 공부를 시켰습니다.


그다음 MVP를 예상해 보라고 했더니 아래처럼 재미없는 결과를 나타냈습니다.


▌랜덤 포레스트 모델이 예측한 프로야구 MVP
 연도  예상 MVP(확률)  실제 MVP  예상 2위(확률)
 2001  이승엽(61.8%)  이승엽  우즈(17.4%)
 2002  이승엽(78.6%)  이승엽  장성호(4.9%)
 2003  이승엽(74.3%)  이승엽  심정수(14.8%)
 2009  김상현(77.3%)  김상현  박용택(5.7%)
 2010  이대호(81%)  이대호  홍성흔(3.1%)
 2012  박병호(77.5%)  박병호  김태균(15.4%)
 2013  박병호(78.9%)  박병호  이병규(9.3%)
 2014  서건창(55.3%)  서건창  박병호(40.5%)
 2015  테임즈(57.3%)  테임즈  박병호(51.8%)


'재미없다'고 쓴 건 MVP를 100% 예상했기 때문입니다. 한국 프로야구에서는 투수와 타자가 MVP를 놓고 경쟁하는 일도 적지 않은데 이 경우를 제외한 영향이 컸을 겁니다. 


그래도 예상 2위를 살펴 보면 재미있는 결과가 나타납니다. 서건창(29·넥센)은 2014년 역대 최다 안타 기록(201안타)을 새로 쓰면서 MVP로 뽑혔습니다. 그런데 같은 팀 박병호(32)도 이 해에 .303/.433/.686으로 MVP급 활약을 선보였습니다. 그러니 이해 박병호가 MVP로 뽑힐 확률도 40.5%가 나왔습니다.


이듬해에는 40(홈런)-40(도루) 클럽을 개설한 테임즈(32·당시 NC)가 MVP로 뽑혔습니다. 테임즈는 당시 유표효 99표 중 50표를 얻었는데 한 표만 부족했어도 2위에 이름을 올린 박병호(44표)와 결선 투표를 진행해야 했습니다. 그만큼 MVP 경쟁이 뜨거웠고 랜덤 포레스트 모델 역시 이런 승부를 예상하고 있습니다.


그렇다면 이 모델이 올해 MVP로 뽑은 건…




많은 분들이 이미 예상신는 것처럼 김재환(30·두산)입니다. 랜덤 포레스트는 올해 김재환이 MVP로 뽑힐 확률이 64.5%라고 예상했습니다. 2위 박병호가 7.6%니까 타자 가운데서는 김재환이 압도적이라고 해도 과언이 아닐 겁니다.


이건 우리 MVP 투표단이 홈런과 타점에 무게를 많이 두기 때문입니다. 메이저리그에서 OPS가 제일 중요한 기록인 것과 대비되는 장면. 홈런 중요도를 100이라고 할 때 OPS는 35.8밖에 되지 않습니다. 


이런 사정을 알기에 '베이스볼 비키니'에 'MVP로 누가 뽑힐지 내기를 한다면 김재환을 고르겠지만 '가장 가치 있는 타자'라면 박병호가 맞다'고 썼습니다. 올해 프로야구에서는 박병호가 득점 기댓값(RE)승리 기댓값(WP) 모두 제일 많이 끌어 올린 타자니까요.


이미 MVP 투표는 끝난 지 오래고 11월 19일이 되면 진짜 올해 주인공이 누군지 알 수 있습니다. 정말 김재환일까요? 아니면 (박병호는 아니겠지만) 다른 누구일까요?



댓글,

더 보기