여기는 스포츠가 공용어입니다.


❝스포츠에서 유일한 것이 승리라면 이기는 그 순간 다시 경합을 벌여야겠다는 욕구는 사라질 것이다. 그렇다면 마이클 조던과 로저 클레멘스가 나이 마흔에 계속 경쟁을 벌였던 사실을 어떻게 이해할 것인가.❞

─ '소크라테스 야구장에 가다' 中에서

준플레이오프 전에도 시뮬레이션을 돌렸었는데, 역시나 기록에서 앞선 SK의 승리가 예상됐습니다. 그렇다고 승률이 95%나 된다는 얘기는 아니었구요, 그건 그 아래도 설명을 덧붙였습니다만, 시리즈를 나눠서 치르게 되면 승률 95%짜리 시리즈가 그 정도 나오게 된다는 말씀이었습니다.

그리고 역시나 플레이오프 전에도 시뮬레이션을 돌렸죠, 두산의 승률 .599. 이론대로라면 3승 2패가 되었어야 했는데, 3연전을 싹쓸이 해버리면서 그런 일은 벌어지지 않았죠. 그래도 두산이 우세라는 얘기는 맞아 떨어졌습니다. 개인적으로는, 사실 이 프로그램의 힘으로는 1승 1패 50%의 적중율을 보인 셈이겠죠.

그래서 한국 시리즈도 한번 돌려봤습니다. 그 결과 삼성의 승률은 .427, 그래서 두산의 승이었습니다. 뒤에 가면 삼성이 이기는 결과도 하나 나옵니다. 뭐 득/실점 데이터만을 토대로 한 자료니까, 그렇다고 삼성팬 여러분 너무 신경 쓰지 마세요. 물론 득점을 많이 하고 실점을 많이 할수록 기대 승수가 높아지는 건 사실입니다만, 결국 가장 많이 이기고 가장 적게 진 팀이 실제 승률이 가장 높은 팀입니다. 이길 때 점수 많이 따서 이기고, 질 때도 화끈하게 져버렸다면 얼마든 이런 일도 벌어질 수 있는 법이니까 말입니다. 그리고 제가 언젠가 한번 조사한 결과, 삼성은 좀 그런 확률이 높은 팀이었던 걸로 기억합니다. 게시물을 여기도 올려놨을 텐데, 그 간단한 검색이 귀찮아서 -_-;

그럼 이 시뮬레이션이라는 건 어떻게 하느냐? 아무도 안 궁금해 하시겠지만, 나중에 제가 까먹을까봐 여기에 한번 정리해 두겠습니다. 먼저 승률 A%를 가진 팀이 승률 B%를 가진 팀을 이길 확률을 나타내주는 공식입니다.

ProbABeatsB = (AWin% - (BWin% × AWin%)) / (AWin% + BWin% - (2 × AWin% × BWin%))

이를 흔히 log5 method라 부르는데, 이에 관해 궁금하신 분들은 여기를 클릭하시면 관련 링크를 확인하실 수 있습니다. 그리고 득점과 실점에 따른 기대 승률, 이른바 피타고라스 승률을 구하는 식은 ;

PW% = 득점² / (득점² + 실점²)

하지만 많은 세이버쟁이들이 연구한 결과 지수에 2를 쓰는 것보다 1.83을 쓰는 게 정확도 면에서 낫다고 알려지게 됐습니다. 따라서 저는 계산에서 1.83을 지수로 사용했음을 일러둡니다.

이제 이런 기본 공식을 가지고, 양 팀의 경기를 시뮬레이션 합니다. 시뮬레이션을 하는 데는 몬테 카를로 방식이 사용됐습니다. 이에 관해 궁금하신 분들은 여기를 클릭하시면 관련 링크를 알아보실 수 있습니다.

이렇게 해서 설계된 모델을 보시면 ;



양 팀의 득/실점 쪽에 lrand(x, y)처럼 표시된 게 보이실 겁니다. 이는 득점과 실점의 평균, 그리고 편차값입니다. 즉 이런 데이터들이 정규 분포를 보인다는 가정하에 작업이 진행되는 것이라고 하겠습니다.

이는 1경기를 치를 경우, 삼성이 기대할 수 있는 승률입니다. 그럼 이를 토대로 7차전 시리즈를 치를 때 어떤 결과가 나올 수 있을지를 알아보겠습니다. 먼저 제가 만든 기본 모형입니다. ;



W, X, Y, Z라고 표시된 건 삼성이 각각 4승 무패부터 4승 3패까지 승수를 거둘 확률을 의미합니다. 수식을 유심히 보시면 아시겠지만, 여기엔 경우의 수가 포함돼 있습니다. 고등학교 수학 시간에 모두 배우셨을텐데, 머리 아플테니 패스 ^^; 그래도 간략한 설명을 붙이자면 경우의 수 × 삼성이 이길 확률 × 두산이 이길 확률 이렇게 된 거라고, 아주 간략하게 대충 설명하겠습니다. 이렇게 계산된 W, X, Y, Z를 모두 더하면 삼성이 두산과의 7차전 시리즈에서 승리할 확률을 구할 수 있는 게 바로 이 모델이라고 하겠습니다.


하지만, 삼성팬 여러분 억울하지 않으십니까? 실제 승률에서는 앞섰는데, 피타고라스라는 숫자 놀음에 뒤진다고 이런 평가를 받아야 한다는 게 말입니다. 그래서 또 다른 방식으로도 한번 결과를 예측해 봤습니다. 양팀간의 승률 차이에 따라, 승률에 앞서 있는 팀이 맞대결에서 어느 정도 승률을 보일 수 있는지를 알아보도록 하겠습니다.

뭐, 계산은 엄청 간단합니다. 평균 팀의 승률인 .500에, 양팀의 승률 차이를 더하면 그만입니다. 직관적으로 납득이 되시는지요? 안 되신다면, 저도 설명드릴 능력이 안 됨으로 패스하겠습니다 -_-; 하지만 대신 MLB의 사례를 통해, 이런 식의 접근이 실제 결과와 어느 정도 일치했는지를 보여드리는 걸로 설명을 대신하도록 하겠습니다.



R-Square = .9927, 한눈에 보시기에도 굉장히 설명력이 있다는 것 아시겠죠? ^^; 이런 식으로 삼성의 승률을 구해 보면 .522가 나옵니다. 그리고 이렇게 나온 결과를 위와 똑같이 시리즈 전적 별로 구해 표로 그려 보면 ;



이 경우엔 .548로 삼성의 우세입니다. 이 결과만 놓고 보자면, 삼성이 이기든 두산이 이기든 4승 2패로 끝날 확률이 가장 높겠네요.

사실 이건 야구 얘기가 아니라 통계와 수학 얘기입니다. 재미는 없으셨겠지만, 재미삼아 보시라고 한번 올립니다. 정말 이번 시리즈 수학적으로는 모르겠네요 ^^;


결론적으로 시뮬레이션은 두산편, 통계는 삼성편입니다.


댓글,

더 보기