여기는 스포츠가 공용어입니다.


❝스포츠에서 유일한 것이 승리라면 이기는 그 순간 다시 경합을 벌여야겠다는 욕구는 사라질 것이다. 그렇다면 마이클 조던과 로저 클레멘스가 나이 마흔에 계속 경쟁을 벌였던 사실을 어떻게 이해할 것인가.❞

─ '소크라테스 야구장에 가다' 中에서

야구는 상대팀보다 단 한 점이라도 더 얻으면 승리를 챙겨가는 게임입니다. 따라서 팀 득·실점 기록을 확인해 보면 팀 성적을 어느 정도 예상해 볼 수 있습니다. 이런 기본 상식에 기초해 RC를 고안한 그리고 사실 세이버메트릭스라는 말 자체를 만들어 냈다고 해도 과언이 아닌 빌 제임스가 소개한 승률 계산법이 바로 피타고라스 승률입니다.

자세한 수학을 제외하고 공식을 소개해 드리면 (정말 수학적인 과정이 궁금하신 분이 계시다면 이 사이트를 방문하시면 됩니다.)
 
피타고라스승률(PW%) = 득점[R]^2 / (득점[R]^2+실점[RA]^2)

이후 몇 가지 공식의 변이형이 생겼는데 지수 2를 1.83으로 대체하는 것과 지수 자체에 로그를 도입하는 것 두 가지가 대표적입니다.

이번 글에서는 이 세 가지 공식을 각각 P, P1, P2로 적용함을 일러둡니다. 공식 전체를 소개해 드리면:

P = R^2 / (R^2 + RA^2)
P1 = R^1.83 / (R^1.83 + RA^1.83)
P2 = R^X / (R^X + RA^X), 여기서 X = .45 + 1.5 × Log10((R+RA)/G), G는 경기수

 여기서 제가 올스타 휴식기 때 전반기 정리를 하면서 올렸던 피타고라스 승률을 보시겠습니다.



농담(濃淡)이 들어간 중위권 부분은 피타고라스 승률이 예상과 어긋나 있습니다. 4위로 전망했던 LG는 최종 6위, 한화는 4위, 롯데는 5위로 각각 시즌을 마감했습니다. 그럼 시즌 중에 피타고라스 승률로 최종 승률을 예상하는 건 잘못된 예측법일까요?

다음 표는 이번 시즌 각 기간별 실제 승률과 세 가지 방식으로 구한 피타고라스 승률간의 차이를 평균과 표준 편차를 사용해 알아본 결과물입니다.



제법 유사하지 않습니까? 4월 15일 P1 방식의 69포인트가 가장 큰 차이를 보입니다. 편차는 역시 4월 15일, 방식은 P방식의 57포인트. 시즌 전체의 57% 가량의 일정이 소화된 6월 30일부터는 20포인트 이내로 아주 근소한 차이를 계속해서 유지합니다. 전체 경기가 126 경기임을 감안할 때 이 정도 차이는 2경기 반 정도에 지나지 않습니다. 그만큼 정밀한 예측이 가능하다는 뜻입니다. 어느 정도 게임 차이가 나는지 날짜와 공식별로 알아 보면 ;

 

자, 오랜만에 그래프 한번 보시죠. ^_^



확실히 시즌이 진행될수록 오차가 줄어든다는 사실을 확인할 수 있습니다. 하지만 이는 해당 시점 자체 승률과 해당 시점 피타고라스 승률을 기초로 작성된 데이터입니다. 우리가 알아보고자 하는 건 이게 최종 승률을 예측하는 데 있어 얼마나 유의미한 지표로 쓸 수 있는가 하는 점입니다. 이를 위해, 최종 승률과 각 시점에서의 실제 승률, 피타고라스 승률간의 R스퀘어 값을 알아봤습니다.



일반적으로 해당 시점 승률보다 피타고라스 승률이 최종 승률을 더 잘 설명한다는 사실을 알 수 있습니다. 하지만 5월과 6월말을 보면 두 기준 모두 정확도가 떨어집니다. 국내 프로야구는 무승부가 있기 때문에 이 정도까지 들어맞을 거라고는 예상하지 못했습니다. 하지만 승수는 무승부로 인해 분명 차이가 존재할 것입니다.



이 점은 피타고라스 승률이 극복하지 못하는 것처럼 보입니다. 평균적으로 무승부는 몇 경기를 기록할 것인가를 따로 구해보려면, 구할 수도 있겠지만 그럼 정말 야구가 아니라 수학이 되는 거겠죠. 

RC나 피타고라스 승률 모두, 그리고 그밖의 세이버메트릭이라 불리는 것 모두, 정말 엉뚱한 숫자 놀음은 아닙니다. 때로 지나치게 공식이 복잡하고, 도저히 이런 메트릭이 왜 필요할까 의문이 가는 것들이 보일 때도 있기는 합니다. 하지만 분명 야구를 바탕으로, 야구의 원리를 이용하고, 야구를 보는 또 다른 관점을 보여주는 재미있는 틀이기도 합니다. 물론 그래서 이것이 절대적으로 옮다는 말씀은 아닙니다.

지난번에도 한번 언급해 드렸지만, 야구를 즐기고 사랑하는 데 있어 이런 숫자들은 아무 소용이 없습니다. 저도 야구장에 가는 데 엑셀양을 끌고 가지는 않습니다. 목이 터져라 응원하고, 제가 응원하는 팀이 지면 상대편을 향해 욕도 하고 조롱도 합니다. 이번 시즌 현대가 7위라 하더라도, MVP에서 2표밖에 못 받았다 하더라도, 제게 최고의 팀은 현대이고, 최고의 선수는 서튼입니다. LG팬 여러분께 LG와 이병규 선수가 최고이듯 마찬가지입니다. 그건 숫자로 설명할 수 없는, 아니 하기 설명하기 싫은 영역입니다.

하지만 야구를 이해하려면, 이런 숫자들을 알아야 할 때가 있습니다. 제 눈은 보고 싶은 것만 보고, 제 머리는 이해하고 싶은 것만 이해하고, 제 가슴은 감동 받고 싶은 것에만 감동 받기 때문입니다. 그래서 믿기 싫은 것들을 믿어 보기 위해, 이해하기 싫은 것들을 이해하기 위해, 정말 엉뚱하게 들리겠지만, 그것들로부터 감동 받기 위해 저는 숫자를 봅니다. 저 혼자만 옳은 게 아니겠기에, 제가 최고라 믿는 선수가 왜 최고인지 여러분께 증명해 보이고 싶어서, 그리고 동시에 제가 최고라 믿는 팀이 최고가 아님을 받아들이기 위해서.

예전에도 한번 올렸던 글로, 글을 마무리 지을까 합니다.






댓글, 4

  •  댓글  수정/삭제 알 수 없는 사용자
    2008.09.15 02:40

    재밌게 읽었습니다.

  •  댓글  수정/삭제 신동원
    2017.04.26 10:40

    P2 = R^X / (R^X + RA^X), 여기서 X = .45 + 1.5 × Log10((RS+RA)/G), G는 경기수


    써주신 P2 공식 중에서 "RS"는 해당 시즌의 득점의 합이 맞는지요?

더 보기