<출처 : 빌 제임스 트위터>
[야구공작소 홍기훈] 열 번 중에 세 번만 안타를 쳐도 칭찬받는 스포츠가 야구라는 말이 있다. 타격의 어려움을 효과적으로 표현한 이 문구는, 동시에 야구가 통계와 얼마나 밀접하게 맞닿아 있는지를 알려주는 문구이기도 하다.
안타의 개수를 전체 타수로 나눈 값인 타율은 야구의 가장 대표적인 비율 지표다. 비율 지표에는 누적 지표에는 없는 고유한 기능이 있다. 타격 능력이 빼어나다고 하기는 어려운 포수 커트 스즈키와 의문의 여지 없는 최고의 선수 마이크 트라웃은 모두 통산 1200개 남짓한 안타를 쳤다. 하지만 두 선수의 안타 생산 능력도 비슷하다고 생각하는 사람은 없을 것이다. 이런 경우 타율을 활용하면 둘을 비교할 수 있다. 타율은 ‘평균’이라는 개념을 근간으로 하기 때문이다. 타율은 물론 연평균 승수, 9이닝당 평균자책점, 타석당 홈런 수를 비롯한 무수한 야구 관련 지표들이 평균이라는 개념에 기초하고 있다.
2015년부터 매 시즌 0.247의 타율을 기록하고 있는 크리스 데이비스(오클랜드 애슬레틱스)라는 선수가 있다. 다년간의 성적을 토대로 우리는 데이비스가 ‘평균적인 상황’에서 타수당 0.247개의 안타를 만들어 낼 것*이라고 기대할 수 있다. 물론 실제로는 그리 간단한 문제가 아니다. 예컨대 카를로스 카라스코(상대 전적 12타수 1안타 9삼진)처럼 껄끄러운 투수가 마운드 위에 있다면 기대할 수 있는 타율은 다소 낮아질 것이다. 반대로 타일러 스캑스(상대 전적 21타수 9안타, 4홈런)처럼 데이비스를 껄끄러워하는 투수가 마운드에 있다면 기대 타율은 오히려 높아질 것이다. 이와는 별개로 데이비스가 몸이 좋지 않거나 타격감이 나쁠 수도 있다. 주자 상황이나 수비 시프트, 구장이나 날씨 같은 외부적인 요인도 영향을 끼친다.
(*엄밀히 얘기하자면 어느 선수가 3할의 타율을 기록하고 있는 것과, 그 선수가 안타를 칠 확률이 30%인 것은 다른 얘기다. 이에 관해서는 다음에 더 자세히 얘기하도록 하자.)
하지만 추가로 고려해야 할 요소가 많다고 해서 타율 같은 평균값이 의미가 없어지는 것은 아니다. 오히려 그 반대다. 대타를 낼 때도, 번트 작전을 지시할 때도, 던질 구종을 고를 때도, 온갖 순간 무수한 선택에 직면하게 되는 스포츠가 바로 야구다. 이때 데이터를 바르게 이해하고 각 선택의 기댓값을 파악해야만 확률 싸움에서 확실한 우위를 점할 수 있다. 최근 야구계에서는 ‘평균 타구 속도’, ‘평균 회전수’처럼 기존에 볼 수 없던 데이터들이 범람한다. 이 무기들은 쓰는 방식에 따라 활용도가 천차만별이다. 과연 이런 데이터를 활용해 평균값을 구할 때는 어떤 점에 유의해야 할까.
‘왜’에 대한 고찰하기
어떤 학생이 중간고사를 봤는데, 짝수 번호의 문제는 다 맞혔지만 홀수 번호의 문제만 네 개 틀렸다고 해보자. 만약 이 학생이 ‘아! 나는 홀수 번호의 문제에 약하구나’라고 판단하고 문제집에서 홀수 번호의 문제만 풀어본다면 어떨까. 과연 다음 시험에서 좋은 성적을 기대할 수 있을까? 물론 홀수 번호의 문제라도 풀어보는 쪽이 공부를 아예 하지 않는 것보다는 낫겠지만, 효과적인 공부 방법이라 보기에는 무리가 있다. 이 학생이 범하고 있는 오류를 하나하나 짚어보자.
어떤 데이터를 활용할 때 무엇보다 중요한 것은 ‘왜 그런지’를 반문해보는 자세다. 여기에 대한 고민 없이 데이터를 활용하는 것은 총인지 칼인지도 모르는 채로 무기를 휘둘러보는 태도와 다를 것이 없다. 각 팀의 요일별 승률을 예로 들어보자. 어느 팀이 올 시즌 목요일 경기에서 7승 3패를 올렸지만 금요일에는 2승 8패를 기록하는 데 그쳤다면, 이번주 목요일에는 승리가 유력하고 금요일에는 그렇지 못하다고 할 수 있을까? 목요일과 금요일 경기 사이에는 승률을 변화시킬 만한 유의미한 차이가 있는 것일까? 그렇다고 보기는 어렵다. 모든 팀이 월요일마다 휴식일을 갖는 KBO 리그의 특성상, 화요일 승률이 차이를 보였다면 차라리 설득력이 있었을지도 모른다. 하지만 설령 그렇다고 하더라도 요일보다는 ‘불펜 투수 및 야수들의 휴식일에 따른 성적 변화’에 초점을 맞추는 편이 보다 합리적인 분석일 것이다.
위의 학생도 마찬가지다. 이 학생이 저지른 첫 번째 오류는 시험 성적과 별 연관이 없는 요소를 원인으로 지목한 다음, 의심의 과정을 거치지 않고 그대로 믿어버렸다는 것이다. 일반적인 시험에서 홀수 번호의 문제가 짝수 번호에 비해 유난히 어려울 확률은 희박하다. 만약 듣기 평가 문제의 난이도가 높다거나, 지문이 긴 문제에서 성적이 좋지 않다는 등의 제대로 된 분석을 내놓았다면 훨씬 효과적인 대응이 가능했을 것이다.
예를 하나 더 들어보자. 1회 평균자책점이 나머지 이닝에 비해 유독 높은 선발투수가 있다. 몸이 덜 풀린 탓이라는 진단 하에 경기 전 연습 투구를 잔뜩 늘린다면, 그로 인해 5회부터 체력이 바닥나버리고 만다면 데이터의 바람직한 활용 사례라고 보기는 어려울 것이다. 사실 높은 평균자책점의 원인은 1회에는 무조건 상위 타선을 상대한다는 쪽에 있을 확률이 크다. 이닝별 평균자책점이 대신 상위타선과 하위타선을 상대할 때의 성적 변화를 유심히 살펴봤다면, 이를 바탕으로 어느 시점에 투수를 투입하고 교체하는 것이 좋을지를 결정했다면 한층 제대로 된 개선을 기대할 수 있었을 것이다. 사실 몇 년 전부터 메이저리그를 강타하고 있는 오프너 전략도 비슷한 착안 과정을 거쳐 나온 작품이다.
이처럼 데이터를 제대로 활용하기 위해서는 그 뒤에 숨은 ‘진짜 이유’를 찾고자 하는 태도가 중요하다. 정답에 접근할 수 있는 ‘인사이트’가 중요하다는 이유가 바로 여기에 있다.
드물어 보이는 것과 드문 것을 구분하기
위의 학생이 범한 두 번째 오류는 바로 ‘충분히 있을 법한 일’에 섣불리 결론을 내렸다는 것이다. 문제지에서 홀수는 전부 틀리고, 짝수는 전부 맞힌 상황이 일견 신기해 보였을 수는 있다. 하지만 곰곰이 생각해보자. 여덟 문제 가운데 네 문제를 틀렸을 때, 그 틀린 문제의 번호가 모두 홀수일 확률은 약 1/16이다(실제로는 그보다 약간 낮다). 이 학생이 짝수 문제만 틀렸어도 비슷한 오류에 빠졌을 것이라 간주한다면, 그가 평균적으로 시험에서 네 개 정도를 틀리는 실력의 소유자라 가정했을 때 여덟 번만 응시했어도 한 번은 이와 같은 상황을 마주했을 것이라 계산해볼 수 있다.
야구에서 이런 오류를 가장 흔히 관찰할 수 있는 대목이 바로 ‘클러치’다. 2011년 포스트시즌의 영웅 데이빗 프리즈를 떠올려보자. 내셔널리그 챔피언십 시리즈에서 22타수 12안타(3홈런) 0.545/0.600/1.091의 맹타로 시리즈 MVP를 수상한 프리즈는 이어진 월드시리즈에서도 극적인 끝내기 홈런을 때려내며 월드시리즈 MVP를 차지했다. 그렇다면 프리즈는 말로만 듣던 ‘가을만 되면 힘이 솟는’ 타자였을까? 그렇지 않을 확률이 높다. 이후 치러진 2013년, 2014년 포스트시즌에서 프리즈는 20경기 64타수 11안타(0.172)의 빈타에 시달렸다. 매년 열리는 포스트시즌에서 이런 ‘미친 타자’들을 목격하는 것은 생각처럼 신기한 일이 아니다.
또 다른 예를 들어보자. 가위바위보에서 열 번 연속으로 승리할 확률은 0.1%에 불과하다. 하지만 천 명을 모아 놓고 토너먼트 형식의 가위바위보 대회를 개최한다면 어떨까. 절반의 사람들이 1회전에 떨어지겠지만, 결국 누군가는 마지막 라운드까지 진출해서 우승할 것이다. 그렇다면 이 우승자는 0.1%의 확률을 뚫어낸 가위바위보의 신인 것일까? 비슷한 예시가 또 있다. 전세계에서 가장 성공한 주식 투자자 워렌 버핏의 성공 요인은 무엇이었을까? 물론 하늘이 내린 투자 능력일 수도 있다. 하지만 지구상의 무수한 주식 투자자들 가운데 한 명쯤 있기 마련인 ‘가위바위보 대회 우승자’가 바로 그였을 가능성 또한 배제할 수 없다. 실제로 버핏 본인도 1980년대에 비슷한 이야기를 한 바가 있다.
많은 데이터 모으기, 많이 모을 필요가 없는 지표에 집중하기
이 때문에 통계학에서 강조하는 요소가 바로 ‘표본의 크기’다. 10타수 3안타를 기록한 타자보다는 1000타수 300안타를 기록한 타자가 ‘진짜 3할 타자’에 가까울 확률이 높다는 것은 자명한 이치다. 사실 위 학생의 경우도 단 한 번의 중간고사만으로는 유추할 수 있는 정보가 거의 없다. 여기에 세 번째 오류가 있다.
어떤 지표들은 충분한 데이터를 쌓는 것 자체가 어렵기도 하다. 예컨대3루타처럼 구장, 상대 수비, 운 등의 외부 요소가 많이 개입하는 지표는 연도별 상관관계가 약할 수밖에 없다. 지난해 리그 최다인 12개의 3루타를 기록했던 케텔 마르테는 직전 세 시즌 동안 3루타 7개를 치는 데 그쳤던 선수다. 어떤 타자가 3루타를 잘 칠 수 있는지를 파악하려면 다년간의 데이터가 필요할 수밖에 없다는 뜻이다. 그나마 타자는 주력처럼 스스로 통제할 수 있는 영역이라도 분명하게 구분되는 편이지, 투수의 3루타 억제력을 파악하기 위해서는 그 몇 배에 달하는 시간이 필요할지도 모른다. 설상가상으로 데이터를 축적하는 사이에 선수가 지닌 능력 자체가 변해버린다면 어떨까. 기껏 축적한 데이터마저도 그 유용성을 잃어버리고 말 것이다.
근래 트래킹 데이터가 각광받고 있는 이유가 바로 이 때문이다. 예를 들어, 투수의 고유한 커브 회전수를 알아보기 위해 측정해봐야 하는 커브의 숫자는 단 3구에 불과하다. 회전수는 상대하는 타자가 누구인지, 구장이 어디인지 같은 외부 조건에 별 영향을 받지 않기 때문이다. 아롤디스 채프먼이 시속 100마일의 공을 던질 수 있다는 사실은 공 하나만 봐도 충분히 알 수 있다. 비슷한 이치다.
비슷해 보이지만 다른 지표, 숨어 있는 변수에 속지 않기
여기까지 읽으면서 자신은 앞서 등장한 학생 같은 초보적인 실수를 저지르지 않는다고 자신하는 사람들도 있을 것이다. 하지만 메이저리그 구단에서 분석가로 일하는 사람들이나 팬그래프 등의 웹진에 글을 쓰는 사람들조차도 비슷한 오류를 범할 때가 있다. 이런 오류들에 대해 조금 더 얘기해보려 한다.
지난해 토론토에서 열린 스포츠 데이터 분석 워크숍에 참가한 적이 있다. 재미있는 발표들이 많이 있었지만, 그중에서도 PGA 골프 선수들의 퍼팅 실력을 분석하는 지표에 관해 설명한 마크 브로디 교수의 세션이 특히 인상깊었다. 브로디 교수는 발표에서 기존에 통용되던 ‘라운드당 평균 퍼팅 수’ 지표의 맹점을 지적했다. 그는 처음 방송에서 이 지표를 봤을 때, 실제로 퍼팅 실력이 뛰어난 선수들이 상위권에 이름을 올리지 못한다는 점에 위화감을 느꼈다고 한다. 중계를 지켜보자 이내 그 원인을 파악할 수 있었다. 파 5짜리 홀에서의 장면이었다. 타이거 우즈는 퍼팅 실력도 뛰어나지만 드라이버의 비거리도 최고 수준인 선수다. 그는 긴 비거리를 앞세워 홀에서 먼 쪽의 그린에다가 두 타 만에 공을 올렸고, 이후 두 번의 퍼팅을 통해서 버디를 만들었다. 반면 어떤 선수는 네 타를 소모한 뒤에야 그린 근처에 접근할 수 있었다. 여기에 홀 옆으로 타구를 보내는 과정에서 한 타를 추가로 소모했다. 결과적으로 이 선수는 이번 홀에서 보기를 기록했지만, 라운드당 평균 퍼팅 수가 고려하는 것은 한 번의 퍼팅으로 공을 집어넣었다는 사실뿐이다. 이때 이 선수가 타이거 우즈보다 뛰어난 퍼팅 실력을 가졌다고 보기는 어렵다.
평균 타구 속도가 지니고 있는 맹점도 비슷하다. 브라이스 하퍼와 닉 마카키스는 올 시즌 거의 동일한 시속 91.6 마일의 평균 타구 속도를 기록하고 있는 선수들이다. 하지만 두 선수의 구체적인 타격 스타일은 상당히 다르다. 하퍼는 헛스윙이 많고 빗맞은 타구를 더러 날리지만 잘 맞혔을 때는 강력한 타구를 만들어내는 유형이다. 이에 비하면 마카키스는 꾸준히 빠른 타구를 만들어내는 유형의 타자다. 이런 둘의 차이는 ISO(Isolated Power, 순장타율)에서도, 그리고 뜬공 및 라인드라이브 타구의 평균 속도(마카키스 92.5마일, 하퍼 97.2마일)에서도 드러난다.
모든 타구를 뭉뚱그려서 한 가지 지표로 가늠하려 하다 보면 십중팔구는 놓치는 부분이 생길 수밖에 없다. 스탯캐스트 데이터를 제공하는 웹사이트인 베이스볼 서번트 역시 타구 속도와 관련해 비슷하지만 미묘하게 다른 여러 가지 지표들을 함께 제공한다. 이 데이터 역시 활용하는 목적에 따라 알맞게 참고해야 할 것이다.
혹자는 강한 타구를 만들어내는 능력을 판단하기 위해 잘 맞은 라인드라이브 타구의 데이터만을 참조하는 것은 보고 싶은 면만 보려고 드는 실수라고 지적할지도 모른다. 하지만 어떤 투수가 가장 빠른 공을 던지는지를 알기 위해 평균 구속을 비교하는 경우를 생각해보자. 각 투수가 던진 모든 공을 가지고 계산하는 것과 직구 계열의 공만 분류해서 계산하는 것 중 어느 것이 더 합리적인 선택일까?
평균 회전수나 평균 무브먼트도 마찬가지다. 구종별로 따로 비교해야 마땅하다. 하지만 구종별로 나눠 살펴본다고 모든 문제가 해결되는 것은 아니다. 최근 ‘파이브서티에잇’의 트래비스 소칙이 발표한 글을 한번 살펴보자. 소칙은 이 글에서 메이저리그 투수들의 커브와 슬라이더가 이전보다 큰 무브먼트를 그리고 있다는 주장을 펼쳤다. 설득력 있는 가설이며 사실과 부합할 확률도 꽤 높다고 생각하지만, 결론을 내리기에 앞서 한 가지 조심해야 할 점이 있다. 혹시 구종 분류 알고리즘이 빠른 구속대의 커브를 슬라이더로 분류하기 시작했다면 어떨까. 슬라이더의 평균 무브먼트는 커브가 섞여 들어간 만큼 자연히 커졌을 것이다. 느린 커브만이 남은 커브의 평균 무브먼트 역시 마찬가지로 늘어나게 됐을 것이다. 어쩌면 무브먼트의 증가는 구종 자체의 변화가 아닌 아닌 구종 분류의 변화에서 나왔을 수도 있다는 얘기다. 메이저리그 사무국에서 시니어 데이터 아키텍트로 일하고 있는 대표적인 세이버메트리션 톰 탱고 역시 비슷한 논지의 경고를 남긴 바 있다.
구종 분류는 생각보다 굉장히 어려운 작업이다. 이에 관해서는 일전에도 언급한 적이 있다. 슬라이더와 커브 사이의 분류는 물론, 패스트볼 계열이라 해도 마찬가지다. 심지어 투심과 싱커는 사실상 같은 구종에 가깝다. 어떤 선수가 작년에 비해 좋은 성적을 거두고 있는 이유를 늘어난 구속이나 무브먼트에서 찾으려 한다면, 우선 신뢰할 수 있는 구종 분류가 선행돼야 할 것이다.
글을 마치며
야구가 다른 종목과 비교해서 갖는 가장 큰 차별점은 무엇일까. 먼저 방대한 역사와 통계가 기록으로 존재한다는 점이 있겠다. 이 데이터들이 상당 부분 대중에게 공개돼 있다는 것도 독특한 점이다. 야구는 한 세기가 넘도록 숫자에 집중해왔다. 타율이나 출루율 같은 간단한 지표에서 wOBA처럼 복잡한 지표에 이르기까지 말이다. 최근에는 기술 발전과 맞물리면서 이런 현상이 더욱 심화되고 있다.
우리는 범람하는 데이터의 홍수 속에서 날카롭게 질문하고 고민해야 한다. 섣불리 결론을 내리기에 앞서 데이터 안의 숫자들이 과연 어떤 의미를 지니는지 끊임없이 자문해야 한다. 언제나 표본의 크기가 충분한지에 대한 고심을 잊지 말아야 한다. 자신이 하고 싶은 이야기가 무엇인지를 심도 있게 고민해보고, 여러 지표 중에서 딱 맞는 지표를 선택할 필요도 있다. 두 평균값을 비교할 때는 분포가 중요하다는 점을 잊지 말아야 하며, 구종 분류처럼 주관적인 요소가 개입되는 데이터를 다룰 때는 이런 요소들이 자료를 편향시키지 않았는지 특히 주의를 기울여야 한다.
대다수의 사람들은 대체선수 대비 승리 기여도(WAR)처럼 궁금증을 한 방에 해결해줄 ‘만능 지표’에 대한 갈증을 가지고 있다. 하지만 세이버메트리션들은 진실에 다가서려면 여러 지표를 함께 살펴봐야 한다는 점을 오히려 강조하고는 한다. 이 글이 야구 데이터를 다루는 이들에게 ‘숫자보다 중요한 것은 그 숫자에 담겨 있는 의미’임을 상기하는 계기가 되어줬으면 좋겠다.
에디터=야구공작소 이의재
ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.
댓글 남기기