스플릿, 또는 스플릿 스탯. 말 그대로 기록을 ‘쪼갠’ 것을 의미한다. 쪼개는 방법은 수없이 많다. 경기 시기에 따라 쪼개면 전후반기/월/요일/최근x일 등이 있을 것이고, 경기 환경에 따라 쪼개면 구장/홈원정/인조천연잔디/주간야간 등이 있다. 경기 상황에 따라서는 이닝/아웃카운트/주자상황/점수, 대전 상대에 따라서는 상대팀/상대선수/좌우 등을 생각할 수 있으며 그밖에 구종, 구속, 코스 등에 대한 스플릿도 자주 쓰인다.
스플릿 스탯은 흔히 신문이나 방송에 많이 활용된다. 겉보기에 평범한 기록이라도 이런저런 방식으로 쪼개다 보면 특이한 기록이 하나쯤은 나오기 마련이고, 특이한 기록은 그 자체로 기삿거리가 된다. 또는 유독 잘하는 선수나 못하는 선수가 있을 때 스플릿 스탯을 바탕으로 분석이나 진단이 이뤄지기도 한다.
당연히 구단 데이터 분석용으로도 쓰인다. 많은 팀에서 다양한 스플릿 스탯을 이용해 투타 상성과 유불리를 판단하고 경기를 준비한다. 훨씬 복잡하고 정교한 분석에서도 데이터를 적절하게 선택하고 쪼개 활용하는 과정은 항상 존재한다.
하지만 스플릿 스탯은 간단하게 확인할 수 있고 널리 쓰이는 만큼 오남용되는 경우도 무척 많다. 잘못된 데이터 분석의 온상이라 해도 과언이 아니다. 이는 스플릿 스탯을 충분한 주의 없이 사용하기 때문이기도 하고, 애당초 무엇을 주의해야 하는지조차 모르기 때문이기도 하다.
스플릿 스탯을 오남용하는 경우에는 크게 2가지가 있다. 전형적인 잘못된 활용 사례와 유의점에 대해 알아본다.
1. 너무 많이 쪼갠 경우
#당신의 팀이 롯데와의 원정 주말 3연전을 앞두고 있다. 당신은 팀 타자의 기록을 정밀하게 분석하기 위해 롯데 상대 성적, 사직구장 성적, 금요일 성적, 롯데 선발투수 상대 성적, 이번달 성적 등으로 다채롭게 쪼개 본다. 이렇게 하나씩 성적을 쪼개는 것을 ‘필터를 건다’고도 하는데, 더욱 정밀한 분석을 위해 필터를 한번에 하나만 거는 게 아니라 여러 개씩도 걸어 보았다. 우리팀 타자가 ‘전반기에 사직에서 금요일 야간에 롯데 선발투수를 상대한 기록’을 보는 식이다. 그리고 이 기록에 따라 타순을 적절히 조정했다.
가장 흔하게 발생하는 실수다. 위의 예시가 ‘데이터 야구’라고 생각하는 분이 없길 바란다.
일주일 성적으로 어떤 타자의 실력을 평가할 수 있느냐고 묻는다면 대부분 코웃음칠 것이다. 4월 성적으로 선수를 평가하면 어떻겠냐고 물으면 4월에만 반짝하는 선수가 많은 것도 모르냐며 핀잔을 들을지도 모른다. 일주일이나 한 달 성적 정도는 선수의 실력을 나타내기에 충분하지 않다는 것을 대부분 직관적으로 알고 있는 것이다.
주전 타자의 경우 일주일 6경기에 경기당 4타석씩 들어서면 24타석이다. 한 달이면 100타석 즈음 될 것이다. 4월 성적을 신뢰하지 않는다는 것은 100타석 성적은 신뢰하지 않는다는 것과 같다.
풀타임으로 뛰는 타자는 1년에 대략 600타석 정도 들어선다. 여기서 ‘롯데 상대’라는 필터 하나만 걸어보자. 타석수는 1/9인 70타석으로 줄어든다. 하나 더 걸어서 ‘사직에서 롯데를 상대한 경우’라면? 다시 그 절반인 35타석이다. 그나마 35타석은 시즌 종료 시점에 얻는 숫자다. 시즌 중반이라면 타석은 더더욱 적다. 당신은 1주일 성적으로 선발 라인업을 짜는가?
스플릿 스탯의 가장 큰 문제는 한번 쪼갤 때마다 표본의 숫자가 급격히 줄어든다는 것이다. 야구공작소의 분석에 따르면 일반적으로 적은 타석수에서도 믿고 볼 수 있다고 알려진 삼진, 볼넷, 홈런조차 최소한 100~300타석 정도 경과해야 제대로 된 ‘자기 실력’이 나왔다. 출루율, 장타율은 1년 성적을 다 끌어모아야 했고 타율은 1년으로도 부족했다.
풀타임을 뛴 선수조차 필터 하나만 걸어도 삼진, 볼넷, 홈런 외에는 유의미하게 판단하기 어려워진다. 2개 이상이면 말할 필요도 없을 것이다. 개막 첫 주 성적이나 4월 성적으로 전략을 짜고 의사결정을 하는 분이 아니라면 마구잡이 스플릿은 제발 참아주길 바란다.
2. 무의미한 기준으로 쪼갠 경우
#분석에서 충분한 타석수를 확보하는 것이 중요하다는 것을 깨달은 당신은 이제 필터를 신중하게 걸기로 한다. 그런데 이런저런 수치를 보는 중 당신의 팀이 유독 목요일 경기 성적이 나쁘다는 것을 발견했다. 당신은 신중하게 목요일이라는 필터 하나만 걸어서 타자별 성적을 확인해 선발 라인업 구성에 활용했다.
무의미한 기준으로 데이터를 쪼개는 것은 너무 많이 쪼개는 것 이상으로 심각한 문제를 일으킬 수 있다. ‘충분히 많은 타석의 무의미한 스플릿’은 ‘무식한 사람이 신념을 가지는’ 것과 비슷하다. 잘못된 결론을 잘못된 데이터로 뒷받침해 잘못된 확신을 갖고 밀어붙일 가능성이 있기 때문이다.
어떤 스플릿이 유의미하려면, 다른 조건이 동일하고 그 스플릿 조건만 바뀌었을 때 결과가 달라져야 한다. 예를 들어 ‘구창모 상대’라는 스플릿은 다른 모든 조건이 동일할 때 구창모 상대 결과와 그 외 투수 상대 결과가 현격히 다를 것이므로 유의미한 스플릿이다. 타석수 문제는 있지만 올해 같기만 하면 600타석을 들어서도 제대로 치지 못 할 것이다. 반면 흔히 쓰는 대부분의 스플릿-특정팀, 이닝, 아웃카운트, 요일 등-은 유의미하지 않을 것이 자명하다.
타석수 문제는 잠시 무시하고 ‘롯데 투수 상대’라는 스플릿을 생각해 보자. 이 스플릿이 의미가 있으려면 다른 모든 조건이 동일하고 상대팀만 롯데로 바뀌었을 때 결과가 바뀌어야 한다. 당신이 타자라면 구창모가 NC 유니폼을 입으면 못 치고 롯데 유니폼을 입으면 잘 치겠는가? 롯데라는 이름에 신묘한 효과가 있는 게 아닌 이상 달라질 것은 없다. 목요일에 못 친 구창모는 금요일에도 못 치고, 1아웃일 때 못 쳤는데 2아웃이라고 특별히 잘 공략할 리도 없다. 이렇게 하나씩 생각해 보면 흔히 보는 스플릿 중 대다수는 결과에 거의 영향을 주지 못 할 것임을 짐작할 수 있다.
어떤 선수는 특정 팀에 유독 강하거나 약하지 않느냐고 반문할지도 모르겠다. 팀 외에도 간혹 무의미해 보이는 스플릿에서 큰 차이가 보일 수도 있다. 이때는 스플릿 조건을 제외한 다른 조건이 일정했는지를 확인해 보면 대개 정답이 숨어 있다. 가령 어떤 타자가 NC 투수 상대로 유독 약했다고 하면, NC라는 팀 이름과 유니폼에 신묘한 효과가 있다고 생각하기보다는 아래와 같이 NC의 ‘투수 실력’이라는 조건이 다른 팀과 같았는지를 먼저 생각해 보면 좋겠다.(이 외에도 구장이나 수비 같은 조건을 추가로 고려해 보면 더욱 좋을 것이다)
(1)NC에 전체적으로 좋은 투수가 많지 않은가?(이 투수진이 그대로 한화로 갔다면 그 타자는 한화에 약한 타자가 되었을 것이다)
(2)구창모 선발 때 빠지지 않고 출장한 것은 아닌가?(2010년에 한화 상대로 하필 류현진 선발 때만 출장했다면 어땠을지 생각해 보자)
스플릿 스탯은 분석에서 빠질 수 없는 재료지만 제대로 쓰기는 만만치 않다. 1년 성적으로는 표본 확보도 쉽지 않고, 확보되더라도 이 스플릿이 정말 유의미한지 한눈에 판단하기 어려울 때도 많다. 클러치라는 스플릿은 얼마나 많은 논쟁을 일으켰는가. 당연하다고 생각했던 것들이 뒤집힐 가능성은 항상 있다.
중요한 건 만만치 않다는 것을 아는 것이다. 알고, 조심해서 쓰자.
야구공작소 남세오 칼럼니스트
참조=statiz
© 야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.
댓글 남기기