야구 분석 실수 줄이기

지난 2018년, 필자는 야구 선수 분석에 관한 칼럼을 작성한 바 있다. 당시 글이 선수 개인의 분석에 관한 것이었다면, 이번 글에서는 선수 개인이 아니라 야구에서 어떤 가설을 세우고 그를 검증하는 과정에서의 유의점을 다뤄보고자 한다. 기본적인 것들이나, 유의하지 않으면 실수할 수 있는 부분이다. 여러 사례를 통해 하나씩 알아보자.


1. 구술된 명제의 함의를 제대로 파악했는가?

종종 경기 해설 등에서 도무지 이해하기 어려운 이야기를 들을 때가 있다. 물론 정말 이상한 이야기인 경우도 있지만, 실제로 그 말의 함의는 따로 있는데 표현이 적절하지 못했던 경우도 분명히 존재한다. 이런 경우에 구술된 내용을 곧이곧대로 분석하면 분석은 했는데 무언가 포인트가 맞지 않는 결과가 나오기 마련이다.

대표적인 것이 ‘홈런보다 나은 안타’다. 자구만 놓고 보면 전혀 말이 안 되기에 잘못된 해설의 대표격으로 꼽힌다. 하지만 정말 평생을 야구만 해 온 해설자들이 단타<홈런이라는 평범한 진리를 몰라서 그렇게 말하는 것일까?

물론 점수 차가 몇 점이든 단타<홈런이다. 그러나 이는 타격 결과만 놓고 보았을 때의 이야기다. 과정을 보면 어떨까?

예를 들어 보자. 지금 공격 팀은 2점 차로 뒤진 9회 2아웃 주자 없는 상황이다. 타자 A가 홈런을 노렸을 때 홈런 확률이 3%, (홈런을 포함해)출루 확률이 30%, 아웃 확률이 70%이고, 출루만 노렸을 때 홈런 확률이 1%, 출루 확률 35%, 아웃 확률 65%라 하자. 물론 A가 홈런을 치면 가장 좋다. 그러나 어차피 동점은

1. A가 어느 루까지든 관계 없이 출루하고

2. 다음 타자 B가 4개 루를 진루한다.

가 이루어져야 가능하다. 1에서 몇 개 루를 가는지는 중요하지 않은 것이다. 또한 1이 있어야 2가 있기에 1의 가능성을 최대화하는 전략이 최선이다. 그리고 그 전략을 한 줄로 설명한 결과가 ‘홈런보다 나은 안타’인 것이다. 이런 제반 상황에 대해 해설자 스스로도 머릿속에서 구체화하지 못해 제대로 설명하지 못한 경우도 있을 것으로 생각한다.

이처럼 명제가 구술되는 경우, 그 함의가 겉으로 드러난 내용과 다를 수 있다. 어떻게 분석할지 결정하는 것은 명제의 맥락을 충분히 숙고한 뒤라도 늦지 않다.


2. 무엇과 무엇을 비교할지 정확히 파악했는가?

명제의 의미를 파악한 다음에는 어떻게 명제를 분석할지 결정해야 한다. 이때 많은 경우에 무언가와 무언가를 비교하게 되는데, 어떤 것끼리 비교할지 결정하는 것이 그리 간단하지 않을 때가 있다.

‘선취점을 낸 경기의 승률이 높다’는 명제가 있다. 익히 알려진 이야기고 기사로도 흔히 쓰여 지난해 스포츠동아스포츠조선에도 관련 기사가 있었다.

링크된 두 기사의 분석 방식은 단순하다. 선취점을 낸 경기와 선취점을 내지 못한 경기의 승률을 단순 비교해 전자가 더 높으니 선취점이 중요하다는 것이다. 그러나 이것은 잘못된 분석이다.

‘선취점을 낸 경기의 승률이 높다’가 주장하는 것은, 점수를 내는 건 당연히 중요하지만 그 중에서도 ‘먼저’ 점수를 내는 것이 중요하다는 것이다. 점수를 먼저 내면 팀의 기세든 심리적인 요인이든 무언가 보이지 않는 요인이 작용해 같은 점수를 ‘후취’한 경우보다 유리하다는 것이 골자다.

단순히 선취점을 낸 경기와 내지 못한 경기의 승률을 비교하면 어떤 문제가 있는가? ‘득점’이라는 조건이 동일하지 못하다. 선취점을 냈다는 것은 최소한 1점 이상 득점했다는 것이다. 따라서 선취점을 낸 경기의 승률은 영패한 경기를 빼놓고 그 중의 일부를 골라 계산하게 된다. 반면 선취점을 내지 못한 경기는 영패한 경기까지 모두 포함한 상태에서 일부를 골라 승률을 계산하는 데다, 상대가 선취점을 냈다는 것이므로 상대가 0점 낸 경기는 자동으로 제외된다. 이렇게 승률을 비교하면 차이가 생길 수밖에 없다.

비교 대상을 잘 찾는 것과 관련된 또 다른 예시로 ‘바뀐 투수의 초구를 쳐라’라는 격언을 들 수 있다. 무엇과 무엇을 비교해야 이 격언을 검증할 수 있을까? ‘바뀐 투수의 초구’와 ‘그 외 모든 경우’인가?

아니다. 바뀐 투수를 빼고도 초구라는 특성이 비교에 영향을 미칠 수 있다. 만약 일반적으로 초구 결과가 다른 결과보다 유독 좋거나 나쁘다면, 바뀐 투수의 초구 결과도 바뀐 투수의 초구여서가 아니라 단순히 초구라는 이유로 유독 좋거나 나쁠 것이다.

조금 더 좁혀서 바뀐 투수의 초구와 바뀐 투수의 2구, 3구, …를 비교하는 경우도 마찬가지 문제가 생긴다. 이 역시 ‘초구를 타격한 결과’라는 특성에 대한 고려가 빠져 있다.

결국 문제는 ‘바뀐 투수의 초구’에 앞서 ‘초구’가 가지는 특성을 모른다는 데 있다. 따라서 초구 타격의 영향력에 대한 사전 연구를 시행해도 좋고, 그렇지 않다면 (바뀐 투수의 초구 결과 – 바뀐 투수의 초구 아닌 결과)와 (바뀌지 않은 투수의 초구 결과 – 바뀌지 않은 투수의 초구 아닌 결과)를 비교해야 적절할 것이다.


3. 비교 대상을 분명하게 이해하고 있는가?

바로 위의 예시로 돌아가 보자. 비교할 ‘결과’를 타율로 잡았다고 하자. 그렇다면 이 타율은 우리가 평소에 말하는 그 타율과 같은 개념인가?

일반적으로 알고 있는 ‘타율’은 안타를 타수로 나눈 것이다. 그러나 초구 타격 결과에 삼진은 존재하지 않는다. 공을 맞추지 못 했다면 헛스윙이 되어 스트라이크가 하나 늘어날 뿐이다. 초구 타율에서의 타율은 우리가 알고 있는 그 타율이 아니다.

초구 타율의 타율은 ‘컨택트된 공 중 안타가 된 비율(Batting Average on CONtact, 이하 ‘BACON’)’을 의미한다. BACON은 타율의 분모에서 삼진이 빠졌으므로 당연히 일반적인 타율보다 값이 훨씬 크다. 2019년의 전체 타율은 0.267이지만 BACON은 0.332다. 카운트별 타율이나 코스별 타율, 구종별 타율 등에서의 ‘타율’은 경우에 따라 타율이기도 하고 BACON이기도 하다.

BACON을 타율과 직접 비교하면 착시 현상이 일어난다. 2019년 초구 ‘타율’ 0.334를 전체 타율 0.267과 비교하면 차이가 커 보이지만 전체 BACON 0.332와 비교하면 미미한 차이다. BACON이나 이와 유사한 착시를 근거로 초구를 치라고 주장하는 경우가 종종 있다. 잘 구분해서 분석해야 한다.

이처럼 비교 대상에 대한 명확한 이해가 뒷받침되지 않으면 잘 계산해 놓고 엉뚱한 길로 빠질 수 있다. 사용하는 개념에 대해 확실하게 알고 사용하는 것이 중요하다.


4. 결과를 올바르게 해석했는가?

명제의 함의를 파악하고 비교 분석 대상을 명확하게 결정했으며 대상에 대한 개념까지 올바르다면 거의 다 온 셈이다. 그렇지만 결과 해석에서도 주의할 부분이 많다.

흔히 하는 실수로는 상관관계를 인과관계로 착각하는 것이 있다(4번타자는 걸음이 느린 경우가 많지만 4번이어서 느린 건 아니다). 서로 상관된 두 결과에 사실은 하나의 공통 원인(교란변수)이 존재한다는 것을 놓치기도 한다(‘중견수’와 ‘1번타자’는 서로 상관관계가 높겠지만 그것은 ‘빠른 발’이라는 하나의 원인에서 비롯된 것이다). 결과에서 잘못된 원인을 도출하는 경우도 많다(3-0 타격 결과가 좋은 것은 3-0에 마법 같은 특별한 힘이 있어서가 아니라 3-0에서는 웬만큼 좋지 않으면 휘두르지 않고, 휘두르면 풀스윙이기 때문이다). 여기에 더해 아래에서는 상대적으로 조금 더 미묘한, 부분을 분석한 결과와 전체를 분석한 결과가 달라 실수할 수 있는 부분을 소개한다.

일반적으로 한 타석에서 나올 수 있는 가장 나쁜 결과는 삼진이다. 일단 공을 필드 안으로 보내면 무슨 일이라도 발생할 수 있지만 삼진은 아무 변화의 가능성도 주지 못한 채 아웃카운트만 하나 늘어난다. 한 타석에서 A 타자는 삼진을 당했고 B 타자는 공을 필드로 보냈다면 B 타자가 더 좋은 결과를 냈다고 할 수 있다.

그러나 이 결과를 확대해 삼진을 적게 당하는 타자가 전반적인 생산성이 높다고 할 수는 없다. 한 타석을 놓고 보면 삼진이 가장 나쁜 결과지만 한 시즌을 놓고 보면 삼진을 어느 정도 감수하는 타격이 더 좋은 결과를 가져오기 때문이다. 부분과 전체가 다른 것이다.

유사한 예로 ‘맞혀 잡는 투수가 삼진형 투수보다 투구수를 절약할 수 있느냐’의 예를 들 수 있다. 2007년에 이루어진 분석을 참고하면 한 타자를 놓고 보았을 때 삼진으로 잡으면 4.9구가 필요했지만 맞혀 잡으면 3.4구가 필요했다. 이것은 부분이다. 그러나 같은 분석에 따르면 ‘맞혀 잡는 투수’는 맞혀 잡기 위한 투구를 계속하다 보니 허용하는 출루가 더 많아져 결과적으로 맞혀 잡는 투수와 삼진형 투수의 이닝당 투구수 차이는 소숫점 단위로 줄어든다. 이것은 전체다.


마치며

지금까지 몇 가지 예를 통해 분석의 각 과정에서 유의할 만한 부분들을 살펴봤다. 앞으로도 새롭고 좋은 야구 분석들이 많이 나오기를 희망한다.


야구공작소 오연우 칼럼니스트

에디터=야구공작소 곽찬현


ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

Be the first to comment

댓글 남기기