당신의 ‘데이터 분석’이 틀린 이유

<Photo by Estée Janssens on Unsplash>

한동안 야구 중계에서 ‘종속’이라는 단어가 많이 들리던 시절이 있었다. 이 단어, 사실 최근에도 들어본 것 같다. “저 선수 직구가 느린데도 타자들이 잘 못 치는 이유가 뭘까요?”라는 질문에 “초속은 느려도 종속이 빠르기 때문이죠”, 라고 답하는 식의 레퍼토리다. 구속을 세분화해서 투수 손을 떠난 직후 공의 속력이 ‘초속(초기 속력)’, 포수 미트에 거의 도달했을 때의 속력이 ‘종속(종단 속력)’이다. 초속이 느린데 종속이 빠를 수 있다는 이야기는 물리적으로 당연한 오류라는 게 여러 경로를 통해서 알려졌지만, 여전히 스포츠 방송과 언론에서 종속의 망령은 떠나지 않고 있다. 이 기회에 확실히 선언하자. 초속이 빠르면 종속도 빠르고 초속이 느리면 종속도 느리다.

과학적으로 입증되지 않은, 혹은 틀린 명제를 진실처럼 인용하는 스포츠 미디어의 나쁜 습관은 ‘종속’ 다음에도 끊임없이 새로운 친구를 찾아내고 있다. 필자는 최근에 ‘구종 가치’라는 명칭부터 똑똑해 보이는 지표에 꽂힌 사례를 종종 발견했다. 7월 말 나온 한 방송사의 기사가 그랬다. 6월에도 구종 가치에 대해 글을 한 편 썼는데 이때 언급한 오류가 아쉽게도 반복되고 있다.


구종 가치 오남용은 이제 그만

기사에는 구종 가치 지표에 대해 무리하고 잘못된 해석이 이어진다. 서두에선 구종 가치를 “구위라는 말을 숫자로 나타낸 것에 가장 가까운 지표”라고 소개한다. 그에 앞서서는 류현진의 예를 든다. 메이저리그에서 체인지업 위력이 6위에 해당한다며 ‘애국 마케팅’도 곁들인다. 이는 전형적인 해석 오류다.

‘구위’라는 말에 공히 정해진 사전적 의미는 없다. 하지만 보통 구위가 좋은 공이라 하면 좋은 결과는 물론 빠르기, 움직임 등의 물리적인 면면에서도 빼어난 공을 뜻한다. 그런데 2015년 스탯티즈 기준으로 직구 구종 가치 1위에 오른 투수는 평균 시속 140km 전후의 직구를 던지는 정우람이다. 그렇다면 정우람의 직구 구위가 한국 최고라고 할 수 있을까? 여기에 쉽게 동의할 사람은 적을 것이다.

또한 구창모의 직구 구종 가치가 알칸타라보다 높은 이유에 대한 추론도 무리한(혹은 빈곤한) 상상력에 기대고 있다. 기사는 그 원인을 두 선수의 투구 시퀀스(구종 배합) 차이에서 찾고 있는데 이를 뒷받침하는 데이터는 제시되지 않았다. 근거 없는 해석이자 제대로 된 분석이 아님을 자인한 셈이다. 전체적으로 ‘구종 가치 지표를 잘못 해석한 사례’로 들기에 적합한 글이다.


회전수 오남용은 이제 그만

의아한 ‘데이터 분석’은 구종 가치에서 멈추지 않는다. KBO리그 구단이 트랙맨 시스템을 도입한 이래, 회전수 지표는 전가의 보도처럼 기사 곳곳에 활용되고 있다. 회전수에 대해선 할 말이 많아 이미 3월에 글을 한 편 내놓은 적이 있다. 그때 첫째로 당부한 것이 PTS로 측정한 기록과 트랙맨 레이더로 측정한 기록의 기준이 다르니 같이 써서는 안 된다는 이야기였다. 특히 PTS로 측정한 회전수는 ‘역산 방식’이니 함부로 써서는 안 된다.

안타깝게도 이런 기초적인 사실이 어긋난 기사가 아직도 쓰이고 있다. 느린 공을 던지는 투수의 회전수가 높다며 놀라는 기사를 보면 어디서부터 매듭을 풀어야 할지 답답할 지경이다. 기사 말미의 “구속은 120㎞ 중·후반대였지만, 회전수가 수준급 투수들의 140㎞대 공과 비슷했다. 유희관의 직구 평균 회전수는 38.3회로 양현종(38.9회)과 비슷했다”는 문구는 회전수 지표와 무브먼트 지표에 대한 몰이해를 잘 드러낸다.

느리게 날아가는 공은 홈플레이트까지 도달하는 시간이 길기 때문에 공기저항(마그누스 힘)을 받아 ‘덜 떨어지는’ 시간도 길어진다. 자연스레 ‘공기저항이 없을 때를 가정한 공의 종착점과 실제 종착점의 높이 차이’를 뜻하는 수직 무브먼트 값도 늘어난다. 기사에 언급된 PTS 기반 회전수는 공의 회전수를 직접 측정하는 것이 아니라, 이 수직 무브먼트 값에서 역산한 것이다. 그리고 무브먼트 값이 클수록 역산했을 때 회전수가 더 높게 나온다. 그래서 유희관의 직구 평균 회전수가 양현종의 그것과 비슷하게 나온 것이다.

같은 원리로 평균 구속이 느린 직구를 던지는 투수일수록 PTS 기반 직구 회전수가 상대적으로 높게 나오기 쉽다. 실제 기록은 PTS 시스템을 운용하는 스포츠투아이 사의 레전드닷컴 사이트에서 확인할 수 있다. 직구 회전수가 높은 순으로 열람해보면 직구 평균 속력이 시속 140km에 못 미치는 투수들이 상위권을 차지하고 있다는 걸 알 수 있다.

2019년 기록을 조회해보면 직구 초당 회전수 상위권에는 오주원(49.45), 정우람(47.04) 등의 이름이 보인다. 둘 다 평균 구속이 시속 140km에 못 미치는 투수다. 분당 회전수(RPM)로 단위를 환산하면 오주원은 2967, 정우람은 2822가 나온다. 회전수 수치를 직접 측정한다는 트랙맨 레이더 기준으로 보면 평균에서 크게 벗어난 숫자다. 트랙맨 기준으로 메이저리그와 KBO리그 투수들의 직구 평균 회전수는 2200~2300 RPM 수준이고, 최상위권 투수들의 경우 2600 RPM 정도가 나온다. 공이 느리기 때문에 두 투수의 PTS 회전수가 높게 나왔다는 것을 짐작할 수 있다. 이런 사실을 알게 된다면 유희관의 PTS 회전수에 놀란 게 무안해질 듯하다.

2019년 PTS 기준 직구 회전수 상위권(전체 투구 100구 이상 기준)


익스텐션 오남용은 이제 그만

분석을 논하는 기사에서 최근 많이 보이는 또 다른 기록은 ‘익스텐션’이다. 공을 놓는 위치가 마운드 발판에서 얼마나 앞(홈 방향)에서 형성되는지 보여주는 숫자로, 트랙맨 레이더의 도입과 함께 새롭게 정량화된 수치다.

기사에서는 보통 투수 입장에서 익스텐션이 길면 좋다고 설명하는 경우가 많다. 공을 앞에서 놓으면 홈플레이트까지 날아가는 시간이 짧으므로 타자 눈에 더 빠르게 보일 것이라는 발상에서 비롯된 서술이리라 짐작해 본다. 하지만 구속이 빠르다고 무조건 좋은 투수가 아니듯이, 익스텐션 수치도 길다고 해서 마냥 좋은 것은 아니다. ‘좋으면 좋다’ 수준으로 해석할 수는 있으나 특출난 장점인 것처럼 과대포장하는 것은 삼갈 때가 됐다.

익스텐션 수치의 또 다른 용례는 숫자 변화를 선수의 성적 변화와 연결하는 경우다. 익스텐션 값이 오르내린 덕분에 성적이 좋아졌거나 나빠졌다는 식이다. 물론 익스텐션 값의 오르내림에서 선수의 컨디션 변화, 투구 메커니즘의 변화를 진단할 수도 있다. 실제로 릴리즈 포인트의 변화가 부상에서 비롯되는 경우도 있기 때문에 이런 식의 익스텐션 수치 해석이 무조건 잘못된 진단이라고 할 수는 없다.

그러나 익스텐션 값의 변화를 언급하는 기사들은 하나같이 상세한 언급을 하지 않는다. 리그 전체 투수들의 연간 익스텐션 값 변동 폭이 어느 정도인지, 선수의 지표 변화가 비슷한 연령 선수 대비 어떤 수준인지, 예년 대비 어느 수준의 변화인지. 반드시 여기서 언급한 지표를 확인해야 한다는 뜻이 아니다. 통계 분석에서 기초 중의 기초인 평균과의 대비, 전체 분포에 대한 고려 따위가 전혀 없는 ‘데이터 분석’을 과연 얼마나 신뢰할 수 있겠냐는 이야기다.

무엇보다 중요한 것은 익스텐션 값이 ‘좋은 방향’으로 바뀌었다고 해서 반드시 성적이 좋아질 리 없다는 사실이다. 당연히 뛰어난 제구, 무난한 구종 선택과 수 싸움이 동반되어야 투수로서 성공할 수 있다. 왜 기초적인 로케이션 분석, 구종 시퀀스 분석은 제쳐두고 있는 건가? 단순히 트래킹 데이터 숫자의 변화로 미래의 성적을 예견할 수 있다면 야구가 얼마나 쉬울까.


‘데이터 분석’ 오남용은 이제 그만

구종 가치, 회전수, 익스텐션, 종속. 단순히 초구를 친 게 잘못이라는 등, 다른 사례도 여럿 있겠지만, 이러한 ‘잘못된 데이터 분석’ 사례는 모두 한가지 공통점을 갖고 있다. 모두 야구라는 오묘하고 복잡한 게임의 결과를 단순히 몇 가지 숫자로 예상하려고 한다. 이 얼마나 오만하고 재수 없는 생각인가. 수십 년 업으로 대했다는 이들도 한 치 앞을 모르겠다는 게 야구다.

필자가 야구에서 가장 좋아하는 숫자 중 하나는 BABIP다. 아무리 뛰어난 선수라도 모든 결과를 마음대로 통제할 수는 없다는 교훈을 이 지표를 통해 얻을 수 있기 때문이다. 때로는 정량화할 수 없고 단순한 인과로 설명할 수 없는 것이 있다. 때로는 흑과 백이 아닌 확률로만 나타낼 수 있는 일도 있다.

병원에서 환자를 만나는 의사들은 다양한 테스트 결과와 여러가지 수치를 종합해 진단을 내린다. 그리고 섣불리 확답을 내리려고 하지 않는다. 언제나 위양성(false positive) 결과가 나올 수 있다는 걸 알기 때문이다. 그리고 의사를 만나는 환자도 마찬가지다. 큰 병일 수록 오진 가능성을 배제하지 않고 돌다리를 두들겨 보듯이 재차 삼차 검사를 받는다.

야구 데이터 분석을 한다는 사람들에게도 이런 태도가 필요하다. 모든 것을 하나의 숫자로 설명할 수는 없다. 모든 일에 정답이 있지는 않다. 모든 일에 단 하나의 정해진 원인만 있으리란 법은 없다. 혹시 당신이 그런 생각으로 ‘데이터 분석’을 대하고 있다면, 반드시 생각을 재고해보길 바란다. 그리고 자신의 지식을 믿을 수 없다면 차라리 전문가의 손을 믿어 보기라도 하자.

야구공작소 박기태 칼럼니스트
에디터=조예은, 서주오

© 야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

3 Comments

    • 드라이브라인 측에서 바우어 유닛(BU)의 대략적인 활용법으로 제시한 것은
      – BU가 평균 이상 : 높은 코스 공략
      – 평균 이하 : 낮은 코스 공략
      이런 식인데요.

      당연히 매우 간결화한 것이고 이 밖에 실제 무브먼트, 갖고 있는 레퍼토리 등 더 고려할만한 요소가 많이 있을 것입니다.

      바우어 유닛 한 가지 수치의 높고 낮음에 따라서 투수를 평가하거나, 전략을 짜거나 하는건 누가봐도 일차원적인 전략이 될 것이고요.

      ‘유의미한가?’라는 질문에는 ‘피치 디자인에 있어서 참고할만한 지표’라고 하는게 적당한 대답이 될 것 같습니다.

      바우어 유닛에 대해선 많은 분석이 나오진 않았지만, 이런 글이 있습니다:
      http://blog.naver.com/fpdlsl1776/221423751603

Leave a Reply

Your email address will not be published.