본문으로 건너뛰기
-
야구를 다르게 보는 시선, 계속 업데이트됩니다.
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
KBO세이버메트릭스

당신의 ‘데이터 분석’이 틀린 이유

By 박기태
2020년 7월 25일 5 Min Read
3

<Photo by Estée Janssens on Unsplash>

한동안 야구 중계에서 ‘종속’이라는 단어가 많이 들리던 시절이 있었다. 이 단어, 사실 최근에도 들어본 것 같다. “저 선수 직구가 느린데도 타자들이 잘 못 치는 이유가 뭘까요?”라는 질문에 “초속은 느려도 종속이 빠르기 때문이죠”, 라고 답하는 식의 레퍼토리다. 구속을 세분화해서 투수 손을 떠난 직후 공의 속력이 ‘초속(초기 속력)’, 포수 미트에 거의 도달했을 때의 속력이 ‘종속(종단 속력)’이다. 초속이 느린데 종속이 빠를 수 있다는 이야기는 물리적으로 당연한 오류라는 게 여러 경로를 통해서 알려졌지만, 여전히 스포츠 방송과 언론에서 종속의 망령은 떠나지 않고 있다. 이 기회에 확실히 선언하자. 초속이 빠르면 종속도 빠르고 초속이 느리면 종속도 느리다.

과학적으로 입증되지 않은, 혹은 틀린 명제를 진실처럼 인용하는 스포츠 미디어의 나쁜 습관은 ‘종속’ 다음에도 끊임없이 새로운 친구를 찾아내고 있다. 필자는 최근에 ‘구종 가치’라는 명칭부터 똑똑해 보이는 지표에 꽂힌 사례를 종종 발견했다. 7월 말 나온 한 방송사의 기사가 그랬다. 6월에도 구종 가치에 대해 글을 한 편 썼는데 이때 언급한 오류가 아쉽게도 반복되고 있다.


구종 가치 오남용은 이제 그만

기사에는 구종 가치 지표에 대해 무리하고 잘못된 해석이 이어진다. 서두에선 구종 가치를 “구위라는 말을 숫자로 나타낸 것에 가장 가까운 지표”라고 소개한다. 그에 앞서서는 류현진의 예를 든다. 메이저리그에서 체인지업 위력이 6위에 해당한다며 ‘애국 마케팅’도 곁들인다. 이는 전형적인 해석 오류다.

‘구위’라는 말에 공히 정해진 사전적 의미는 없다. 하지만 보통 구위가 좋은 공이라 하면 좋은 결과는 물론 빠르기, 움직임 등의 물리적인 면면에서도 빼어난 공을 뜻한다. 그런데 2015년 스탯티즈 기준으로 직구 구종 가치 1위에 오른 투수는 평균 시속 140km 전후의 직구를 던지는 정우람이다. 그렇다면 정우람의 직구 구위가 한국 최고라고 할 수 있을까? 여기에 쉽게 동의할 사람은 적을 것이다.

또한 구창모의 직구 구종 가치가 알칸타라보다 높은 이유에 대한 추론도 무리한(혹은 빈곤한) 상상력에 기대고 있다. 기사는 그 원인을 두 선수의 투구 시퀀스(구종 배합) 차이에서 찾고 있는데 이를 뒷받침하는 데이터는 제시되지 않았다. 근거 없는 해석이자 제대로 된 분석이 아님을 자인한 셈이다. 전체적으로 ‘구종 가치 지표를 잘못 해석한 사례’로 들기에 적합한 글이다.


회전수 오남용은 이제 그만

의아한 ‘데이터 분석’은 구종 가치에서 멈추지 않는다. KBO리그 구단이 트랙맨 시스템을 도입한 이래, 회전수 지표는 전가의 보도처럼 기사 곳곳에 활용되고 있다. 회전수에 대해선 할 말이 많아 이미 3월에 글을 한 편 내놓은 적이 있다. 그때 첫째로 당부한 것이 PTS로 측정한 기록과 트랙맨 레이더로 측정한 기록의 기준이 다르니 같이 써서는 안 된다는 이야기였다. 특히 PTS로 측정한 회전수는 ‘역산 방식’이니 함부로 써서는 안 된다.

안타깝게도 이런 기초적인 사실이 어긋난 기사가 아직도 쓰이고 있다. 느린 공을 던지는 투수의 회전수가 높다며 놀라는 기사를 보면 어디서부터 매듭을 풀어야 할지 답답할 지경이다. 기사 말미의 “구속은 120㎞ 중·후반대였지만, 회전수가 수준급 투수들의 140㎞대 공과 비슷했다. 유희관의 직구 평균 회전수는 38.3회로 양현종(38.9회)과 비슷했다”는 문구는 회전수 지표와 무브먼트 지표에 대한 몰이해를 잘 드러낸다.

느리게 날아가는 공은 홈플레이트까지 도달하는 시간이 길기 때문에 공기저항(마그누스 힘)을 받아 ‘덜 떨어지는’ 시간도 길어진다. 자연스레 ‘공기저항이 없을 때를 가정한 공의 종착점과 실제 종착점의 높이 차이’를 뜻하는 수직 무브먼트 값도 늘어난다. 기사에 언급된 PTS 기반 회전수는 공의 회전수를 직접 측정하는 것이 아니라, 이 수직 무브먼트 값에서 역산한 것이다. 그리고 무브먼트 값이 클수록 역산했을 때 회전수가 더 높게 나온다. 그래서 유희관의 직구 평균 회전수가 양현종의 그것과 비슷하게 나온 것이다.

같은 원리로 평균 구속이 느린 직구를 던지는 투수일수록 PTS 기반 직구 회전수가 상대적으로 높게 나오기 쉽다. 실제 기록은 PTS 시스템을 운용하는 스포츠투아이 사의 레전드닷컴 사이트에서 확인할 수 있다. 직구 회전수가 높은 순으로 열람해보면 직구 평균 속력이 시속 140km에 못 미치는 투수들이 상위권을 차지하고 있다는 걸 알 수 있다.

2019년 기록을 조회해보면 직구 초당 회전수 상위권에는 오주원(49.45), 정우람(47.04) 등의 이름이 보인다. 둘 다 평균 구속이 시속 140km에 못 미치는 투수다. 분당 회전수(RPM)로 단위를 환산하면 오주원은 2967, 정우람은 2822가 나온다. 회전수 수치를 직접 측정한다는 트랙맨 레이더 기준으로 보면 평균에서 크게 벗어난 숫자다. 트랙맨 기준으로 메이저리그와 KBO리그 투수들의 직구 평균 회전수는 2200~2300 RPM 수준이고, 최상위권 투수들의 경우 2600 RPM 정도가 나온다. 공이 느리기 때문에 두 투수의 PTS 회전수가 높게 나왔다는 것을 짐작할 수 있다. 이런 사실을 알게 된다면 유희관의 PTS 회전수에 놀란 게 무안해질 듯하다.

2019년 PTS 기준 직구 회전수 상위권(전체 투구 100구 이상 기준)


익스텐션 오남용은 이제 그만

분석을 논하는 기사에서 최근 많이 보이는 또 다른 기록은 ‘익스텐션’이다. 공을 놓는 위치가 마운드 발판에서 얼마나 앞(홈 방향)에서 형성되는지 보여주는 숫자로, 트랙맨 레이더의 도입과 함께 새롭게 정량화된 수치다.

기사에서는 보통 투수 입장에서 익스텐션이 길면 좋다고 설명하는 경우가 많다. 공을 앞에서 놓으면 홈플레이트까지 날아가는 시간이 짧으므로 타자 눈에 더 빠르게 보일 것이라는 발상에서 비롯된 서술이리라 짐작해 본다. 하지만 구속이 빠르다고 무조건 좋은 투수가 아니듯이, 익스텐션 수치도 길다고 해서 마냥 좋은 것은 아니다. ‘좋으면 좋다’ 수준으로 해석할 수는 있으나 특출난 장점인 것처럼 과대포장하는 것은 삼갈 때가 됐다.

익스텐션 수치의 또 다른 용례는 숫자 변화를 선수의 성적 변화와 연결하는 경우다. 익스텐션 값이 오르내린 덕분에 성적이 좋아졌거나 나빠졌다는 식이다. 물론 익스텐션 값의 오르내림에서 선수의 컨디션 변화, 투구 메커니즘의 변화를 진단할 수도 있다. 실제로 릴리즈 포인트의 변화가 부상에서 비롯되는 경우도 있기 때문에 이런 식의 익스텐션 수치 해석이 무조건 잘못된 진단이라고 할 수는 없다.

그러나 익스텐션 값의 변화를 언급하는 기사들은 하나같이 상세한 언급을 하지 않는다. 리그 전체 투수들의 연간 익스텐션 값 변동 폭이 어느 정도인지, 선수의 지표 변화가 비슷한 연령 선수 대비 어떤 수준인지, 예년 대비 어느 수준의 변화인지. 반드시 여기서 언급한 지표를 확인해야 한다는 뜻이 아니다. 통계 분석에서 기초 중의 기초인 평균과의 대비, 전체 분포에 대한 고려 따위가 전혀 없는 ‘데이터 분석’을 과연 얼마나 신뢰할 수 있겠냐는 이야기다.

무엇보다 중요한 것은 익스텐션 값이 ‘좋은 방향’으로 바뀌었다고 해서 반드시 성적이 좋아질 리 없다는 사실이다. 당연히 뛰어난 제구, 무난한 구종 선택과 수 싸움이 동반되어야 투수로서 성공할 수 있다. 왜 기초적인 로케이션 분석, 구종 시퀀스 분석은 제쳐두고 있는 건가? 단순히 트래킹 데이터 숫자의 변화로 미래의 성적을 예견할 수 있다면 야구가 얼마나 쉬울까.


‘데이터 분석’ 오남용은 이제 그만

구종 가치, 회전수, 익스텐션, 종속. 단순히 초구를 친 게 잘못이라는 등, 다른 사례도 여럿 있겠지만, 이러한 ‘잘못된 데이터 분석’ 사례는 모두 한가지 공통점을 갖고 있다. 모두 야구라는 오묘하고 복잡한 게임의 결과를 단순히 몇 가지 숫자로 예상하려고 한다. 이 얼마나 오만하고 재수 없는 생각인가. 수십 년 업으로 대했다는 이들도 한 치 앞을 모르겠다는 게 야구다.

필자가 야구에서 가장 좋아하는 숫자 중 하나는 BABIP다. 아무리 뛰어난 선수라도 모든 결과를 마음대로 통제할 수는 없다는 교훈을 이 지표를 통해 얻을 수 있기 때문이다. 때로는 정량화할 수 없고 단순한 인과로 설명할 수 없는 것이 있다. 때로는 흑과 백이 아닌 확률로만 나타낼 수 있는 일도 있다.

병원에서 환자를 만나는 의사들은 다양한 테스트 결과와 여러가지 수치를 종합해 진단을 내린다. 그리고 섣불리 확답을 내리려고 하지 않는다. 언제나 위양성(false positive) 결과가 나올 수 있다는 걸 알기 때문이다. 그리고 의사를 만나는 환자도 마찬가지다. 큰 병일 수록 오진 가능성을 배제하지 않고 돌다리를 두들겨 보듯이 재차 삼차 검사를 받는다.

야구 데이터 분석을 한다는 사람들에게도 이런 태도가 필요하다. 모든 것을 하나의 숫자로 설명할 수는 없다. 모든 일에 정답이 있지는 않다. 모든 일에 단 하나의 정해진 원인만 있으리란 법은 없다. 혹시 당신이 그런 생각으로 ‘데이터 분석’을 대하고 있다면, 반드시 생각을 재고해보길 바란다. 그리고 자신의 지식을 믿을 수 없다면 차라리 전문가의 손을 믿어 보기라도 하자.

야구공작소 박기태 칼럼니스트
에디터=조예은, 서주오

© 야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

이 글 공유하기:

  • Facebook으로 공유하기 (새 창에서 열림) Facebook
  • X에 공유 (새 창에서 열림) X

이것이 좋아요:

좋아하기 로드 중...
작성자

박기태

Follow Me
다른 기사
Previous

로봇 심판은 마법의 단어가 아니야

Next

2020 야구공작소 외국인 선수 스카우팅 리포트-키움 히어로즈 에디슨 러셀

3 댓글
  1. wakui 댓글:
    2020년 7월 27일, 12:31 오후

    질문 있습니다. 바우어 유닛이라고 회전수를 구속으로 나눈 값이 있던데, 유의미하게 활용가능한 가공 데이터인가요?

    가져오는 중...
    응답
    1. 박기태 댓글:
      2020년 7월 27일, 3:08 오후

      드라이브라인 측에서 바우어 유닛(BU)의 대략적인 활용법으로 제시한 것은
      – BU가 평균 이상 : 높은 코스 공략
      – 평균 이하 : 낮은 코스 공략
      이런 식인데요.

      당연히 매우 간결화한 것이고 이 밖에 실제 무브먼트, 갖고 있는 레퍼토리 등 더 고려할만한 요소가 많이 있을 것입니다.

      바우어 유닛 한 가지 수치의 높고 낮음에 따라서 투수를 평가하거나, 전략을 짜거나 하는건 누가봐도 일차원적인 전략이 될 것이고요.

      ‘유의미한가?’라는 질문에는 ‘피치 디자인에 있어서 참고할만한 지표’라고 하는게 적당한 대답이 될 것 같습니다.

      바우어 유닛에 대해선 많은 분석이 나오진 않았지만, 이런 글이 있습니다:
      http://blog.naver.com/fpdlsl1776/221423751603

      가져오는 중...
      응답
      1. wakui 댓글:
        2020년 7월 30일, 2:30 오후

        상세한 설명 감사드립니다. 박기태님 팬이에요.

        가져오는 중...
        응답

댓글 남기기응답 취소

  • Best of Yagongso

    [BOY] The Best of Yagongso, March/April [3, 4월의 칼럼]

    ›
  • MLB

    무라카미 무네타카의 도박은 성공할 수 있을까

    ›
  • MLB

    소토의 빈자리는 채워져도, 오타니의 빈자리는 채울 수 없다

    ›
  • KBO

    수다쟁이 계약서 안에는 어떤 진실이

    ›
  • KBO

    정말 어깨는 쓸수록 약해질까?

    ›
  • MLB

    피안타율 0.045 체인지업은 왜 최악의 구종일까

    ›
  • MLB

    투수를 복사하는 피칭머신: 트라젝트 아크

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 – 키움 히어로즈 케스턴 히우라

    ›
  • MLB

    투수의 DNA : Supinator vs Pronator

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 - LG 트윈스 약셀 리오스

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 – KIA 타이거즈 아데를린 로드리게스

    ›

YOUTUBE

PODCAST

INSTAGRAM

yagongso

[야구공작소 인포그래픽] 다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다. • 구 [야구공작소 인포그래픽] 
다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다.

• 구단 최초 외국인 선수 골든글러브 수상 (2023)
• 구단 최초 30홈런-100타점, 구단 최초 타점왕(2024)
• 구단 최초 2년 연속 30홈런(2024-2025)

그리고 2026년 6월 2일, 수원 KT전에서 외국인 타자 9번째, LG 소속 선수 9번째로 통산 100홈런을 달성했습니다.

#야구공작소 #야구 #KBO #LG트윈스 #오스틴
[야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 [야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 써냈습니다. 5월 29일 강승호가 9회초 역전 만루홈런을 터뜨린 데 이어, 다음날인 30일에는 정수빈이 6회초 역전 만루홈런을 쏘아 올리며 팀 승리를 이끌었습니다. KBO 역사상 두 번째로 나온 ’2경기 연속 역전 만루홈런‘ 입니다.

흥미로운 점은 종전 기록과 이번 기록 모두 상대가 삼성 라이온즈였다는 것입니다. 2002년 롯데의 박정태와 김응국이 삼성을 상대로 같은 기록을 세운 이후 24년 만에 다시 삼성을 상대로 역사가 반복됐습니다. 삼성 입장에서는 아쉬운 기록이 추가됐고, 두산은 짜릿한 역전극으로 위닝시리즈까지 확보하는 데 성공했습니다.

순위 경쟁이 치열한 지금, 한 경기의 흐름을 뒤집는 홈런 한 방은 그 이상의 의미를 가집니다. 이틀 연속 터진 역전 만루홈런은 단순한 기록을 넘어 두산의 저력과 집중력을 보여준 장면이었습니다. 과연 이 기세가 앞으로의 순위 경쟁에서도 이어질 수 있을지 기대가 됩니다.

제작: 야구공작소 김은빈

#KBO #두산베어스 #삼성라이온즈 #만루홈런 #야구
[야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영 [야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영입했습니다.

지난 26일 기존 아시아 쿼터 선수 제리드 데일과 결별한 뒤 빠르게 대체 자원을 찾았는데요. 시라카와는 2024시즌 SSG 랜더스에서 5경기 2승 2패 평균자책점 5.09를 기록했고, 두산 베어스에서는 7경기 2승 3패 평균자책점 6.03을 기록했습니다.

시라카와는 29일 2군에 합류해 컨디션을 점검한 뒤, 1군 콜업 시기를 조율할 예정입니다.

#야구공작소 #KBO리그 #시라카와 #KIA타이거즈 #갸감자
제작 : 야구공작소 최은혜
[야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 [야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 않은 영향을 미치고 있습니다.

전체적으로 낮은 WAR 수치가 이를 보여주고 있으며, 현재 SSG의 팀 외국인 WAR는 리그 최하위권이라고 봐도 무방한 상황입니다.

특히 베니지아노, 타케다 쇼타, 대체 외국인 선수 긴지로는 마이너스 수치를 기록하며 고전하고 있습니다. 미치 화이트도 부상 전까지 1선발로 보기에는 아쉬운 성적을 남겼고, 에레디아 또한 예년과 비교하면 기대에 미치지 못하는 모습입니다.

SSG가 연패 탈출을 넘어 순위 싸움에 다시 뛰어들기 위해서는, 외국인 선수들의 반등 혹은 교체 승부수 역시 반드시 필요해보입니다.

집 나간 WAR, SSG는 다시 찾아올 수 있을까요?

제작: 야구공작소 변영아

#야구공작소 #KBO #KBO리그 #SSG랜더스
[야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 [야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 띄는 루키들을 정리했습니다.

시즌 초반부터 존재감을 보여주고 있는 선수들.
마운드에서는 우강훈, 박준현, 장찬희, 임지민이 안정적인 이닝 소화와 홀드, 승리로 팀에 힘을 보태고 있고, 타석에서는 허인서가 강한 장타력과 생산력으로 신인왕 경쟁에 불을 붙이고 있습니다.

아직 시즌은 많이 남았지만,
초반 흐름만큼은 충분히 신인왕 경쟁을 뜨겁게 만들고 있습니다.

과연 2026 KBO 신인왕의 주인공은 누가 될까요?

제작: 야구공작소 박경진

#우강훈 #박준현 #허인서 #장찬희 #임지민
[야구공작소 인포그래픽] SSG 랜더스가 7연패에 빠지며 힘든 5월을 보내고 있습니다. [야구공작소 인포그래픽] 
SSG 랜더스가 7연패에 빠지며 힘든 5월을 보내고 있습니다.
SSG의 부진에는 선발진의 붕괴가 가장 큰 원인으로 꼽히고 있습니다. 팀 퀄리티 스타트 6개, 팀 ERA 5.04, 선발 ERA 5.33으로 최하위를 기록하고 있는 SSG는 오늘(26.5.24) 타케다 쇼타의 KBO 등판 첫 퀄리티 스타트이자 26경기만의 팀 퀄리티 스타트로 경기를 열었으나 연패 탈출에는 실패했습니다. 

고민이 길어진 SSG에게는 무엇보다도 견고한 선발진이 절실한 상황입니다. 

제작: 야구공작소 윤나영

#야구공작소 #KBO #KBO리그 #SSG랜더스
인스타그램 팔로우하기
Copyright 2026 — 야구공작소. All rights reserved. WPTEAM
%d