본문으로 건너뛰기
-
야구를 다르게 보는 시선, 계속 업데이트됩니다.
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
KBO세이버메트릭스

KBO 리그의 샘플 사이즈 그리고 스트라이크 존

By 박광영
2018년 4월 6일 5 Min Read
0

[야구공작소 박광영] 다음은 2018시즌 KBO 리그에서 가장 높은 타율을 기록하고 있는 선수들의 명단이다(4월 6일 경기 시작 전 기준).

김주찬 0.464

양의지 0.444

박용택 0.425

세 선수 모두가 빼어난 활약을 펼치고 있지만, 이들의 현재 성적을 두고 “4할 타자의 재림”이라 받아들이는 사람은 아마 없을 것이다. 표본의 크기, 즉 샘플 사이즈(Sample Size)가 충분하지 않기 때문이다. 4월 6일 이전까지 KBO 리그의 각 구단들은 고작 10경기씩밖에 시즌을 진행하지 않았다. 위 선수들이 소화한 타석의 수는 이 시점에서 아직 50타석에도 미치지 못했다. 이렇게 적은 기회만을 확인한 채로 결론을 내리는 것은 전형적인 ‘성급한 일반화의 오류’에 해당한다. 주사위를 두 번 던져서 두 번 모두 숫자 1이 나왔다는 이유로 주사위가 편향되어 있거나 숫자 1만 나온다고 주장할 수 없는 것과 같은 이치다.

문제는 모든 선수들이 충분한 기회를 제공받지는 못한다는 데 있다. 하나의 프로 구단이 정식으로 등록할 수 있는 선수의 수는 모두 65명. 이 가운데 1군에서 활약할 수 있는 선수는 27명에 불과하다. 이 27명 또한 선발로 출전할 선수들과 벤치에 대기할 선수들로 나뉘어 차등적으로 기회를 제공받게 된다.

모든 선수에게 무한정으로 기회를 제공할 수 없는 이상, 우리는 마련할 필요가 있다. 다시 말해 “몇 타석 이상을 채워야 해당 기록을 신뢰할 수 있게 되는가”에 대한 답이 필요하다는 것이다. 야구에 대한 객관적 지식 추구가 발달한 미국에서는 그 답을 찾기 위한 시도가 10년 전부터 활발히 이어져왔다.

 

MLB에서의 샘플 사이즈

2007년, 칼럼니스트 러셀 칼튼은 ‘피자 커터’라는 필명으로 <525,600 minutes: How do you measure a player in a year?(52만 2600분: 어떻게 하면 선수를 1년 안에 가늠할 수 있을까?)>라는 글을 발표했다. 칼튼은 이 글에서 각각의 타격 기록들이 ‘안정화(stabilize)’되기까지 필요로 하는 타석의 수를 제시했다.

칼튼이 말하는 ‘안정화된 상태’란 한 선수의 기록이 임의로 선택한 표본과 이를 제외한 나머지 표본에서 서로 비슷한 수치를 유지하는 상태를 뜻한다.* 예를 들어, A라는 타자가 600타석을 소화했는데 무작위로 추출한 300타석과 나머지 300타석에서 비슷한 삼진 비율을 기록했다면 우리는 A의 삼진 비율이 300타석 단위에서 안정화된다고 간주할 수 있다. 만약 다른 선수들의 성적에서도 이와 유사한 경향이 관찰된다면, 삼진 비율은 300타석 이상의 샘플 사이즈에서 ‘믿을 수 있는’ 값을 제공하는 지표인 셈이다.

* 이때 ‘비슷한 수치’는 두 기록의 상관계수(R)가 0.7 이상인 경우를 의미한다.

이후로도 세이버메트리션들은 정밀해진 방법론과 표본 설계를 통해 한층 발전된 답안들을 제시해왔다. 2012년에는 러셀 칼튼 본인이 지난 2007년 저작의 한계를 자인하며 베이스볼 프로스펙터스(Baseball Prospectus)에 ‘개정판’을 기고하기도 했다. 아래는 칼튼이 개정판에서 밝힌 각 기록의 최소 샘플 사이즈이다. 예컨대, 삼진 비율은 60타석 이상의 데이터가 모였을 때 비로소 유의미한 해석이 가능해지는 지표라는 것이다.

 

삼진 비율 – 60타석

볼넷 비율 – 120타석

홈런 비율 – 170타석

출루율 – 460타석

장타율 – 320타수

순장타율 – 160타수

타율 – 910타수

BABIP – 820 Balls In Play

 

이후로 새로운 후속 연구들이 등장하면서 샘플 사이즈의 구체적인 수치는 조금씩 변화해왔다. 예를 들어 삼진 비율이 60타석만 넘어도 안정화되었다고 보는 글도 있지만, 150타석이 필요하다는 분석 또한 존재한다.

그러나 변하지 않는 것도 있다. 바로 각각의 기록이 안정화되는 순서다. 언제나 삼진보다는 볼넷이, 볼넷보다는 홈런이 더 큰 샘플 사이즈를 필요로 한다. 그 뒤를 장타율과 출루율이 잇는다. 타율이나 BABIP의 경우에는 수백 타석이 넘도록 널뛰기를 이어 가기도 한다.

이 같은 순서는 세이버메트리션들이 기존에 믿어왔던 내용과도 크게 다르지 않다. 보로스 맥크라켄이 투수 개인의 BABIP가 불안정한 지표임을 밝혀낸 이래, 세이버메트리션들은 ‘변하지 않는 안정적인 지표’를 찾기 위한 노력을 계속해왔다. 그 답으로 가장 먼저 대두된 것이 삼진과 볼넷 비율이었다. 홈런 또한 나름의 안정성을 인정받았다. 반면 그 불안정함이 다른 어느 지표보다도 확연하게 드러났던 타율은 선수 평가의 척도로서 지녔던 경쟁력을 크게 상실하고 말았다.

 

KBO 리그의 샘플 사이즈

그렇다면 KBO 리그의 샘플 사이즈는 어떨까? 언뜻 봐서는 “야구는 어디서든 똑같다”라는 말처럼 MLB의 샘플 사이즈와 크게 다를 이유가 없어 보인다. KBO 리그 역시 스트라이크가 세 개면 삼진이, 볼이 네 개면 볼넷이, 외야수가 잡지 못한 공이 담장을 넘어가면 홈런이 되는 리그다. 순장타율과 타율, BABIP 같은 기록들의 계산 공식 또한 다르지 않다.

아래는 2009년부터 2017년까지의 모든 타석을 토대로 산출해낸 KBO 리그의 샘플 사이즈다. 산출과정에서는 위 기간 동안 1200타석 이상을 기록한 타자들을 삼았다. 여기서 1200은 600타석을 나머지 600타석과 비교하는 데 필요한 최소한의 타석 수다. 다만 계산 과정에서 오류를 발생시킬 가능성이 높은 동명이인 김재현, 이진영, 이병규를 모두 제외해 실제로는 121명의 표본을 바탕으로 계산에 들어갔다. 샘플 사이즈의 단위는 20타석으로 잡았고, ‘안정적’의 기준은 R=0.7보다 조금 더 엄격하게 R²>=0.5로 설정했다. 타석은 모두 랜덤으로 추출했다.

<표1>은 이렇게 계산한 ‘타석 수에 따른 각 지표들의 안정화 양상’을 전부 담아내고 있다. 그 아래에는 R²가 0.5보다 커지는 지점, 즉 KBO 리그의 최소 샘플 사이즈만을 따로 정리해서 MLB의 샘플 사이즈와 동일선상에서 비교해볼 수 있도록 했다. 여기서는 앞서 다룬 지표들 외에도 종합 타격 지표인 OPS와 wOBA를 추가로 기재했다.

 

<표1>

 

삼진 비율 – 200타석

볼넷 비율 – 400타석

홈런 비율 – 220타석

출루율 – 420타석

장타율 – 300타수

순장타율 – 240타수

타율 – 580타수

BABIP – X

OPS – 340타석

wOBA – 420타석

 

각각의 샘플 사이즈 수치는 결코 절대적이지 않다. 이는 분석 기법과 그 표본에 따라 충분히 달라질 수 있는 부분이다. 다만 안정화의 ‘순서’는 주목할 만하다. MLB의 어느 연구에서나 이 순서는 동일하게 나타났기 때문이다. KBO 리그의 안정화 순서 역시 ‘순장타율 -> 장타율 -> 출루율 -> 타율, BABIP’까지는 MLB와 동일하다. 순장타율의 안정화 속도가 조금 느리고 타율의 안정화 속도가 조금 빠르지만, 이 정도 차이는 MLB의 연구들 사이에서도 목격된 바 있다.

주목해야 하는 부분은 대표적인 ‘안정적’ 지표로 여겨졌던 삼진과 볼넷 비율의 늦은 안정화 시점이다. 이들은 본래 ‘둥근 공이 둥근 배트에 맞는’ 간섭 효과 없이, 오직 야구공의 위치와 궤적 그리고 타자의 헛스윙 여부만으로 결과가 결정되기 때문에 안정적인 경향을 띨 수밖에 없는 지표들이다. 그러나 KBO 리그의 삼진 비율은 안정성을 획득하기까지 200타석이나 되는 데이터를 필요로 한다. 볼넷 비율은 한술 더 떠서 최소 400타석의 데이터가 필요하다. 이 결과를 대체 어떻게 해석해야 할까?

 

홈 플레이트 주변에서 답을 찾다

삼진과 볼넷은 오로지 홈 플레이트 주위에서 결정되는 사건들이다. 따라서 우리의 의심은 KBO 리그와 MLB의 홈 플레이트 주변의 차이점을 모색하는 데서 출발해야 한다.

먼저 생각해볼 수 있는 것은 심판의 볼 판정이다. MLB는 시즌이 끝나면 심판진의 스트라이크 콜들을 데이터베이스로 만들어 활용한다. 이를 통해 심판들 간의 차이를 줄이고, 둥글던 스트라이크 존의 네 모퉁이에도 ‘각’을 잡아가는 등의 효과를 누리고 있다. 그러나 KBO 리그에서는 아직 비슷한 조치가 이뤄지지 않고 있다. 우리는 오히려 선수 출신 해설자들이 자주 언급하는 “심판의 존을 파악하는 것이 중요하다”는 충고를 통해 심판들 간의 볼 판정 차이가 공공연히 존재한다는 사실을 간접적으로 확인하게 된다.

이처럼 일관성이 부족한 스트라이크 존은 삼진과 볼넷의 안정성에도 악영향을 끼친다. 이 같은 문제의식은 야구공작소에서 이전에 게재한 <타고투저 현상, 범인은 스트라이크 존이 아니다>에서도 드러난 바 있다.

볼넷의 불안정성을 초래한 또 다른 원인은 KBO 리그와 MLB의 볼넷 비율 차이에서도 찾을 수 있다. 스트라이크 존이 확연히 넓어졌던 작년을 제외하면, 2009년부터 2016년까지 KBO 리그의 전체 볼넷 비율은 항상 9% 이상이었다. 반면 MLB의 볼넷 비율은 같은 기간 한 번도 9%를 초과하지 않았다. 따라서 맘먹은 대로 스트라이크를 던질 수 있는 투수가 그리 많지 않은 KBO 리그에서는, 볼넷의 상당수가 소위 ‘어이없는 볼질’로 인해 발생했다는 해석이 가능하다. 제구력이 안정되지 못한 투수가 많은 KBO 리그의 환경이 볼넷 비율의 불안정성을 키웠다는 것이다.

MLB에서는 샘플 사이즈에 대한 연구가 10년이 넘도록 활발하게 진행되어왔다. 반대로 KBO에서는 이에 대한 연구가 미진했던 것이 사실이다. 이 글 또한 논의와 연구가 진전된 훗날 다시 살펴본다면 담고 있는 오류가 적지 않을 것이다.

그러나 한 가지 사실만큼은 분명하다. 한국과 미국의 야구가 이처럼 근본적인 차이를 내포하고 있는 것이 사실이라면, MLB라는 환경을 토대로 도출된 연구결과들을 검토 없이 그대로 KBO 리그에 적용시켜서는 곤란하다는 사실이다.

 

기록 출처: STATIZ.com

자문: 야구공작소 박기태, 오주승, 홍기훈

에디터=야구공작소 이의재

 

참조

http://web.archive.org/web/20080102094412/http:/mvn.com/mlb-stats/2007/11/14/525600-minutes-how-do-you-measure-a-player-in-a-year/

https://www.baseballprospectus.com/news/article/17659/baseball-therapy-its-a-small-sample-size-after-all/

https://www.fangraphs.com/blogs/a-new-way-to-look-at-sample-size/

https://www.fangraphs.com/blogs/a-new-way-to-look-at-sample-size-math-supplement/

http://www.yagongso.com/?p=4116

이 글 공유하기:

  • Facebook으로 공유하기 (새 창에서 열림) Facebook
  • X에 공유 (새 창에서 열림) X

이것이 좋아요:

좋아하기 로드 중...
작성자

박광영

Follow Me
다른 기사
Previous

어제까지 그 곳엔 야구장이 있었다

Next

우리가 아는 볼티모어, 올해가 마지막일지도 모릅니다

댓글 없음! 첫 댓글을 남겨보세요.
  1. 황진우 댓글:
    2018년 4월 26일, 7:00 오후

    잘 정리된 글이네요! 잘봤습니다.

    가져오는 중...
    응답
  2. 2루수 새 역사 쓰는 안치홍의 2018년 - 야구공작소 댓글:
    2018년 7월 30일, 9:44 오전

    […] “KBO 리그의 샘플 사이즈 그리고 스트라이크 존” 칼럼에 의하면 KBO 리그에서 OPS가 안정화되기까지 필요한 타석 수는 340타석 정도다. 시즌이 후반기로 접어든 현재 안치홍이 소화한 타석 수는 297타석. 평균적인 주전들의 페이스대로 타석 수를 채워온 안치홍이라면 조만간 340타석을 추월할 것이 유력하다. […]

    가져오는 중...
    응답
  3. KBO리그의 샘플 사이즈 - 투수 편 - 야구공작소 댓글:
    2018년 12월 25일, 3:22 오후

    […] 박광영] KBO리그의 샘플 사이즈 그리고 스트라이크 존과 KBO리그의 ‘샘플 사이즈’ 재고찰(링크!). 필자가 야구공작소에서 […]

    가져오는 중...
    응답
  4. 타구 속도와 각도의 안정화 속도 - 야구공작소 댓글:
    2019년 5월 27일, 9:43 오후

    […] 방식으로 연구되었으며, 지난해 야구공작소에서도 KBO 버전의 연구 결과를 발표한 바 있다. 흔히 볼넷, 삼진, 홈런 비율과 같은 지표는 빠르게 안정화되고 […]

    가져오는 중...
    응답

댓글 남기기응답 취소

  • Best of Yagongso

    [BOY] The Best of Yagongso, March/April [3, 4월의 칼럼]

    ›
  • MLB

    무라카미 무네타카의 도박은 성공할 수 있을까

    ›
  • MLB

    소토의 빈자리는 채워져도, 오타니의 빈자리는 채울 수 없다

    ›
  • KBO

    수다쟁이 계약서 안에는 어떤 진실이

    ›
  • KBO

    정말 어깨는 쓸수록 약해질까?

    ›
  • MLB

    피안타율 0.045 체인지업은 왜 최악의 구종일까

    ›
  • 아마야구

    스카우트가 들려주는 진짜 스카우트 이야기②

    ›
  • MLB

    투수를 복사하는 피칭머신: 트라젝트 아크

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 – 키움 히어로즈 케스턴 히우라

    ›
  • MLB

    투수의 DNA : Supinator vs Pronator

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 - LG 트윈스 약셀 리오스

    ›

YOUTUBE

PODCAST

INSTAGRAM

yagongso

[야구공작소 인포그래픽] 롯데 자이언츠 전민재의 올 시즌 8개의 홈런은 경기 흐름을 바꾸는 [야구공작소 인포그래픽] 롯데 자이언츠 전민재의 올 시즌 8개의 홈런은 경기 흐름을 바꾸는 장면에서 나왔습니다. 동점과 역전, 선취점과 추가점까지 필요할 때마다 영양가 있는 중요한 한 방을 기록했으며, 특히 7번째 홈런은 팀을 단숨에 앞서게 만든 데뷔 첫 만루홈런이었습니다.

올 시즌 전민재는 공격과 수비에서 모두 준수한 활약을 보여줬던 마차도에 버금가는 시즌을 만들어가고 있습니다. 현재의 홈런 페이스가 이어진다면 시즌 14홈런도 기대할 수 있으며 이는 2020년 딕슨 마차도가 기록한 롯데 유격수 한 시즌 최다 홈런 12개를 넘어설 수 있는 수치입니다.

전민재가 남은 시즌에도 지금의 흐름을 이어가 롯데 역대 유격수 반열에 오를 시즌을 완성할 수 있을지 주목됩니다.

제작: 야구공작소 박경진

#KBO #야구 #야구공작소 #롯데 #전민재
[야구공작소 인포그래픽] 다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다. • 구 [야구공작소 인포그래픽] 
다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다.

• 구단 최초 외국인 선수 골든글러브 수상 (2023)
• 구단 최초 30홈런-100타점, 구단 최초 타점왕(2024)
• 구단 최초 2년 연속 30홈런(2024-2025)

그리고 2026년 6월 2일, 수원 KT전에서 외국인 타자 9번째, LG 소속 선수 9번째로 통산 100홈런을 달성했습니다.

#야구공작소 #야구 #KBO #LG트윈스 #오스틴
[야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 [야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 써냈습니다. 5월 29일 강승호가 9회초 역전 만루홈런을 터뜨린 데 이어, 다음날인 30일에는 정수빈이 6회초 역전 만루홈런을 쏘아 올리며 팀 승리를 이끌었습니다. KBO 역사상 두 번째로 나온 ’2경기 연속 역전 만루홈런‘ 입니다.

흥미로운 점은 종전 기록과 이번 기록 모두 상대가 삼성 라이온즈였다는 것입니다. 2002년 롯데의 박정태와 김응국이 삼성을 상대로 같은 기록을 세운 이후 24년 만에 다시 삼성을 상대로 역사가 반복됐습니다. 삼성 입장에서는 아쉬운 기록이 추가됐고, 두산은 짜릿한 역전극으로 위닝시리즈까지 확보하는 데 성공했습니다.

순위 경쟁이 치열한 지금, 한 경기의 흐름을 뒤집는 홈런 한 방은 그 이상의 의미를 가집니다. 이틀 연속 터진 역전 만루홈런은 단순한 기록을 넘어 두산의 저력과 집중력을 보여준 장면이었습니다. 과연 이 기세가 앞으로의 순위 경쟁에서도 이어질 수 있을지 기대가 됩니다.

제작: 야구공작소 김은빈

#KBO #두산베어스 #삼성라이온즈 #만루홈런 #야구
[야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영 [야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영입했습니다.

지난 26일 기존 아시아 쿼터 선수 제리드 데일과 결별한 뒤 빠르게 대체 자원을 찾았는데요. 시라카와는 2024시즌 SSG 랜더스에서 5경기 2승 2패 평균자책점 5.09를 기록했고, 두산 베어스에서는 7경기 2승 3패 평균자책점 6.03을 기록했습니다.

시라카와는 29일 2군에 합류해 컨디션을 점검한 뒤, 1군 콜업 시기를 조율할 예정입니다.

#야구공작소 #KBO리그 #시라카와 #KIA타이거즈 #갸감자
제작 : 야구공작소 최은혜
[야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 [야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 않은 영향을 미치고 있습니다.

전체적으로 낮은 WAR 수치가 이를 보여주고 있으며, 현재 SSG의 팀 외국인 WAR는 리그 최하위권이라고 봐도 무방한 상황입니다.

특히 베니지아노, 타케다 쇼타, 대체 외국인 선수 긴지로는 마이너스 수치를 기록하며 고전하고 있습니다. 미치 화이트도 부상 전까지 1선발로 보기에는 아쉬운 성적을 남겼고, 에레디아 또한 예년과 비교하면 기대에 미치지 못하는 모습입니다.

SSG가 연패 탈출을 넘어 순위 싸움에 다시 뛰어들기 위해서는, 외국인 선수들의 반등 혹은 교체 승부수 역시 반드시 필요해보입니다.

집 나간 WAR, SSG는 다시 찾아올 수 있을까요?

제작: 야구공작소 변영아

#야구공작소 #KBO #KBO리그 #SSG랜더스
[야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 [야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 띄는 루키들을 정리했습니다.

시즌 초반부터 존재감을 보여주고 있는 선수들.
마운드에서는 우강훈, 박준현, 장찬희, 임지민이 안정적인 이닝 소화와 홀드, 승리로 팀에 힘을 보태고 있고, 타석에서는 허인서가 강한 장타력과 생산력으로 신인왕 경쟁에 불을 붙이고 있습니다.

아직 시즌은 많이 남았지만,
초반 흐름만큼은 충분히 신인왕 경쟁을 뜨겁게 만들고 있습니다.

과연 2026 KBO 신인왕의 주인공은 누가 될까요?

제작: 야구공작소 박경진

#우강훈 #박준현 #허인서 #장찬희 #임지민
인스타그램 팔로우하기
Copyright 2026 — 야구공작소. All rights reserved. WPTEAM
%d