김하성의 스윙 여부를 예측할 수 있을까?

< 일러스트 = 야구공작소 최가윤 >

샌디에이고 파드리스와 애리조나 다이아몬드백스의 경기가 열리는 체이스 필드, 5회 초 애리조나의 투수는 KBO 팬들에게 익숙한 메릴 켈리다. 그리고 이닝의 첫 타자로 김하성이 타석에 들어왔다.

김하성은 켈리의 초구에 방망이를 휘두를까, 아니면 참을까. 김하성에 빙의해 생각해 보자. 1단계는 계획이다. 공이 오기 전 ‘어떨 때’ 치겠다. 혹은 지켜보겠다 정해야 한다. 2단계는 행동, 실제 날아오는 공을 보며 본인의 계획을 지키기도 하고, 고치기도 한다.

계획 단계의 조건 중 하나로 로케이션/구종을 가정해 보자. 최고의 선택은 조건을 예측해 타격·출루하는 것이다. 하지만 실제로 어떠한 공이 오는지는 알 수 없다. 투수와 포수 그리고 상대 팀 벤치에서 김하성과 다른 생각을 하고 있거나, 제구력에 따라 공의 방향이 달라져 계획이 변경될 수 있다.

따라서 김하성이 생각할 수 있는 변수는 켈리라는 투수, 이닝, 볼 카운트 등 상황에 관련된 것뿐이다. 이러한 상황적 변수들을 토대로 야구를 보는 팬이 김하성 입장에서 그의 스윙을 예측할 수 있을까?

 

상황에 따른 김하성의 스윙 비율

2022~2023시즌 데이터를 토대로 김하성의 스윙 비율을 살펴보자. 그는 전체 투구 된 공 중 41%를 스윙했다. 스윙 여부 예측을 결정할 변수는 이닝, 볼카운트, 점수 차이, 주자 상황, 직전에 던진 공의 투구 결과, 상대 투수로 정했다. 변수별 스윙 비율은 다음과 같다.

< 김하성의 스윙 예측에 사용된 변수1 >

김하성은 중립 상황이거나, 타자가 유리한 볼 카운트에서는 스윙 비율이 낮았다. 3구 중 1구에만 휘둘렀다. 반면 투수가 유리한 볼 카운트에서는 투구의 52.3%를 스윙했다. 유리한 볼카운트에서는 계속 공을 지켜보며 더 유리한 상황으로 끌고 가거나 볼넷으로 출루하고자 했다.

초구엔 배트를 거의 내지 않았다. 초구 스윙 비율은 22.6%에 불과했다. 직전 투구가 스트라이크냐 볼이냐에 따라 스윙 비율 차이도 있다. 스트라이크일 경우에는 45.6%, 파울인 경우는 57.2%였다. 한 번 쳐낸 공에 대해서는 다음 공에 스윙이 재차 나갈 가능성이 높다고 볼 수 있다. 반면 직전 투구가 볼이었던 경우는 스윙하지 않고 공을 지켜본다는 것을 알 수 있다.

득점권과 비득점권에서의 스윙 비율 차이도 존재했다. 비득점권에서는 전체 스윙 비율보다 낮은 39.7%였으나, 득점권에서는 45.1%로 평소보다 스윙 비율이 늘었다.

상대 투수는 지표를 고려해 3개 클래스로 분류했다. 상위 25%는 A, 하위 25%는 C, 나머지는 B 클래스로 설정했다. A 클래스 투수를 상대할 때의 스윙 비율은 41.3%다. 클래스가 내려갈수록 김하성은 타석에서 다소 소극적인 스윙 양상을 보이게 된다.

 

스윙 여부 예측

지금부터는 김하성처럼 생각해 볼 시간이다. 필자는 트리 기반의 XGBoost을 활용해 스윙 예측을 했다.

변수 중요도로 스윙 여부 예측에 영향을 준 변수를 알아보자. 초구가 스윙 여부 예측에 가장 많은 영향을 줬다. 직전 투구가 볼, 직전 투구가 파울인 경우가 뒤를 이었다. 초구와 직전 투구의 결과, 볼 카운트 변수들이 김하성의 스윙 여부를 결정짓는 데 있어 높은 관여를 하고 있었다.

초구일 경우 노 스윙으로 예측한 데이터가 실제로 노 스윙일 확률은 무려 76.1%였다. 이는 모델이 초구 상황에서 노 스윙을 예측하는 데 상당히 높은 정확도를 보인다는 것을 시사한다.

< 스윙 여부 예측 모델의 변수 중요도 >

김하성과 생각이 일치하는 게 가장 중요하다. 다시 말해 모델이 스윙과 노 스윙을 정확히 예측하고 실제 결과와 일치하느냐가 핵심이다. 모델이 스윙으로 예측한 투구 중 실제로 스윙한 투구 비율은 52.7%였다. 반면 모델이 스윙하지 않으리라고 예측한 투구 중 실제로 스윙하지 않은 투구의 비율은 71.4%로 더 높았다.

실제로 스윙한 투구 중 모델이 스윙한다고 정확히 예측한 비율은 64.0%다. 그리고 실제로 스윙하지 않은 투구 중 모델이 스윙하지 않는다고 정확히 예측한 비율은 61.0%였다.

< 스윙 여부 예측 결과 >

모델은 전체적으로 62% 정도를 정확하게 예측했다. 스윙하지 않을 공을 예측하는 데 비교적 높은 정확도를 보였고, 스윙할 공을 잘 찾아내는 능력도 갖췄다. 전반적으로 두 클래스에서 비교적 균형 잡힌 성능을 보였다.

하지만 모델이 스윙하지 않은 투구를 스윙으로 잘못 예측하는 경우가 많았다. 이는 데이터를 추가하면서 해결할 수 있다고 생각한다.

이유는 모델의 예측 성능은 훈련 데이터의 양에도 높게 의존하기 때문이다. 다양한 상황과 조건에서의 데이터를 추가하면 모델이 더욱 다양한 패턴을 학습할 수 있게 되어 예측 정확도가 향상될 수 있다.

 

마치며

2021년 메이저리그에 첫발을 내디딘 김하성은 매년 꾸준히 성장해 왔다. 수비는 첫해부터 로스터에서 버틸 수 있게 해준 원동력이었다. 그리고 2022년에는 유격수 부문 골드 글러브 최종 2인, 2023년에는 유틸리티 부문에서 골드 글러브를 수상하면서 최상급 반열에 올라섰다.

김하성의 타격 능력은 2021년에 비해 많이 성장했다. 가장 큰 이목을 끄는 지표가 향상된 선구안이다. 그리고 이는 타석 접근성의 변화에서 기인한다. 메이저리그 첫해에는 초구에 어려움을 겪었다. 초구 스트라이크 비율이 68.7%로 250타석 이상 들어선 타자 중 네 번째로 높았다. 초구 스윙 비율도 메이저리그 평균보다 높았다. 돌이켜보면 이는 메이저리그 투수에 대해 적응하는 과정일 수 있다.

하지만 김하성은 해를 거듭할수록 타석에서의 신중함을 더하고 있다. 스윙 비율들이 상황 불문 전부 감소했다. 2023년 그의 초구 스트라이크 비율은 뒤에서 5위에 해당한다.

< 김하성 타석 접근성 지표 (2021~2024) >

두 번째는 변화구 적응력이다. 김하성은 메이저리그 첫해인 2021시즌에 변화구, 특히 브레이킹볼(커브, 슬라이더 등)에 큰 어려움을 겪었다. 브레이킹볼 Whiff%가 약 30%에 달했다. 상위 리그에서의 신고식 또는 적응 과정을 호되게 치렀다고 해도 과언이 아니었다.

< 2021시즌 김하성 구종 계열별 성적 >

2022년부터 김하성은 리그에 적응하면서 전체적인 지표가 긍정적인 방향으로 변했다. 특히 브레이킹볼 상대 K%, Whiff%이 많이 감소하고, 타율도 증가했다. 변화구를 상대하는 데 문제가 없다는 것을 입증했다고 볼 수 있다.

< 2022~24시즌 김하성 구종 계열별 성적 >

2021년 김하성은 0.31의 BB/K를 기록했다. 상위 리그 진출에 따른 결과임을 고려해야 하더라도 2020년 KBO리그에서 기록한 1.10에 비해 큰 폭으로 떨어졌다. 김하성의 BB/K는 2022년 0.51, 2023년 0.60으로 증가했다. 2024년은 0.82로 규정타석을 채운 타자 중 메이저리그 전체 5위다. 김하성의 선구안 성장은 현재진행형이다.

 

참조 = Baseball Savant, fangraphs

야구공작소 김승곤 칼럼니스트

에디터 = 야구공작소 김지호, 전언수

일러스트 = 야구공작소 최가윤

ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

  1. 2024년까지 포함된 지표는 2024년 7월 21일까지의 결과를 기반으로 합니다.

1 Comment

댓글 남기기