기계학습으로 보는 KBO리그 선수들의 트레이드 가치

< 사진 출처 = Pexels.com >

트레이드는 어떻게 팀을 바꿔놓았나

델몬 영. 탬파베이 레이스 팬들에게는 추억의 이름일 것이다. 2003년 1라운드 1번으로 입단한 영은 2006년 BA 유망주 순위 1위에 오를 만큼 촉망받은 유망주였다. 하지만 실패한 툴가이 유망주들이 그렇듯이 영은 재능을 만개하지 못했다.

영은 10시즌 동안 MLB에서 뛰면서 fwar -1.3을 기록하고 은퇴했다. 유망주 순위 1위를 차지한 선수치고는 초라한 결과다. 여기까지는 실패한 유망주의 흔한 커리어라고 생각할지 모른다. 하지만 레이스 팬들은 영을 아직도 기억하고 있다. 그리고 그의 유산은 아직도 트로피카나 필드에서 팬들의 눈을 즐겁게 하고 있다.

레이스는 2007년 영을 투수 맷 가르자와 유격수 제이슨 바틀렛과 바꾸는 트레이드를 진행했다. 이 둘은  2007년부터 2009년까지 레이스에서 뛴 3년간  fwar 18.8을 합작했다. 2010년 연봉조정에 돌입한 가르자를 레이스는 과감하게 3명의 유망주와 트레이드했다. 그 유망주 중 하나의 이름은 크리스 아처였다. 아처는 레이스의 에이스로 활약하며 2012년부터 2017년까지  fwar 12.2를 만들어 냈다.

아처 역시 FA가 다가오자, 트레이드를 피할 수 없었다. 당시 윈나우의 기어를 올리고 있던 피츠버그 파이어리츠가 접근했다. 이 둘의 거래는 성사됐고 레이스는 아처를 대가로 외야수 오스틴 메도우즈, 타일러 글라스노우, 셰인 바즈를 얻었다.

아처가 파이어리츠에서 끔찍한 시간을 보내는 동안 메도우즈와 글라스노우는 2018년부터 2021년까지  fwar 12.1을 합작했다. 바즈는 부상으로 가치가 하락하긴 했지만, 여전히 MLB의 탑 유망주다. 작년 메도우즈와 트레이드된 이삭 파레데스 또한 쏠쏠한 활약을 보여주는 중이다(2022년부터 2023년 7월 6일까지  fwar 4.9).

레이스는 통산 fwar -1.3의 선수 하나로 도합 fwar 46.4(실제로는 그 이상)를 만들어 냈다. 창단 이래 포스트시즌에 한 번도 진출하지 못했던 레이스는 이후 16시즌 동안 11번 포스트시즌에 진출했다. 트레이드 전후로 완전히 다른 팀이 된 것이다. 이렇듯 성공한 트레이드는 팀을 완전히 바꿔놓는다.

 

KBO에서의 트레이드

이제 눈을 KBO로 돌려보자. 양대 리그와 지구로 나뉘어 있는 MLB에 비해 단일 리그인 KBO에서는 트레이드가 어렵다. 김상현 – 강철민, 박병호 – 송신영 트레이드와 같은 역사적인 트레이드는 많았지만, 그 때 뿐이었다. 트레이드의 패자는 트레이드 시장에서 더욱 소극적으로 접근했기 때문이다.

< 표 1 : 2017-2022 KBO 전체 트레이드 건수 >

이렇듯 척박한 환경에도 불구하고 레이스처럼 ‘트레이드 트리’를 쌓는 팀도 있었다. KIA 타이거즈는 2015년 임준섭, 박성호, 이종환을 한화에 주고 유창식, 김광수, 오준혁, 노수광을 데려왔다. 노수광은 1년 동안 sWAR 0.9를 기록하고 SK 와이번스(현 SSG 랜더스)에 트레이드됐다. 이 대가로 타이거즈는 이명기와 김민식을 받았다. 이 둘은 2017년 타이거즈 통합 우승에 핵심적인 역할을 했다.

한편 노수광과 같이 타이거즈에 입단한 오준혁은 2018년 시즌 중 kt의 이창진과 트레이드됐다. 우승 주역이었던 이명기와 김민식 역시 2019년과 2022년 트레이드하면서 각각 이우성, 김사윤(개명 전 김정빈)과 바꿨다. 그리고 이창진과 이우성은 주전 외야수와 백업 외야수로 2023년 개막 엔트리에 승선했다. 타이거즈는 이 트레이드 트리가 이어지는 동안 1번의 우승과 4번의 포스트시즌 진출이라는 성과를 거뒀다.

 

트레이드 가치를 정량화할 수 있을까?

트레이드의 관건은 선수의 가치 산정이다.

종합 지표가 보편화된 지금 선수가 얼마나 잘하느냐를 판단하는 것은 그다지 어렵지 않다. 특히 투수/타자 모두를 동일한 스케일에서 평가하는 WAR은 대략적인 선수 비교를 가능하게 한다. 예를 들어  2022년 이정후(키움, sWAR 9.23)와 김주원(NC, sWAR 1.81) 중 누가 잘하는지는 굳이 미사여구를 덧붙이지 않아도 판단할 수 있다.

트레이드에서는 이야기가 달라진다. 이정후는 포스팅 연한을 감안한다면 서비스 타임이 1년밖에 남지 않았다. 키움을 제외한 다른 팀이 이정후를 트레이드로 얻어도 사실상 팀은 연장계약 없이 1년밖에 쓸 수 없다. 반면 재작년 데뷔한 김주원은 2023시즌을 포함해 FA까지 7년을 남겨뒀다. 별다른 일이 없다면 김주원을 얻는 팀은 최소 7년을 확정적으로 팀에 묶어놓을 수 있다. 더군다나 김주원은 만 21세로 성장이 기대되는 유격수다.

이러한 요소들 때문에 트레이드 가치를 정량화하는 것은 쉽지 않다. 경기장에서 보여주는 기량뿐만 아니라 다양한 요소를 고려해야 하기 때문이다. 더군다나 연차가 적은 유망주는 더더욱 그렇다. 이 때문에 팬들 사이에서 특정 선수의 트레이드를 이야기하는 것은 많은 논쟁을 불러일으킨다. 사람의 뇌로는 이 많은 변수를 고려하여 정확한 트레이드 가치를 판단하기는 불가능에 가깝다.

 

그래서 미국 리그는 통계적 모델링 또는 기계학습으로 트레이드 가치를 산정하려고 시도하고 있다. 그 결과물 중 MLB에 적용한 사례가 Baseball Trade Values라는 사이트에 정리되어 있다. 이 사이트에서는 여러 가지 변수들을 통합하는 모델로 트레이드 가치를 제공하고 있다. 이 Baseball Trade Value는 자신들의 트레이드 가치 산정이 2019년 8월 이후 진행된 트레이드 436건 중 오차 평균 1.9, 94%의 적중률을 보였다고 주장했다.

Baseball Trade Value의 메이저리그 선수들의 트레이드 가치 산출은 간단하다. Field Value에 연봉(Salary)을 뺀 값으로 트레이드 가치를 계산한다. 다만 Field Value 산출에는 많은 고려가 들어간다. Baseball Trade Value는 지금까지의 활약과 앞으로의 기대, 부상 우려, 마이너 옵션의 여부 등을 고려하여 트레이드 가치를 산출했다고 밝혔다.

다만 메이저리그에 올라오지 못한 유망주 선수의 경우에는 포지션, 활약도, 부상 우려, 40인 로스터 포함 여부 등을 고려하여 직접적으로 트레이드 가치를 구한다. 그리고 메이저리그 선수와 마이너리그 선수들의 트레이드 가치를 통합하여 트레이드 시뮬레이터를 제공한다. 이 시뮬레이터를 이용해 자신만의 트레이드 시나리오를 만들어 다른 사람의 평가를 받을 수도 있다.

 

KBO리그의 트레이드 가치

그렇다면 KBO리그에서도 트레이드 가치를 산출할 수 있을까?

Baseball Trade Value의 정확한 모델은 사이트에서 명시하지 않고 있다. 때문에 이 모델을 그대로 데이터에 적용하는 것은 불가능하다. 하지만 트레이드 가치라는 정답과 모델에 쓰이는 변수가 어느 정도 명시되어 있다는 점에 주목했다.

이러한 아이디어를 기반으로 하여 MLB 선수들의 트레이드 가치를 결정짓는 변수들을 수집한 다음 모델을 적용하여 Baseball Trade Value의 트레이드 가치를 학습시켰다. 또 KBO리그 선수들의 정보들을 따로 수집하여 학습시킨 모델에 넣어 최종적인 KBO리그 트레이드 가치를 산출하고자 하였다.

마이너리그 유망주들과 메이저리그 선수들에 대한 모델이 다르다고 밝혔기 때문에 우선 선수들의 레벨을 메이저리그 선수와 마이너리그 선수들로 나눴다. 그 결과 1,474명의 메이저리그 레벨 선수들과 1,105명의 마이너리그 선수를 자료화할 수 있었다.

메이저리그 선수들은 포지션, 컨트롤 연수, 3년간의 WAR의 데이터를 모델에 학습시켰다. 그런 다음 연봉을 빼 최종적인 트레이드 가치를 산출했다. 마이너리그 선수들은 나이, 포지션, 유망주 평가 기관의 Future Value, ETA(메이저리그로 승격이 기대되는 해)를 변수로 하여 직접적으로 트레이드 가치에 모델을 학습시켰다. WAR과 유망주 평가는 팬그래프를 활용하였다.

< 그림 1 : MLB 선수들의 정보와 트레이드 가치가 담긴 데이터 >

모델은 Tree-Based Model인 xgBoost와 LightBoost를 활용했다. 메이저리그 트레이드 가치 모델은 xgBoost와 LightBoost의 평균을 낸 Voting Model을 사용했고 마이너리그 트레이드 가치 모델은 xgBoost를 단독으로 사용했다. 그 결과 메이저리그 트레이드 가치 모델은 평균보다 90% 더 Baseball Trade Value를 더 잘 설명했고(R^2 = 0.9) 마이너리그 모델은 78.5% 더 잘 설명했다(R^2 = 0.785).

< 표 2 : 각 모델별 시험 데이터에 대한 R^21 >

KBO리그로의 적용에 앞서 KBO리그 선수들의 메이저리그 레벨 / 마이너리그 레벨 여부를 판별해야 했다. 따라서 sWAR과 나이를 기준으로 이를 나눴다. 투수는 만 25세 이하고 50이닝과 sWAR 0.5 이상을 동시에 기록한 시즌이 없으면 마이너로 분류했다. 타자의 경우에는 만 25세 이하고 sWAR 0.5 이상을 동시에 기록한 시즌이 없으면 마이너로 분류했다. 이 외의 경우에는 메이저 레벨로 분류했다. 이 결과 582명의 메이저리그 레벨 선수와 268명의 마이너리그 레벨 선수들을 데이터로 얻을 수 있었다.

분류 후 KBO에서 마이너리그 레벨로 분류된 선수들을 평가하는 것이 필요했다. 자체적인 기준에 따라 종합 평점을 20-80 스케일로 매기고 이를 MLB의 분포와 비교하여 최대한 근사했다. 이런 방식으로 KBO 데이터 세트를 만들고 이를 학습시킨 모델에 적용해 KBO의 트레이드 가치를 산정하였다.

 

우리 팀 선수들의 트레이드 가치는?

모든 선수의 트레이드 가치가 흥미로웠지만 양극단의 가치를 가진 선수들이 궁금해졌다. 그래서 팀별로 가장 높은 가치가 나온 3명과 낮은 가치가 나온 3명을 꼽아봤다.

< 표 3 : KBO 10개 팀 선수의 트레이드 가치 상위/하위 3인 >

저년차도 불구하고 눈에 띄는 성적을 거둔 선수들이 높은 트레이드 가치를 가진 것으로 나타났다. 전체 1위를 기록한 문보경(LG)의 경우는 2년 차에 sWAR 4.9라는 빼어난 성적을 거뒀다. 정철원(두산), 노시환(한화), 정해영(KIA), 소형준(kt) 또한 저년차에 좋은 성적을 거둔 선수들이다.

반면 고액 FA 들의 트레이드 가치는 낮았다. SSG의 장기 계약 선발들인 박종훈과 문승원이 각각 -23.9, -12.9로 상당히 낮은 가치를 가지고 있는 것으로 나타났다. KIA의 에이스 양현종(KIA) 또한 -16.1로 마이너스 가치를 보였다. 다만 박건우(NC), 오지환(LG)과 같이 장기계약에도 좋은 성적을 보여준 선수들은 여전히 높은 가치를 가진 것으로 나타났다.

저년차 – 고성적의 조합이 상당히 높은 트레이드 가치를 가지는 것은 xgBoost 모델이 제공하는 변수별 중요도에서도 볼 수 있다.

< 그림 2 : 메이저 레벨 모델의 변수별 중요도 >

2022년의 fWAR, 2021년의 fWAR에 이어 세 번째로 중요한 변수가 나이임을 알 수 있다. 따라서 이 셋의 교집합인 선수들은 눈에 띄게 트레이드 가치가 높을 수밖에 없다.

다만 이 트레이드 가치가 완전히 최적화된 것은 아니다. 서로 리그 환경이 다른 두 리그의 자료를 통합했기 때문에 이에 따른 차이를 고려해야 한다. 단적인 예로 sWAR과 fWAR은 계산 방식이 상이하며, sWAR에서는 대체 선수 수준의 문제로 불펜에 비해 선발이 저평가받는다. 정해영(KIA), 김재웅(키움) 등 전문 불펜 요원이 곽빈(두산), 원태인(삼성) 등 젊은 선발투수보다 더 높은 평가를 받은 것은 바로 이 때문이다.

 

기계학습으로 보는 야구

통계 지표는 야구를 간단히 해준다. WAR가 개발되기 전 ‘투수와 타자 중 누가 잘하나’라는 질문에 제대로 답할 수 있는 사람은 없었다. 하지만 이제는 팬그래프나 레퍼런스에 들어가서 클릭 한 번으로 이 질문에 답할 수 있다. 트레이드 가치 또한 마찬가지이다. 이러한 추상적인 가치를 숫자로 표현할 수 있다는 것은 큰 축복이다.

하지만 역설적으로 데이터는 더욱 복잡해지고 있다. 해가 갈수록 데이터는 쌓이고 있지만 그 데이터들의 종류는 그보다 더 다양해지고 있다. 즉 야구는 간단해지고 있지만 그 과정은 더더욱 깊어지고 있다.

데이터의 복잡성에 비교적 둔감하고 다양한 데이터를 다룰 수 있는 기계학습이 현재 야구에서 주목받고 있는 것도 바로 이러한 이유이다. 2차 스탯이 매해 새롭게 탄생하는 지금, 야구에 기계학습을 도입하려는 시도가 점점 고개를 들고 있다.

Cameron Grove가 만든 Pitchingbot도 이러한 기계학습의 결과이다. Grove는 제구, 구속, 릴리즈 포인트, 회전축 차이 등 다양한 변수를 토대로 구종의 완성도를 측정했다. 이 과정에서 상기한 트레이드 가치 모델과 같은 xgBoost를 사용했다. 이렇게 산출된 결과를 20-80 척도로 변환했다. 유망주 스카우팅에서 쓰이는 20-80 척도가 실체화된 것이다. 이 모델을 개발한 Grove는 현재 MLB 프런트에서 분석가로 활동하고 있다.

이렇듯 기계학습이 본격화되면서 야구 분석도 새로운 장에 들어서고 있다. 트레이드 가치, 구종 완성도 외에도 여러 추상적인 가치를 숫자로 변환하는 작업이 계속 진행되고 있다. 앞으로 기계학습이 야구의 베일을 걷을 수 있을지 주목된다.

 

부록 및 참고

  • 본 칼럼은 2022년 시즌의 데이터를 기반으로 쓰였습니다. 2023시즌 스탯은 반영되지 않았으니 참고 바랍니다.
  • 이 모델을 통한 KBO 모든 선수의 트레이드 가치는 이 링크를 통해 확인하실 수 있습니다.

 

참고 = Fangraphs, Statiz.com, Baseballtradevalues.com

야구공작소 조광은 칼럼니스트

에디터 = 야구공작소 이희원, 전언수

ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

  1. 모델을 평가할 때 데이터셋 전체를 평가하는 것이 아닌 훈련 데이터와 시험 데이터를 나눠서 성능을 평가한다. 시험 데이터는 모델을 학습하는 데 쓰이지 않고 모델을 평가하는 지표로 쓰인다.

Be the first to comment

댓글 남기기