< 일러스트 = 야구공작소 이수진 >
Similarity Scores와 Affinity
우리는 때로 ‘A 선수가 B 선수와 유사하다’라고 표현하는 경우가 있다. 두 선수가 유사하다는 이유는 보통 성적이 비슷하거나 플레이 스타일이 닮았다는 얘기다. 선수들의 유사성을 측정하는 방법으로는 ‘베이스볼 레퍼런스’의 ‘Similarity Scores’와 ‘베이스볼 서번트’의 ‘Affinity’가 있다.
Similarity Scores는 세이버트릭스의 중요한 인물인 빌 제임스의 아이디어를 기반으로 베이스볼 레퍼런스가 개발한 방법이다. 이 방식은 투수와 타자의 통계를 활용하여 선수 간의 유사성을 측정한다. 선수 간의 성적 차이를 계산한 점수를 통해 유사한 선수를 찾아내는 방식을 채택한다. 또한 포지션 간 차이를 고려하기 위해 포지션 가중치를 적용해 선수를 분류한다.
‘Affinity’는 트래킹 데이터(투구 및 타구 추적 데이터)를 기반으로 분석한다. 투수는 공의 구속과 궤적을, 타자는 발사각과 타구 속도를 기반으로 한 히팅 프로필을 활용한다. 이를 통해 선수의 투구 및 타격 스타일에 대한 정확한 평가가 가능하다.
두 방식은 각각의 장점과 한계가 있다. Similarity Scores는 과거와 현재의 선수를 비교하고 동일 포지션의 선수를 식별하는 데 강점이 있지만, 유사성을 성적에만 의존한다. 유형이 매우 다른 선수여도 유사하다고 평가할 수 있다. Affinity는 최근 데이터를 기반으로 정확한 투구 및 타격 스타일을 분석하나 특정 포지션 선수, 예전 선수들의 데이터와의 비교가 어려워 타자에 대한 분석에서 한계가 있다.
이번 칼럼에서는 두 방식의 단점을 보완해 선수의 유사도를 측정할 수 있는 유클리드 거리를 활용하는 방법을 소개하고자 한다.
유클리드 거리와 선수 유사도 평가
유클리드 거리는 두 점 사이의 직선거리를 나타내며 주로 연속형 변수 간의 차이를 분석하는 데 사용되는 거리 측정 방법이다. 두 점을 가장 짧은 거리로 연결하여 거리를 측정하는데, 선수 간의 유사성을 평가할 때 유용하게 활용된다. 아래 계산식은 A 선수와 B 선수의 평균자책점과 FIP의 유클리드 거리를 사용해 계산하는 방법이다.
√((A 선수 평균자책점- B 선수 평균자책점)² + (A 선수 FIP- B 선수 FIP)²)
유클리드 거리는 해당 요소 간의 차이를 제곱한 후 더한 값에 제곱근을 취한 값이다. 2차원 이상의 다차원 데이터 간의 거리 측정에도 사용된다.
분석을 진행하기 전에 두 가지 방법을 사용해 데이터를 조정했다. 첫 번째 방법은 표준화다. 이를 통해 데이터를 평균이 0이고 표준 편차가 1인 표준정규분포로 변환했다. 예를 들어 타율은 0에서 1의 범위를 가지지만, wRC+는 범위가 무한대다. wRC+의 0.1 차이는 의미가 없지만, 타율의 0.1 차이는 1할 차이기 때문에 측정에 영향을 미친다. 따라서 데이터를 표준화하여 동일한 스케일로 비교하는 것이 중요하다.
두 번째 방법은 가중치 부여다. 분석하고자 하는 포지션에 따라 연관성이 높은 포지션에는 낮은 가중치를, 연관성이 낮은 포지션에는 높은 가중치를 부여했다. 이는 포지션 간의 연관성과 난이도 차이를 고려하기 위한 조치다.
선수 데이터는 1982년부터 2023년까지의 범위에서 타자는 20타석 이상, 투수는 20이닝 이상 등판한 선수들의 정보를 수집했다. 타자 데이터에는 9개의 변수가, 투수 데이터에는 11개의 변수가 활용되어 유사도를 측정했다.
유사도 분석의 대상은 투수와 타자 각각 한 명으로 설정했다. 이번 분석에서는 2023년 기준 스탯티즈 투타 WAR 1위를 차지한 에릭 페디와 노시환 선수 성적의 유사성을 평가하고자 한다.
페디와 가장 유사한 투수는 누구인가?
투수 유사도 분석에는 총 11개의 지표를 사용했다. 사용된 지표는 ERA, FIP, ERA+, FIP+, BABIP, K/9, BB/9, K/BB, K%, BB%, K-BB% 등으로 구성됐다. 승·패와 같은 누적 기록이 아닌 비율 지표로 이루어져 있다. 또한, 투수의 경우 이닝을 기준으로 유사도를 계산했다. 이닝은 선수들을 비교하는 기준으로 사용되며, 이 과정에서 우완 투수와 좌완 투수 간에도 구분하여 유사도를 측정한다.
유사도 점수가 낮게 나올수록 두 선수의 거리가 가까우며, 비교 대상인 페디와 유사한 성적을 보이는 선수를 찾아냈다. 페디와 가장 유사한 성적을 기록한 선수는 2022년의 안우진(2.170)이다.
< 페디 유클리드 거리 순위 >
페디와 안우진의 성적 비교에서 두 선수의 평균자책점(ERA) 및 BABIP 관련 지표는 놀랍도록 유사한 양상을 보인다. 두 선수가 타자의 안타를 효과적으로 억제하고 리그에서 뛴 시즌 동안 안정적인 성과를 보였음을 시사한다.
< 페디와 유사한 선수들의 투구 지표 1 >
페디와 안우진의 탈삼진 지표 역시 눈에 띄게 유사하다. 특히 K/9가 10을 넘어가고 K%도 29%대로 동일한 범위에 있다. 이는 두 선수가 상대 타자를 주로 탈삼진으로 아웃카운트를 잡았다는 것을 알 수 있다.
반면 페디의 볼넷 관련 지표는 린드블럼과 알칸타라와 유사하지만, 전반적인 성적과 다른 지표들을 고려하면 페디와 안우진의 성적이 매우 유사함을 확인할 수 있다. 이러한 유사성은 두 선수가 투구 능력과 효율성 측면에서 매우 비슷한 양상을 보인다는 것을 강조한다.
< 페디와 유사한 선수들의 투구 지표 2 >
페디와 유사한 선수 상위 5명은 2011년부터 2023년까지의 활약한 투수 중에서 WAR 15위권 내에 들어가는 정상급 투수들이다. 그중에서 린드블럼과 윤석민 선수 해당 연도의 MVP를 수상한 선수다. 이는 페디와 유사한 성적을 기록한 선수들이 우수한 능력을 갖춘 선수들이라는 것을 강조한다.
노시환과 가장 유사한 타자는 누구인가?
타자 유사도 분석에는 총 9개의 지표가 활용되었다. 타자의 타율, 출루율, 장타율, wOBA, wRC+, K%, BB%, BB/K, 그리고 BABIP로 모두 안타·홈런과 같이 누적되는 지표가 아닌 비율 지표다. 이를 바탕으로 만든 유클리드 거리는 타자의 상대적인 능력과 타격 생산성, 타석에서의 접근 방식을 비교한다.
타자의 경우, 비슷한 타석 수를 가진 선수들을 기준으로 유사도를 계산해 타자들을 더 공평하게 비교할 수 있다. 만약 비교 대상 선수와 포지션이 다른 경우에는 이를 고려해 가중치를 부여했다. 이러한 가중치는 비교 대상 포지션과의 연관성에 따라 변동된다.
이와 같은 분석을 통해 노시환과 가장 성적이 비슷한 선수는 2016년의 박석민임을 확인했다. 포지션 가중치를 제외하고 고려할 경우, 2위인 2012년 박병호가 노시환과 가장 유사한 성적을 기록한 것으로 나타났다.
< 노시환 유클리드 거리 순위 >
타자 유사도 분석은 타격 능력과 타석 접근 방식이 같은 포지션의 선수들과 어떻게 비교되는지 보여주며, 비슷한 타석 수를 소화한 다른 포지션의 선수와 어떻게 비교될 수 있는가 고려하는 데 도움이 된다.
전체적인 성적은 2012년 박병호와 비슷하지만, 3루수 내에서 비교한다면 2016년 박석민과 가장 비슷하다고 할 수 있다.
< 노시환과 유사한 선수들의 타격 지표 1 >
< 노시환과 유사한 선수들의 타격 지표 2 >
유사도 분석을 통해 노시환이 2022년의 부진을 극복하고 2023년 리그 최고의 타자로 성장한 것을 볼 수 있다. 그의 성적은 박석민, 최정, 박병호 등 리그를 대표하는 타자들과 유사한 시즌을 보냈다는 것을 유사도로 증명했다.
마치며
이 새로운 방식은 “어떤 선수가 누구와 비슷한 시즌을 보냈을까?”라는 질문에 대한 답변을 제공함으로써, 개별 선수의 능력과 성적을 개인의 능력 유형을 고려하여 분석한다. 이를 통해 선수 간의 유사성을 측정하고, 어떤 유형의 능력을 지닌 선수들이 비슷한 성적을 달성하는지를 더 정확하게 이해할 수 있게 될 것이다.
참조 = STATIZ, KBReport(링크)
야구공작소 김승곤 칼럼니스트
에디터 = 야구공작소 민경훈, 전언수
일러스트 = 야구공작소 이수진
ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.
댓글 남기기