본문으로 건너뛰기
-
야구를 다르게 보는 시선, 계속 업데이트됩니다.
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
닫기

검색

야구공작소 야구공작소 야구공작소

YAGONGSO

  • 홈
  • About
  • MLB
  • KBO
  • 세이버메트릭스
  • Best of Yagongso
야구공작소 야구공작소 야구공작소

YAGONGSO

  • 인스타
  • 유튜브
  • 팟캐스트
KBOMLB세이버메트릭스

단 두 줄의 코드로 불러오는 MLB 150년의 역사 – Lahman 패키지로 보는 MLB와 KBO 데이터 환경 비교

By 민경훈
2022년 5월 13일 5 Min Read
0

제공 : 위키미디어 공용

누구나 열람 가능한 MLB 데이터가 있습니다

우리는 빅데이터의 시대에 살고 있다. 어느덧 우리 삶 속 깊숙이 들어온 정보기술은 지구상의 모든 것을 다양한 형태의 데이터로 남기고 있다. 이제는 거의 모든 야구팬도 알고 있는 세이버메트릭스 또한 빅데이터 시대의 수혜를 입은 분야이다. 과거부터 쌓인 방대한 양의 야구 데이터는 야구를 보는 새로운 시각을 이끌었다.

그러나 빅데이터를 다루기 위해서는 전문적인 지식을 갖출 필요가 있다. 가공되지 않은 날 것의 데이터(Raw Data)를 목적에 맞게 가공하여 활용하는 것은 아무나 할 수 있는 일이 아니다. 여러 스포츠 분야 중 데이터 활용 방법론이 가장 발달한 야구 또한 예외가 아니다. 이미 누군가가 대신 가공하여 공개한 정형 데이터(Structured Data)가 아닌 이상 일반인이 야구 데이터를 직접 분석해보기란 불가능에 가깝다.

더군다나 날것의 데이터조차 주어지지 않았다면 문제는 한층 심각해진다. 이것을 요리에 비유하면, 날것의 데이터를 정형 데이터로 가공하는 것이 재료 손질에 해당할 것이다. 그리고 날것의 데이터 부재는 연습을 위한 재료조차 주어지지 않은 상황이다. 요리를 배우기 위해 음식 재료가 필요하듯 빅데이터 세상에서는 크롤링 기술을 통해 데이터를 수집하는 능력 또한 필요하다.

하지만 미국은 야구 역사가 제일 깊음에도 불구하고 위의 문제에서 자유롭다. 놀랍게도 일반인 누구나 150년 역사가 담긴 MLB 데이터를 간단하게 요리할 방법이 있다. 날것의 데이터를 직접 크롤링할 필요도, 정형 데이터로 가공할 필요도 없는 방법이 있다.

Lahman 패키지

Lahman package description

출처 : https://cran.r-project.org/web/packages/Lahman/Lahman.pdf

Lahman database(이하 라만 패키지)의 원작자인 Sean Lahman은 미국의 기자, 작가이다. 그리고 오랜 기간 누구나 접근할 수 있는 오픈소스 데이터베이스의 중요성에 대해서 설파했던 데이터 전문가이다. 오늘 소개할 라만 패키지 또한 이러한 그의 사상이 반영된 결과물이다. 1995년부터 오픈소스 형태로 가공한 MLB 데이터를 대중에게 공개하기 시작해 지금까지 이르렀다. 라만 패키지가 1871년 이후의 데이터를 담고 있으니, 150여 년의 MLB 역사가 담긴 셈이다(2022년 4월 기준 2021시즌 제공 중).

라만 패키지는 Microsoft Access, SQL, R 등 여러 플랫폼에서 다운로드가 가능하다. 이중 진입 난이도가 비교적 낮은 프로그래밍 언어인 R에서 특히 많은 다운로드 횟수를 기록하고 있다. 라만 패키지의 뛰어난 접근성은 R의 뛰어난 데이터 시각화 기능과 더불어 R 환경에서의 야구 데이터 분석이 널리 활용되도록 도왔다.

라만 패키지 불러오기

(주황색 글씨가 라만 패키지 다운로드를 위한 코드의 전부)

글의 제목처럼, R 환경에 라만 패키지를 불러오기 위해서는 딱 두 줄의 코드면 충분하다. 첫 번째 코드는 온라인상의 MLB 데이터를 컴퓨터에 다운로드한다. 두 번째 코드는 이미 컴퓨터에 다운로드된 데이터를 코딩 환경에 불러오는 역할을 한다.

(각각 타격, 투구 성적 열람 코드. 데이터 종류만 입력하면 된다)

다운로드를 완료했다면 열람을 원하는 종류의 데이터 제목을 코드 한 줄만 추가 입력하는 것으로 데이터 확인이 끝난다. 라만 패키지는 가장 익숙한 타격, 투구 관련 1차 스탯 이외에도 다양한 정보를 담고 있다. 여기에는 포스트시즌 성적, 시즌별 수상 기록 및 수상 득표수, 명예의 전당 득표수, 올스타 선수, 감독과 코치진 정보, 선수별 학력 사항 등이 있다. 이쯤 되면 대중들이 관심을 가질 만한 거의 모든 종류의 MLB 관련 정보들이 담겨있다고 볼 수 있다.

물론 방대한 양의 데이터에서 특정 시즌의 특정 정보만을 추출하기 위해서는 추가적인 코드가 필요하다. 당연히 이러한 작업을 수행하기 위해서는 데이터 전처리 작업에 대한 기초적인 이해가 필요하다. 그러나 야구 데이터에 관심을 가지는 사람들 다수가 데이터 접근 문턱에서부터 어려움을 겪는다는 것을 생각해보자. 정형 데이터에 대한 뛰어난 접근성이 갖는 장점 하나만으로도 라만 패키지의 위력을 실감할 수 있다.

높은 접근성의 순기능

이렇게 손쉬운 데이터 열람 방식은 코딩에 익숙하지 않은 초심자에게 MLB 데이터의 접근성을 크게 높여주었다. 과거 일반 대중에게 야구 데이터 분석이란 많은 지식을 갖춘 사람이 복잡한 작업을 통해 수행하는 일 정도로 여겨졌다. 하지만 라만 패키지의 존재는 MLB 데이터에 누구나 쉽게 접근하여 다양한 분석을 “집에서 직접” 수행해 볼 수 있는 길을 열어주었다.

코딩을 배우고 데이터 분석을 학습하는 이에게 라만 패키지는 상당히 유명하다. 새롭게 열린 빅데이터 시대에서 코딩 능력은 통계학도들에게 필수 교양과도 마찬가지다. 코딩을 배우는 이들에게 정형 데이터이자 방대한 양을 자랑하는 라만 패키지는 실습 측면에서 아주 유용하게 사용될 수 있다. 교수자들 또한 굳이 번거롭게 실습 데이터를 가공하여 학생들에게 일일이 배포할 필요가 없으니 라만 패키지는 더더욱 사랑받을 수밖에 없다.

(라만 패키지를 다루는 “introduction to data science” 표지)

실제 라만 패키지는 데이터 과학 학습 관련 유명 서적에 수록되면서 다운로드 횟수가 크게 증가했다. 이제는 간단한 구글링을 통해서도 라만 패키지를 활용한 다양한 분석 사례들을 찾아볼 수 있다. 야구 데이터를 접하는 이들이 많아질수록 야구 데이터를 활용한 분석의 깊이와 다양성은 크게 진보할 수밖에 없다.

KBO는, 갈길이 멉니다.

그렇다면 한국 프로야구 데이터의 경우는 어떨까? 결론부터 말하자면 초심자가 KBO 데이터를 손쉽게 얻을 방법은 없다. 물론 데이터 열람 자체는 스탯티즈나 KBReport 사이트 방문으로 해결된다. 그러나 데이터 분석 초심자가 KBO 데이터를 직접 가공하고 분석하는 경우에는 말이 달라진다. 라만 패키지의 최대 장점인 야구 데이터의 ‘높은 접근성’은 한국 야구에 존재하지 않는다. 데이터를 직접 불러오기 위해서 웹 크롤링과 일정 수준 이상의 데이터 전처리 지식이 필수적이다. 게다가 KBO 데이터를 취득하는 방식 대부분이 특정 사이트의 데이터를 크롤링하는 과정으로 이루어지므로 때에 따라서는 관련 업체와의 법적 문제가 생길 소지가 다분하다.

(MLB 데이터를 위한 코드는 단 두 줄이지만, KBO의 경우 최소 수십 배이다.)

단순한 타격 및 투구 기록을 구하는 과정에도 어려움이 가득하지만, 최근 주목받는 트래킹 데이터의 경우 더 큰 어려움이 존재한다. 대표적으로 MLB의 경우 Baseball Savant에서 MLB 30개 구단의 트래킹 데이터를 대중에 공개하고 있다. 단순히 공개하는 것을 넘어, 직접 원하는 트래킹 데이터를 CSV 형식의 파일로 다운받는 기능을 지원하고 있다. MLB는 트래킹 데이터 또한 사실상 오픈소스 형태로 배포 중이다.

그러나 KBO의 경우 트래킹 데이터 다운로드는 고사하고 일반 대중들이 열람할 방법조차 없다. 과거 KBO 트래킹 데이터의 일부를 공개하던 “레전드닷컴”은 불과 수개월 전 폐쇄되었다. 심지어 현재 KBO에는 MLB와 같은 공식 트래킹 시스템이 존재하지 않는다. 트래킹 데이터를 필요로 하는 각 구단과 방송사들은 개별적으로 관련 업체에 상당한 비용을 지불하고 있다. 결국 일반 대중들이 트래킹 데이터를 접할 기회는 방송 중계를 통해 송출되는 타구&투구 추적 정보가 전부다.

KBO 데이터 분석의 발전을 꿈꾸며

빅데이터 분야가 크게 떠오르는 결정적인 계기를 논할 때 오픈소스 데이터의 증가를 빼놓을 수 없다. 우리나라 정부와 지자체가 앞장서서 공공데이터 포털을 만들고 각종 데이터를 대중에게 조건 없이 공개하는 이유가 바로 여기에 있다. 야구 통계 분야의 발전 또한 각종 야구 데이터에 대한 높은 접근성 확보가 필수 요건이다. 그러나 트래킹 데이터는 고사하고 기초적인 경기 기록지 데이터조차 수월한 확보가 어렵다면 KBO 환경에서 야구 통계의 발전을 꿈꾸는 것은 사치이다.

앞서 빅데이터 분야를 설명할 때 사용한 요리에 대한 비유를 한 번 더 상기해보자. MLB 데이터는 모든 사람들을 위해 정갈하게 준비되어 아낌없이 제공되고 있다. 요리 공부를 희망하는 이들에게 MLB 데이터는 훌륭한 연습 재료가 된다. 그러나 KBO 데이터의 경우 손질되기는커녕 찾아보기도 어려운 실정이다. 한때는 일부나마 공개되었던 한줌의 데이터조차 이제는 더욱 깊은 창고 속에 꼭꼭 숨겨지고 있다. 아무리 좋은 재료라도 쓰임 없이 묵혀만 둔다면 천천히 썩어간다는 점에서 음식 재료와 데이터는 공통점을 가진다. 과연 이런 환경에서 훌륭한 요리사가 탄생할 수 있을까.

최근 KBO 사무국은 각 구단이 개별적으로 운영하는 트래킹 시스템을 통합하는 방안을 논의하고 있다. 이번 정책이 단순히 KBO 데이터를 통합하는 데 그치지 않고 대중에게도 공개되어 우리나라 야구 통계 분야 발전의 신기원이 되기를 바란다. 언제까지 미국 야구의 꽁무니만 뒤따라갈 수는 없지 않겠는가.

 

야구공작소 민경훈 칼럼니스트

에디터 = 야구공작소 홍기훈, 박주현

ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

이 글 공유하기:

  • Facebook으로 공유하기 (새 창에서 열림) Facebook
  • X에 공유 (새 창에서 열림) X

이것이 좋아요:

좋아하기 로드 중...
작성자

민경훈

Follow Me
다른 기사
Previous

2022 KBO리그 외국인 선수 스카우팅 리포트 – LG 트윈스 리오 루이즈

Tauchman_Referee
Next

심판도 해설자도 모르는 규칙, 심판들의 룰 숙지가 심각하다

댓글 없음! 첫 댓글을 남겨보세요.

댓글 남기기응답 취소

  • Best of Yagongso

    [BOY] The Best of Yagongso, March/April [3, 4월의 칼럼]

    ›
  • MLB

    무라카미 무네타카의 도박은 성공할 수 있을까

    ›
  • MLB

    소토의 빈자리는 채워져도, 오타니의 빈자리는 채울 수 없다

    ›
  • KBO

    수다쟁이 계약서 안에는 어떤 진실이

    ›
  • KBO

    정말 어깨는 쓸수록 약해질까?

    ›
  • MLB

    피안타율 0.045 체인지업은 왜 최악의 구종일까

    ›
  • 아마야구

    스카우트가 들려주는 진짜 스카우트 이야기②

    ›
  • MLB

    투수를 복사하는 피칭머신: 트라젝트 아크

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 – 키움 히어로즈 케스턴 히우라

    ›
  • MLB

    투수의 DNA : Supinator vs Pronator

    ›
  • KBO

    2026 KBO리그 외국인 선수 스카우팅 리포트 - LG 트윈스 약셀 리오스

    ›

YOUTUBE

PODCAST

INSTAGRAM

yagongso

[야구공작소 인포그래픽] 롯데 자이언츠 전민재의 올 시즌 8개의 홈런은 경기 흐름을 바꾸는 [야구공작소 인포그래픽] 롯데 자이언츠 전민재의 올 시즌 8개의 홈런은 경기 흐름을 바꾸는 장면에서 나왔습니다. 동점과 역전, 선취점과 추가점까지 필요할 때마다 영양가 있는 중요한 한 방을 기록했으며, 특히 7번째 홈런은 팀을 단숨에 앞서게 만든 데뷔 첫 만루홈런이었습니다.

올 시즌 전민재는 공격과 수비에서 모두 준수한 활약을 보여줬던 마차도에 버금가는 시즌을 만들어가고 있습니다. 현재의 홈런 페이스가 이어진다면 시즌 14홈런도 기대할 수 있으며 이는 2020년 딕슨 마차도가 기록한 롯데 유격수 한 시즌 최다 홈런 12개를 넘어설 수 있는 수치입니다.

전민재가 남은 시즌에도 지금의 흐름을 이어가 롯데 역대 유격수 반열에 오를 시즌을 완성할 수 있을지 주목됩니다.

제작: 야구공작소 박경진

#KBO #야구 #야구공작소 #롯데 #전민재
[야구공작소 인포그래픽] 다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다. • 구 [야구공작소 인포그래픽] 
다음은 오스틴이 LG 트윈스에서 새롭게 쓴 기록입니다.

• 구단 최초 외국인 선수 골든글러브 수상 (2023)
• 구단 최초 30홈런-100타점, 구단 최초 타점왕(2024)
• 구단 최초 2년 연속 30홈런(2024-2025)

그리고 2026년 6월 2일, 수원 KT전에서 외국인 타자 9번째, LG 소속 선수 9번째로 통산 100홈런을 달성했습니다.

#야구공작소 #야구 #KBO #LG트윈스 #오스틴
[야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 [야구공작소 인포그래픽] 두산 베어스가 이틀 연속 역전 만루홈런이라는 믿기 힘든 드라마를 써냈습니다. 5월 29일 강승호가 9회초 역전 만루홈런을 터뜨린 데 이어, 다음날인 30일에는 정수빈이 6회초 역전 만루홈런을 쏘아 올리며 팀 승리를 이끌었습니다. KBO 역사상 두 번째로 나온 ’2경기 연속 역전 만루홈런‘ 입니다.

흥미로운 점은 종전 기록과 이번 기록 모두 상대가 삼성 라이온즈였다는 것입니다. 2002년 롯데의 박정태와 김응국이 삼성을 상대로 같은 기록을 세운 이후 24년 만에 다시 삼성을 상대로 역사가 반복됐습니다. 삼성 입장에서는 아쉬운 기록이 추가됐고, 두산은 짜릿한 역전극으로 위닝시리즈까지 확보하는 데 성공했습니다.

순위 경쟁이 치열한 지금, 한 경기의 흐름을 뒤집는 홈런 한 방은 그 이상의 의미를 가집니다. 이틀 연속 터진 역전 만루홈런은 단순한 기록을 넘어 두산의 저력과 집중력을 보여준 장면이었습니다. 과연 이 기세가 앞으로의 순위 경쟁에서도 이어질 수 있을지 기대가 됩니다.

제작: 야구공작소 김은빈

#KBO #두산베어스 #삼성라이온즈 #만루홈런 #야구
[야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영 [야구공작소 인포그래픽] KIA 타이거즈가 새로운 아시아 쿼터 선수로 시라카와 게이쇼를 영입했습니다.

지난 26일 기존 아시아 쿼터 선수 제리드 데일과 결별한 뒤 빠르게 대체 자원을 찾았는데요. 시라카와는 2024시즌 SSG 랜더스에서 5경기 2승 2패 평균자책점 5.09를 기록했고, 두산 베어스에서는 7경기 2승 3패 평균자책점 6.03을 기록했습니다.

시라카와는 29일 2군에 합류해 컨디션을 점검한 뒤, 1군 콜업 시기를 조율할 예정입니다.

#야구공작소 #KBO리그 #시라카와 #KIA타이거즈 #갸감자
제작 : 야구공작소 최은혜
[야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 [야구공작소 인포그래픽] 긴 연패에 빠진 SSG. 그 배경에는 외국인 선수들의 부진도 적지 않은 영향을 미치고 있습니다.

전체적으로 낮은 WAR 수치가 이를 보여주고 있으며, 현재 SSG의 팀 외국인 WAR는 리그 최하위권이라고 봐도 무방한 상황입니다.

특히 베니지아노, 타케다 쇼타, 대체 외국인 선수 긴지로는 마이너스 수치를 기록하며 고전하고 있습니다. 미치 화이트도 부상 전까지 1선발로 보기에는 아쉬운 성적을 남겼고, 에레디아 또한 예년과 비교하면 기대에 미치지 못하는 모습입니다.

SSG가 연패 탈출을 넘어 순위 싸움에 다시 뛰어들기 위해서는, 외국인 선수들의 반등 혹은 교체 승부수 역시 반드시 필요해보입니다.

집 나간 WAR, SSG는 다시 찾아올 수 있을까요?

제작: 야구공작소 변영아

#야구공작소 #KBO #KBO리그 #SSG랜더스
[야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 [야구공작소 인포그래픽] 2026 KBO 리그 신인왕 레이스, 5월 25일 기준 가장 눈에 띄는 루키들을 정리했습니다.

시즌 초반부터 존재감을 보여주고 있는 선수들.
마운드에서는 우강훈, 박준현, 장찬희, 임지민이 안정적인 이닝 소화와 홀드, 승리로 팀에 힘을 보태고 있고, 타석에서는 허인서가 강한 장타력과 생산력으로 신인왕 경쟁에 불을 붙이고 있습니다.

아직 시즌은 많이 남았지만,
초반 흐름만큼은 충분히 신인왕 경쟁을 뜨겁게 만들고 있습니다.

과연 2026 KBO 신인왕의 주인공은 누가 될까요?

제작: 야구공작소 박경진

#우강훈 #박준현 #허인서 #장찬희 #임지민
인스타그램 팔로우하기
Copyright 2026 — 야구공작소. All rights reserved. WPTEAM
%d