단 두 줄의 코드로 불러오는 MLB 150년의 역사 – Lahman 패키지로 보는 MLB와 KBO 데이터 환경 비교

제공 : 위키미디어 공용

누구나 열람 가능한 MLB 데이터가 있습니다

우리는 빅데이터의 시대에 살고 있다. 어느덧 우리 삶 속 깊숙이 들어온 정보기술은 지구상의 모든 것을 다양한 형태의 데이터로 남기고 있다. 이제는 거의 모든 야구팬도 알고 있는 세이버메트릭스 또한 빅데이터 시대의 수혜를 입은 분야이다. 과거부터 쌓인 방대한 양의 야구 데이터는 야구를 보는 새로운 시각을 이끌었다.

그러나 빅데이터를 다루기 위해서는 전문적인 지식을 갖출 필요가 있다. 가공되지 않은 날 것의 데이터(Raw Data)를 목적에 맞게 가공하여 활용하는 것은 아무나 할 수 있는 일이 아니다. 여러 스포츠 분야 중 데이터 활용 방법론이 가장 발달한 야구 또한 예외가 아니다. 이미 누군가가 대신 가공하여 공개한 정형 데이터(Structured Data)가 아닌 이상 일반인이 야구 데이터를 직접 분석해보기란 불가능에 가깝다.

더군다나 날것의 데이터조차 주어지지 않았다면 문제는 한층 심각해진다. 이것을 요리에 비유하면, 날것의 데이터를 정형 데이터로 가공하는 것이 재료 손질에 해당할 것이다. 그리고 날것의 데이터 부재는 연습을 위한 재료조차 주어지지 않은 상황이다. 요리를 배우기 위해 음식 재료가 필요하듯 빅데이터 세상에서는 크롤링 기술을 통해 데이터를 수집하는 능력 또한 필요하다.

하지만 미국은 야구 역사가 제일 깊음에도 불구하고 위의 문제에서 자유롭다. 놀랍게도 일반인 누구나 150년 역사가 담긴 MLB 데이터를 간단하게 요리할 방법이 있다. 날것의 데이터를 직접 크롤링할 필요도, 정형 데이터로 가공할 필요도 없는 방법이 있다.

Lahman 패키지

Lahman package description

출처 : https://cran.r-project.org/web/packages/Lahman/Lahman.pdf

Lahman database(이하 라만 패키지)의 원작자인 Sean Lahman은 미국의 기자, 작가이다. 그리고 오랜 기간 누구나 접근할 수 있는 오픈소스 데이터베이스의 중요성에 대해서 설파했던 데이터 전문가이다. 오늘 소개할 라만 패키지 또한 이러한 그의 사상이 반영된 결과물이다. 1995년부터 오픈소스 형태로 가공한 MLB 데이터를 대중에게 공개하기 시작해 지금까지 이르렀다. 라만 패키지가 1871년 이후의 데이터를 담고 있으니, 150여 년의 MLB 역사가 담긴 셈이다(2022년 4월 기준 2021시즌 제공 중).

라만 패키지는 Microsoft Access, SQL, R 등 여러 플랫폼에서 다운로드가 가능하다. 이중 진입 난이도가 비교적 낮은 프로그래밍 언어인 R에서 특히 많은 다운로드 횟수를 기록하고 있다. 라만 패키지의 뛰어난 접근성은 R의 뛰어난 데이터 시각화 기능과 더불어 R 환경에서의 야구 데이터 분석이 널리 활용되도록 도왔다.

라만 패키지 불러오기

(주황색 글씨가 라만 패키지 다운로드를 위한 코드의 전부)

글의 제목처럼, R 환경에 라만 패키지를 불러오기 위해서는 딱 두 줄의 코드면 충분하다. 첫 번째 코드는 온라인상의 MLB 데이터를 컴퓨터에 다운로드한다. 두 번째 코드는 이미 컴퓨터에 다운로드된 데이터를 코딩 환경에 불러오는 역할을 한다.

(각각 타격, 투구 성적 열람 코드. 데이터 종류만 입력하면 된다)

다운로드를 완료했다면 열람을 원하는 종류의 데이터 제목을 코드 한 줄만 추가 입력하는 것으로 데이터 확인이 끝난다. 라만 패키지는 가장 익숙한 타격, 투구 관련 1차 스탯 이외에도 다양한 정보를 담고 있다. 여기에는 포스트시즌 성적, 시즌별 수상 기록 및 수상 득표수, 명예의 전당 득표수, 올스타 선수, 감독과 코치진 정보, 선수별 학력 사항 등이 있다. 이쯤 되면 대중들이 관심을 가질 만한 거의 모든 종류의 MLB 관련 정보들이 담겨있다고 볼 수 있다.

물론 방대한 양의 데이터에서 특정 시즌의 특정 정보만을 추출하기 위해서는 추가적인 코드가 필요하다. 당연히 이러한 작업을 수행하기 위해서는 데이터 전처리 작업에 대한 기초적인 이해가 필요하다. 그러나 야구 데이터에 관심을 가지는 사람들 다수가 데이터 접근 문턱에서부터 어려움을 겪는다는 것을 생각해보자. 정형 데이터에 대한 뛰어난 접근성이 갖는 장점 하나만으로도 라만 패키지의 위력을 실감할 수 있다.

높은 접근성의 순기능

이렇게 손쉬운 데이터 열람 방식은 코딩에 익숙하지 않은 초심자에게 MLB 데이터의 접근성을 크게 높여주었다. 과거 일반 대중에게 야구 데이터 분석이란 많은 지식을 갖춘 사람이 복잡한 작업을 통해 수행하는 일 정도로 여겨졌다. 하지만 라만 패키지의 존재는 MLB 데이터에 누구나 쉽게 접근하여 다양한 분석을 “집에서 직접” 수행해 볼 수 있는 길을 열어주었다.

코딩을 배우고 데이터 분석을 학습하는 이에게 라만 패키지는 상당히 유명하다. 새롭게 열린 빅데이터 시대에서 코딩 능력은 통계학도들에게 필수 교양과도 마찬가지다. 코딩을 배우는 이들에게 정형 데이터이자 방대한 양을 자랑하는 라만 패키지는 실습 측면에서 아주 유용하게 사용될 수 있다. 교수자들 또한 굳이 번거롭게 실습 데이터를 가공하여 학생들에게 일일이 배포할 필요가 없으니 라만 패키지는 더더욱 사랑받을 수밖에 없다.

(라만 패키지를 다루는 “introduction to data science” 표지)

실제 라만 패키지는 데이터 과학 학습 관련 유명 서적에 수록되면서 다운로드 횟수가 크게 증가했다. 이제는 간단한 구글링을 통해서도 라만 패키지를 활용한 다양한 분석 사례들을 찾아볼 수 있다. 야구 데이터를 접하는 이들이 많아질수록 야구 데이터를 활용한 분석의 깊이와 다양성은 크게 진보할 수밖에 없다.

KBO는, 갈길이 멉니다.

그렇다면 한국 프로야구 데이터의 경우는 어떨까? 결론부터 말하자면 초심자가 KBO 데이터를 손쉽게 얻을 방법은 없다. 물론 데이터 열람 자체는 스탯티즈나 KBReport 사이트 방문으로 해결된다. 그러나 데이터 분석 초심자가 KBO 데이터를 직접 가공하고 분석하는 경우에는 말이 달라진다. 라만 패키지의 최대 장점인 야구 데이터의 ‘높은 접근성’은 한국 야구에 존재하지 않는다. 데이터를 직접 불러오기 위해서 웹 크롤링과 일정 수준 이상의 데이터 전처리 지식이 필수적이다. 게다가 KBO 데이터를 취득하는 방식 대부분이 특정 사이트의 데이터를 크롤링하는 과정으로 이루어지므로 때에 따라서는 관련 업체와의 법적 문제가 생길 소지가 다분하다.

(MLB 데이터를 위한 코드는 단 두 줄이지만, KBO의 경우 최소 수십 배이다.)

단순한 타격 및 투구 기록을 구하는 과정에도 어려움이 가득하지만, 최근 주목받는 트래킹 데이터의 경우 더 큰 어려움이 존재한다. 대표적으로 MLB의 경우 Baseball Savant에서 MLB 30개 구단의 트래킹 데이터를 대중에 공개하고 있다. 단순히 공개하는 것을 넘어, 직접 원하는 트래킹 데이터를 CSV 형식의 파일로 다운받는 기능을 지원하고 있다. MLB는 트래킹 데이터 또한 사실상 오픈소스 형태로 배포 중이다.

그러나 KBO의 경우 트래킹 데이터 다운로드는 고사하고 일반 대중들이 열람할 방법조차 없다. 과거 KBO 트래킹 데이터의 일부를 공개하던 “레전드닷컴”은 불과 수개월 전 폐쇄되었다. 심지어 현재 KBO에는 MLB와 같은 공식 트래킹 시스템이 존재하지 않는다. 트래킹 데이터를 필요로 하는 각 구단과 방송사들은 개별적으로 관련 업체에 상당한 비용을 지불하고 있다. 결국 일반 대중들이 트래킹 데이터를 접할 기회는 방송 중계를 통해 송출되는 타구&투구 추적 정보가 전부다.

KBO 데이터 분석의 발전을 꿈꾸며

빅데이터 분야가 크게 떠오르는 결정적인 계기를 논할 때 오픈소스 데이터의 증가를 빼놓을 수 없다. 우리나라 정부와 지자체가 앞장서서 공공데이터 포털을 만들고 각종 데이터를 대중에게 조건 없이 공개하는 이유가 바로 여기에 있다. 야구 통계 분야의 발전 또한 각종 야구 데이터에 대한 높은 접근성 확보가 필수 요건이다. 그러나 트래킹 데이터는 고사하고 기초적인 경기 기록지 데이터조차 수월한 확보가 어렵다면 KBO 환경에서 야구 통계의 발전을 꿈꾸는 것은 사치이다.

앞서 빅데이터 분야를 설명할 때 사용한 요리에 대한 비유를 한 번 더 상기해보자. MLB 데이터는 모든 사람들을 위해 정갈하게 준비되어 아낌없이 제공되고 있다. 요리 공부를 희망하는 이들에게 MLB 데이터는 훌륭한 연습 재료가 된다. 그러나 KBO 데이터의 경우 손질되기는커녕 찾아보기도 어려운 실정이다. 한때는 일부나마 공개되었던 한줌의 데이터조차 이제는 더욱 깊은 창고 속에 꼭꼭 숨겨지고 있다. 아무리 좋은 재료라도 쓰임 없이 묵혀만 둔다면 천천히 썩어간다는 점에서 음식 재료와 데이터는 공통점을 가진다. 과연 이런 환경에서 훌륭한 요리사가 탄생할 수 있을까.

최근 KBO 사무국은 각 구단이 개별적으로 운영하는 트래킹 시스템을 통합하는 방안을 논의하고 있다. 이번 정책이 단순히 KBO 데이터를 통합하는 데 그치지 않고 대중에게도 공개되어 우리나라 야구 통계 분야 발전의 신기원이 되기를 바란다. 언제까지 미국 야구의 꽁무니만 뒤따라갈 수는 없지 않겠는가.

 

야구공작소 민경훈 칼럼니스트

에디터 = 야구공작소 홍기훈, 박주현

ⓒ야구공작소. 출처 표기 없는 무단 전재 및 재배포를 금합니다. 상업적 사용은 별도 문의 바랍니다.

Be the first to comment

댓글 남기기