Gameday: Adiós a los XML’s !

Durante los últimos meses los archivos XML han sufrido cambios drásticos: Se retiraron los corredores de los nodos de picheos, se modificaron los id’s de los jugadores en los nodos de acciones e incluso se alteraron los id’s de todos los eventos. Más aún, la MLB dejó de dar soporte a estos ficheros.

Para alguien que ha trabajado durante los últimos 3 años ( y reportado errores )  sobre este data set, puedo decir que su decaimiento en los últimos meses me entristece, sobre todo por los problemas que por falta de tiempo jamás pude resolver y por el sitio web que nunca pude terminar:

 

Por otro lado, todo el trabajo que realicé en mis tiempos libres sobre esta plataforma aún sigue siendo de utilidad. La información de la que dispongo para las ligas Mexicanas todavía es útil para evaluar jugadores y tendencias de juego. Porcierto, debo mencionar que mi banco de datos es en gran parte útil debido al Dr. Anton Dahbura de la Universidad John Hopkins y a los análisis que solicitaba en la época en la que apoyó a los Charros de Jalisco. Sus preguntas no fueron fáciles de resolver, pero cada una de ellas robusteció mi banco de datos y me permitió emplearlo a problemas que un equipo realmente deseaba resolver. Y aunque finalmente no ganamos el campeonato, nuestro trabajo no pasó desapercibido: parte de los esfuerzos del Dr. fueron documentados en el New York Times.

Dejando a un lado mi primer experiencia laboral en béisbol y volviendo a los XML’s debo confesar que el descargar, limpiar y alimentar una base de datos a partir de estos ficheros fue además de divertido, una experiencia horrible que mi mente puede resumir en tres cosas: Datos plagados de errores ( o viceversa ), sitios caídos por días y poca documentación acerca de los datos arraigados en los archivos.

La buenas noticia es que ahora los datos también están estructurados en formato JSON y lo mucho o poco que los he analizado me han gustado: Los ficheros son más fáciles de parsear, los datos están mejor estructurados ( desde el punto de vista computacional ), la información acerca de los jugadores, equipos y estadios es consistente y al fin la MLB provee más información acerca de la zona de strike de los bateadores.

Si bien algunos problemas son aún difíciles de responder( ej. corredores en base por cada pitcheo ), en general considero  que la nueva estructura es mejor que la anterior. De manera contraria, la única ventaja que he notado ( en este contexto ) del XML sobre el JSON es que el primero es más fácil de leer para el ojo humano. En el siguiente post explicaré como resolví la primera dificultad que tuve con la nueva API. Sólo puedo decir que fue divertido :)!

PD: También pienso retomar los posts acerca de la zona de strike.

Fly the W !

Anuncio publicitario

Deja un comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s