Histogramas para Múltiples Variables Continuas.

Una de las actividades más importantes a la hora de trabajar en proyectos de Machine Learning y Data Science es aquella relacionada con el análisis de las variables continuas de un dataset. A razón de esto, el presente post describe las actividades llevadas a cabo por  un conjunto de funciones que, asociadas, generan un histograma y una colección de estadísticas básicas para los atributos especificados de un dataset.

La función f_normalizar escala todos los atributos numéricos que se le argumenten y los guarda en un data.frame.

Por su parte, la función f_computos calcula la media, mediana y moda para cada uno de los atributos que se le especifiquen y al gual que la función f_normalizar, los almacena en un data.frame.

Más aún, la función f_transformar redimensiona los data.frames formulados por la funciones f_normalizar y f_computos por medio del paquete reshape2 a un formato apropiado para graficarlos por la función ggplot2. Ambos data.frames redimensionados son alojados en una sola lista, esto con el objetivo de guarecer todos los datos a graficar en un único objeto.

Por otro lado, el código en f_generarGrafica genera la gráfica objetivo  y la almacena como una lista. Para concluir, la función f_crearHistograma tan sólo vincula las funciones explicadas a lo largo de este texto y guarda tanto la gráfica como los datos graficados en una lista.

El histograma computado puede verse en la siguiente imagen:

Rplot

El código completo puede ser descargado desde aquí.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s