Capítulo 20 Introducción al wrangling de datos
Los sets de datos utilizados en este libro se han puesto a su disposición como objetos R, específicamente como data frames. Los datos de asesinatos de EE. UU., los datos reportados de alturas y los datos de Gapminder son todos data frames. Estos sets de datos vienen incluidos en el paquete dslabs y los cargamos usando la función data
. Además, hemos puesto a disposición los datos en formato tidy
. Los paquetes y las funciones de tidyverse suponen que los datos son tidy
y esta suposición es una gran parte de la razón por la que estos paquetes funcionan tan bien juntos.
Sin embargo, es bien raro que en un proyecto de ciencia de datos haya datos fácilmente disponibles como parte de un paquete. Hicimos un buen trabajo “tras bastidores” para convertir los datos originales en las tablas tidy con que trabajamos. Mucho más común es que los datos estén en un archivo, una base de datos o extraídos de un documento, incluyendo páginas web, tuits o PDF. En estos casos, el primer paso es importar los datos a R y, cuando estemos usando tidyverse, ordenar los datos. Este paso inicial en el proceso de análisis de datos generalmente implica varios pasos, a menudo complicados, para convertir datos al formato tidy que facilita enormemente el resto del análisis. Nos referimos a este proceso como wrangling de datos.
Aquí cubrimos varios pasos comunes del proceso del wrangling de datos, incluyendo cómo convertir los datos en formato tidy, procesar cadenas, leer y procesar (parse en inglés) HTML, trabajar con fechas y horas y, finalmente, mineria de textos (text mining en inglés). Raras veces se necesita hacer todos estos pasos de wrangling en un solo análisis, pero los científicos de datos probablemente enfrentarán a todos en algún momento. Algunos de los ejemplos que utilizamos para demostrar las técnicas del wrangling de datos se basan en el trabajo que hicimos para convertir datos sin procesar en los sets de datos tidy ofrecidos por el paquete dslabs y utilizados en el libro como ejemplos.