Introducción
La demanda de profesionales cualificados en ciencias de datos en la industria, la academia y el gobierno está creciendo rápidamente. Este libro presenta conceptos y destrezas que pueden ayudarles a enfrentar los desafíos del análisis de datos en situaciones reales. El texto abarca los conceptos de probabilidad, inferencia estadística, regresión lineal y machine learning. También les ayudará a desarrollar destrezas como la programación en R, el wrangling de datos, dplyr, la visualización de datos con ggplot2, la creación de algoritmos con caret, la organización de archivos con UNIX/Linux shell, el control de versiones con Git y GitHub y la preparación de documentos reproducibles con knitr y R markdown. El libro se divide en seis partes: R, Visualización de datos, Wrangling de datos, Estadísticas con R, Machine Learning y Herramientas de productividad. Cada parte tiene varios capítulos que se deben presentar como una sola clase e incluye docenas de ejercicios distribuidos a través de los capítulos.
Los casos de estudio
A lo largo del libro, utilizamos casos de estudio motivantes. En cada caso de estudio, intentamos imitar de manera realista la experiencia de los científicos de datos. Para cada uno de los conceptos que discutimos, comenzamos haciendo preguntas específicas a las que entonces respondemos mediante un análisis de datos. Aprendemos los conceptos como un medio para responder a las preguntas. Ejemplos de los casos de estudio que incluimos en este libro son:
Caso de estudio | Concepto | |
---|---|---|
Tasas de asesinatos en Estados Unidos por estado | Conceptos básicos de R | |
Alturas de estudiantes | Resúmenes estadísticos | |
Tendencias en la salud y la economía mundial | Visualización de datos | |
El impacto de las vacunas en las tasas de enfermedades infecciosas | Visualización de datos | |
La crisis financiera de 2007-2008 | Probabilidad | |
Previsión de elecciones | Inferencia estadística | |
Alturas autoreportadas de estudiantes | Wrangling de datos | |
Moneyball: Construyendo un equipo de béisbol | Regresión lineal | |
MNIST: Procesamiento de imagen de dígitos escritos a mano | Machine Learning | |
Sistemas de recomendación de películas | Machine Learning |
¿Quién encontrará útil este libro?
El próposito de este libro es servir como un texto para un primer curso de ciencia de datos. No es necesario tener conocimientos previos de R, aunque algo de experiencia en la programación puede ser útil. Los conceptos estadísticos utilizados para responder a las preguntas de los casos de estudio se presentan solo brevemente y, por lo tanto, recomendamos un libro de texto de probabilidad y estadística para los que quieran entender a fondo estos conceptos. Al leer y comprender todos los capítulos y completar todos los ejercicios, los estudiantes estarán bien posicionados para realizar tareas básicas de análisis de datos y aprender los conceptos y las destrezas más avanzadas que son necesarios para convertirse en expertos.
¿Que cubre este libro?
Comenzamos repasando los conceptos básicos de R y el tidyverse. Aprenderán R a lo largo del libro, pero en la primera parte nos dedicamos a revisar los componentes básicos necesarios para seguir aprendiendo.
La creciente disponibilidad de sets de datos informativos y de herramientas de software ha conducido a que más y más campos dependan de la visualización de datos. En la segunda parte, demostramos cómo usar ggplot2 para generar gráficos y describir principios importantes de la visualización de datos.
En la tercera parte, demostramos la importancia de las estadísticas en el análisis de datos respondiendo a preguntas de estudios de caso usando la probabilidad, la inferencia y la regresión con R.
La cuarta parte utiliza varios ejemplos para familiarizar a los lectores con el wrangling de datos. Entre las destrezas específicas que estudiamos están la extracción de la web (web scraping en inglés), el uso de expresiones regulares y la unión y el cambio de formato de tablas de datos. Hacemos esto usando las herramientas de tidyverse.
En la quinta parte presentamos varios desafíos que nos llevan a introducir machine learning. Aprendemos a usar el paquete caret para construir algoritmos de predicción que incluyen k vecinos más cercanos y bosques aleatorios.
En la parte final, ofrecemos una breve introducción a las herramientas de productividad que usamos diariamente en los proyectos de ciencia de datos. Estas son RStudio, UNIX/Linux shell, Git y GitHub, y knitr y R Markdown.
¿Qué no cubre este libro?
Este libro se enfoca en los aspectos del análisis de datos de la ciencia de datos. Por consiguiente, no discutimos aspectos relacionados con el manejo de datos (data management en inglés) o la ingeniería. Aunque la programación en R es una parte esencial del libro, no enseñamos temas informáticos más avanzados como las estructuras de datos, la optimización y la teoría de algoritmos. Del mismo modo, no discutimos temas como los servicios web, los gráficos interactivos, la computación paralela y el procesamiento de flujos de datos (data streaming processing en inglés). Los conceptos estadísticos se presentan principalmente como herramientas para resolver problemas y no se incluyen descripciones teóricas detalladas en este libro.