Introdução

A demanda por profissionais qualificados em ciência de dados na indústria, academia e governo está crescendo rapidamente. Este livro apresenta conceitos e habilidades que podem ajudá-lo a enfrentar os desafios da análise de dados em situações reais. O texto aborda os conceitos de probabilidade, inferência estatística, regressão linear e aprendizado de máquina. Isso também ajudará no desenvolvimento de habilidades como programação em R, preparação de dados (data wrangling), dplyr, visualização de dados com ggplot2, criação de algoritmos com caret, organização de arquivos em ambiente UNIX/Linux, controle de versão com Git e GitHub e preparação de documentos reprodutíveis com knitr e Rmarkdown. O livro está dividido em seis partes: R, Visualização de dados, Wrangling_of data, Estatísticas com R, Aprendizado de Máquina e Ferramentas de Produtividade. Cada parte possui vários capítulos que devem ser apresentados em uma única aula e inclui dezenas de exercícios distribuídos pelos capítulos.

Estudos de Caso

Ao longo do livro, utilizamos estudos de caso motivadores. Em cada estudo de caso, tentamos imitar realisticamente a experiência dos cientistas de dados. Para cada um dos conceitos que discutimos, começamos fazendo perguntas específicas, que, depois, respondemos através da análise de dados. Aprendemos conceitos como um meio de responder perguntas. Exemplos dos estudos de caso que incluímos neste livro são:

Estudo de caso	Conceito
Taxas estaduais de homicídio nos Estados Unidos	Conceitos básicos de R
Alturas dos estudantes	Resumos estatísticos
Tendências em saúde e economia global	Visualização de dados
O impacto das vacinas nas taxas de doenças infecciosas	Visualização de dados
A crise financeira de 2007-2008	Probabilidade
Previsão eleitoral	Inferência estatística
Alturas autorreferidas de estudantes	Arranjo de dados
Money Ball: Construindo um time de beisebol	Regressão linear
MNIST: Processamento de imagem com dígitos manuscritos	Aprendizado de Máquina
Sistemas de recomendação de filmes	Aprendizado de Máquina

Quem achará este livro útil?

O objetivo deste livro é servir como texto para um primeiro curso de ciência de dados. Nenhum conhecimento prévio de R é necessário, embora alguma experiência em programação possa ser útil. Os conceitos estatísticos usados para responder às perguntas dos estudos de caso são apresentados apenas brevemente e, portanto, recomendamos um livro de probabilidade e estatística para quem deseja entender completamente esses conceitos. Ao ler e entender todos os capítulos e concluir todos os exercícios, os alunos estarão bem posicionados para concluir tarefas básicas de análise de dados e aprender os conceitos e habilidades mais avançados necessários para se tornarem especialistas.

O que este livro cobre?

Começamos com o R básico e o tidyverse. Você aprenderá R ao longo do livro, mas na primeira parte cobriremos os componentes básicos necessários para que você continue aprendendo.

A crescente disponibilidade de conjuntos de dados informativos e ferramentas de software levaram a uma maior dependência da visualização de dados em muitos campos. Na segunda parte, demonstramos como usar o ggplot2 para gerar gráficos e descrever princípios importantes da visualização de dados.

Na terceira parte, demonstramos a importância da estatística na análise dos dados, respondendo a perguntas de estudos de caso usando probabilidade, inferência e regressão com R.

A quarta parte usa vários exemplos para familiarizar o leitor com a preparação de dados (data wrangling). As habilidades específicas que estudamos incluem raspagem da Web, usando expressões regulares e mesclando e remodelando tabelas de dados. Fazemos isso usando as ferramentas tidyverse.

Na quinta parte, apresentamos vários desafios que nos levam a introduzir o aprendizado de máquina. Aprenderemos a usar o pacote caret para criar algoritmos de previsão que incluem K-vizinhos mais próximos e florestas aleatórias.

Na parte final, oferecemos uma breve introdução às ferramentas de produtividade que usamos diariamente em projetos de ciência de dados. Estes são RStudio, ambiente UNIX/Linux, Git e GitHub e knitr e RMarkdown.

O que este livro não cobre?

Este livro é focado nos aspectos da análise de dados que compõem a Ciência de Dados. Portanto, não discutimos aspectos relacionados ao gerenciamento ou engenharia de dados. Embora a programação em R seja uma parte essencial do livro, não ensinamos tópicos de computação mais avançados, como estruturas de dados, otimização e teoria de algoritmos. Da mesma forma, não discutimos tópicos como serviços da web, gráficos interativos, computação paralela e processamento de streaming de dados. Os conceitos estatísticos são apresentados principalmente como ferramentas para a solução de problemas e nenhuma descrição teórica detalhada é incluída neste livro.