Capítulo 6 Introdução à visualização de dados

Observar os números e as strings que definem um conjunto de dados é raramente útil. Para se convencer disso, imprima e observe a tabela de dados de assassinato nos Estados Unidos:

library(dslabs)
data(murders)
head(murders)
#>        state abb region population total
#> 1    Alabama  AL  South    4779736   135
#> 2     Alaska  AK   West     710231    19
#> 3    Arizona  AZ   West    6392017   232
#> 4   Arkansas  AR  South    2915918    93
#> 5 California  CA   West   37253956  1257
#> 6   Colorado  CO   West    5029196    65

O que você aprende ao ver essa tabela? Com que rapidez você pode determinar quais estados têm as maiores populações? Quais estados têm as menores? Qual o tamanho populacional típico de um estado? Existe alguma relação entre o tamanho da população e o total de assassinatos? Como as taxas de homicídio variam entre as regiões do país? Para a maioria dos cérebros humanos, é bastante difícil extrair essas informações simplesmente observando os números. Em vez disso, as respostas para todas as perguntas acima estão prontamente disponíveis examinando este gráfico:

Isso nos lembra o ditado “uma imagem vale mais que mil palavras.” A visualização de dados fornece uma poderosa forma de comunicar descobertas com base em dados. Em alguns casos, a visualização é tão convincente que nenhuma análise complementar é necessária.

A crescente disponibilidade de conjuntos de dados informativos e ferramentas de software levou a uma maior dependência de visualizações de dados em muitos setores da indústria, academia e governo. Um excelente exemplo são as organizações de notícias, que estão cada vez mais adotando o jornalismo de dados e incluindo infográficos eficazes como parte de seus relatórios.

Um exemplo particularmente eficaz é um artigo do Wall Street Journal19 mostrando dados relacionados ao impacto das vacinas na luta contra a doenças infecciosas. Um dos gráficos mostra casos de sarampo por estado dos EUA ao longo dos anos com uma linha vertical indicando quando a vacina foi introduzida.

Outro exemplo notável vem de um gráfico do jornal New York Times20 que resume os resultados dos Regents Exams da cidade de Nova York. De acordo com o artigo21, essas pontuações são coletadas por vários motivos, inclusive para determinar se um aluno está se formando no ensino médio. Na cidade de Nova York, é necessária uma pontuação mínima de 65 para passar. A distribuição dos resultados dos testes nos obriga a notar algo um pouco problemático:

A pontuação mais comum no teste é a nota mínima para aprovação, com muito poucas notas logo abaixo desse limiar. Esse inesperado resultado é consistente com a hipótese de que alunos com notas próximas da aprovação tiveram suas pontuações aumentadas.

Esse é um exemplo de como a visualização de dados pode levar a descobertas que, de outra forma, seriam perdidas se simplesmente submetêssemos os dados a uma série de ferramentas ou procedimentos de análise de dados. A visualização de dados é a ferramenta mais eficaz na chamada “análise exploratória de dados,” ou no inglês exploratory data analysis (EDA). John W. Tukey22, considerado o pai da EDA, disse uma vez:

“O maior valor de uma imagem é quando ela nos força a perceber o que nunca esperávamos ver.”

Muitas das ferramentas de análise de dados mais usadas foram inicialmente desenvolvidas graças à análise exploratória de dados. Esta é talvez a parte mais importante da análise de dados, no entanto, é frequentemente ignorada.

Visualização de dados agora é onipresente também em organizações filantrópicas e educacionais. Nas apresentações New Insights on Poverty23 (na tradução “Novas Percepções sobre a Pobreza”) e The Best Stats You’ve Ever Seen24 (na tradução “As Melhores Estatísticas que Você Nunca Viu”), Hans Rosling nos obriga a perceber o inesperado com uma série de gráficos relacionados à saúde e à economia global. Em seus vídeos, Rosling usa gráficos animados para demonstrar como o mundo está mudando e como antigas narrativas não são mais verdadeiras.

Também é importante lembrar que equívocos, preconceitos, erros sistemáticos e outros problemas inesperados frequentemente levam a dados que devem ser cuidadosamente analisados. Fracassar em descobrir tais problemas pode levar a análises falhas e descobertas falsas. Como exemplo, considere que instrumentos de medição algumas vezes falham e que a maioria dos procedimentos de análise de dados não foi projetada para detectar tais falhas. Contudo, esses procedimentos de análise de dados ainda lhe darão uma resposta. O fato de que possa ser difícil, ou mesmo impossível, perceber um erro apenas com base nos resultados relatados fazem da visualização de dados particularmente importante.

Nesta parte do livro, aprenderemos os conceitos básicos de visualização de dados e análise exploratória de dados usando três exemplos motivadores. Usaremos o pacote ggplot2 para codificar. Para aprender o básico, usaremos um exemplo um tanto artificial: as alturas relatadas por estudantes. Em seguida, discutiremos dois exemplos mencionados anteriormente: 1) saúde e economia mundiais, e 2) tendências de doenças infecciosas nos Estados Unidos.

Obviamente, há muito mais na visualização de dados do que o que abordamos aqui. Aqui estão algumas referências para quem deseja aprender mais:

  • ER Tufte (1983) The visual display of quantitative information. Graphics Press.
  • ER Tufte (1990) Envisioning information. Graphics Press.
  • ER Tufte (1997) Visual explanations. Graphics Press.
  • WS Cleveland (1993) Visualizing data. Hobart Press.
  • WS Cleveland (1994) The elements of graphing data. CRC Press.
  • A Gelman, C Pasarica, R Dodhia (2002) Let’s practice what we preach: Turning tables into graphs. The American Statistician 56:121-130.
  • NB Robbins (2004) Creating more effective graphs. Wiley.
  • A Cairo (2013) The functional art: An introduction to information graphics and visualization. New Riders.
  • N Yau (2013) Data points: Visualization that means something. Wiley.

Por fim, não discutiremos gráficos interativos, um tópico muito avançado para este livro. Abaixo estão alguns recursos úteis para aqueles interessados em aprender mais sobre isso: