Apresentação

Esse projeto foi desenvolvido no âmbito do Programa Institucional de Iniciação Científica da UFRRJ.

O propósito dessa iniciativa é disponibiizar aos alunos da UFRRJ um ambiente com os tópicos de Estatística Descritiva de Dados, integrante das disciplinas de Estatística Básica e Introdução à Bioestatística, integrados com aplicações no software R. Para proporcionar a experiência de análise de dados serão realizadas atividades com dados de uma pesquisa sobre o Perfil da Turma realizada em uma turma de Estatística Básica. O conteúdo relacinado com as definições e exemplos foram extraídos das notas de aula da Prof. Adriana Andrade.


Orientações de Uso

Em cada seção serão apresentados para cada conceito: - Definição - Fórmula - Comando R - Exemplo - Aplicação do R nos dados da Pesquisa

Em cada exemplo de aplicação do R basta você copiar o comando e colar em uma seção do R no seu computador para repetir os resultados.


Equipe

  • Orientadora: Adriana Andrade - Prof. de Estatística - DEMAT
  • Programadora: Millena Delmon - Discente do curso de Engenharia de Materiais
  • Consultor: Wagner Tassinari - Prof. de Estatística - DEMAT
  • Teste de usabilidade: Maria Gabriela - Discente do curso de Matemática Aplicada e Computacional


Estatística

É uma disciplina que apresenta técnicas e princípios orientados para a produção de evidências baseadas em dados, contemplando desde a coleta de informações, processamento, análise e apresentação para a tomada de decisão. Seu papel é fundamental nas ciências agrárias, ciências sociais aplicadas, engenharias, entre outras.


Sofware R

O R é um software gratuito com uma linguagem de programação própria e um ambiente de desenvolvimento utilizado para diversos fins estátisticos, como a construção de gráficos, tabelas e cálculos. O R possui uma grande capacidade de extensão de suas funcionalidades. Por ser um programa de código aberto, tem-se o desenvolvimento constante de aplicações por meio de pacotes (libraries) com ferramentas especializadas para cada tipo de tarefa..


O RStudio

É um ambiente que integra a linguagem de programação R com uma interface mais amigavel e funcionalidades avançadas para facilitar a escrita e execução do codigo R. Permite uma visualização melhor, além da possibilidade de trabalhar com relatorios em diversos formatos, como HTML e WORD.


Instruções de download

O R pode ser instalado a partir do link a seguir link

Para a instalação do RStudio é necessário já possuir o R e para fazer o download basta prosseguir no link link



Importação de dados


Durante a graduação e na atividade acadêmica é comum utilizar análise de dados em pesquisas, para isso, é necessário importar bases de dados já existentes para o software, como a base de dados que utilizaremos ao longo de todo o site.

Para realizar as atividades de análise de dados foi disponibilizado um conjunto de dados proveniente de uma pesquisa realizada com os alunos de uma turma de Estatística Básica (Perfil da Turma). Esses dados estão armazenados em um arquivo no formato csv (dados.csv), no qual cada linha corresponde às respostas de um indivíduo e cada coluna equivale a uma pergunta do questionário.

  • Clique aqui 📁para fazer o download da base de dados Perfil da Turma que será utilizado na prática com R. Depois que você clicar, o conjunto de dados irá abrir em uma aba do seu navegador. Em seguida faça o download.

A seguir você deve procedor à importação do arquivo com os dados da pesquisa para o ambiento do R. Temos duas formas de realizar esse procedimento, por código ou via menu.

Por código

Os dados podem estar em formato csv ou xlsx, isso altera o comando que será utilizado para sua importação.

Para o formato csv:

dados <- read(“local do arquivo/nome do arquivo”, argumentos do comando)

Atenção: em local do arquivo você deve colocar o nome do diretório no seu computador no qual você colocou o arquivo. No caso em questão, utilizamos o seguinte endereço C:/Users/andra/Downloads

#Para a nossa base de dados:
dados<- read.csv("C:/Users/andra/Downloads/dados.csv",fileEncoding = "ISO-8859-1")

Para o formato xlsx é necessário instalar um pacote:

install.packages("rtools", dependencies=TRUE)
library(readxl) 
datasets <- read_xlsx((choose.files()))

Pelo menu

Para isso, basta seguir o passo a passo:


Após importar o seu conjunto de dados para o R, você pode visualizar e verificar a estrutura dos seus dados.

View(dados)
str(dados)
'data.frame':   40 obs. of  22 variables:
 $ X          : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Aluno      : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Turma      : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Sexo       : chr  "Feminino" "Feminino" "Feminino" "Masculino" ...
 $ Idade      : int  19 24 22 21 22 20 21 23 20 19 ...
 $ Peso       : num  52 77 64 63 60 70 53 50 79 74 ...
 $ Altura     : num  1.71 1.77 1.62 1.7 1.56 1.63 1.64 1.64 1.81 1.66 ...
 $ Enem       : num  659 680 632 720 670 ...
 $ Cor        : chr  "Parda" "Branca" "Parda" "Branca" ...
 $ Trabalho   : chr  "Não" "Não" "Não" "Não" ...
 $ EnsinoMedio: chr  "Publica" "Privada" "Publica" "Publica" ...
 $ EscolaMae  : chr  "2º grau" "1º grau" "Superior" "Superior" ...
 $ EscolaPai  : chr  "Primario" "2º grau" "2º grau" "2º grau" ...
 $ Time       : chr  "Flamengo" "Fluminense" "Nenhum" "Nenhum" ...
 $ Dieta      : chr  "Não" "Sim" "Não" "Não" ...
 $ Namora     : chr  "Sim" "Sim" "Não" "Sim" ...
 $ Internet   : int  300 60 40 180 240 300 120 15 60 99 ...
 $ Renda      : num  2400 2000 2000 4000 10000 5000 1800 5000 8000 9540 ...
 $ N_Pessoas  : int  4 2 4 3 4 3 4 3 4 4 ...
 $ Problema   : chr  "Educação" "Violencia" "Educação" "Violencia" ...
 $ Repetente  : chr  "Sim" "Sim" "Sim" "Não" ...
 $ Curso      : chr  "Sim" "Sim" "Sim" "Sim" ...

Toda vez que você for utilizar uma variável, é preciso referenciar a base de dados a que ela pertence, exemplo: dados$Idade. Atenção: O R diferencia letras minusculas de maiúsculas

Comandos e Conceitos básicos

Vetor: Um vetor, ou objeto, é um meio de armazenar um conjunto de dados no R e tranformá-lo em uma variável única. Para criar um vetor basta seguir com a fórmula:

#Criação do vetor x com os valores 1,2,3,4,5
x<-c(1,2,3,4,5)



Funções Básicas do R



Valores simples


Para valores simples, excluindo os vetores e matrizes, as operações são realizadas apenas utilizando seus respectivos indicadores, por exemplo:

Soma

1+2+3+4+5
[1] 15

Subtração

5-4
[1] 1

Produto

3*3
[1] 9

Divisão

4/2
[1] 2

Potenciação

3^2
[1] 9

Raiz Quadrada

sqrt(4)
[1] 2



Objetos


O R é uma linguagem orientada a objetos, como vetores, matrizes, entre outros. Nesses objetos é possível armazenar a informação de interesse. O nome do objeto e a informação são separados pelo símbolo <-

Números

Usado para quando a variável que iremos utilizar é representada apenas por um valor.

#Criação do objeto a:

a <- 2
a
[1] 2

Vetor

Muito utilizado em distribuição de frequência, como a variável Peso dos alunos.

#Criação do objeto b:

b <- c(1,2,3,4,5,6)
b
[1] 1 2 3 4 5 6
#Mostrando a variável Peso

Matriz

Utiliza o comando matrix para sua criação, o comando nrow para definir o número de linhas e ncol para definir o número de colunas.

#Criação da matriz c:

c <- matrix(c(1,2,3,4,5,6),nrow=2,ncol=3)
c
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6

Data Frame

É uma estrutura de dados que visa sua organização na forma de tabelas bidimensionais de linhas e colunas, tal qual uma planilha.

nome<-c("Marcos","Carla","Rubens")

idade<-c(23,32,56)
sexo<-c("M", "F", "M")
data.frame(nome,idade,sexo)
    nome idade sexo
1 Marcos    23    M
2  Carla    32    F
3 Rubens    56    M


Variáveis

Variáveis são características que podem ser observadas em um grupo, como sexo, idade,nacionalidade entre outras.


Variável Qualitativa


Resulta de uma classificação por qualidade, tipo ou atributo.

Qualitativa Nominal

Apenas nomeia o que a variável representa, como sexo ou nacionalidade.

Qualitativa Ordinal

Existe uma ordem entre as categorias possíveis, como escolaridade.


Variável Quantitativa


Mensura quantidade e é formada por números, como idade.

Quantitativa Discreta

Resultam de contagem e são expressas por numeros inteiros, como número de filhos.

Quantitativa Contínua

Resultam de uma medida ou maneira de mensurar algo, como peso e altura.


Tabelas de Distribuição de Frequência

Uma distribuição de frequências apresenta os resultados de uma variável. As distribuições de frequência são apresentadas em Tabelas.

As tabelas seguem padrões da ABNT, devem conter título, cabeçalho, corpo e rodapé. Além disso devem ser fechadas no topo e embaixo, não podem ser fechadas à direita e à esquerda.


Tabela de Variáveis Qualitativas


Freq. Absoluta

Contagem de cada possível resultado.Representada pelo símbolo (inserir)

Freq. Relativa

Proporção de cada possível resultado em relação ao total.Representada pelo símbolo (inserir) e obtida a partir da divisão do da frequência absoluta pelo total.

Freq. Percentual

Percentual de cada possível resultado.Representada pelo símbolo (inserir) e obtida a partir da multiplicação da frequência relativa por 100.

Exemplo

Por exemplo, suponha que em uma turma o professor faça uma pesquisa com o sexo dos alunos, obtendo o seguinte resultado:

#Criação do vetor x com o resultado:

x<- c("Feminino","Feminino","Masculino","Masculino","Feminino","Masculino","Masculino","Masculino","Feminino","Masculino","Feminino","Feminino","Feminino","Feminino","Feminino","Masculino","Masculino","Masculino","Feminino","Masculino","Masculino")

#Gerando a distribuição de frequências
tab<- table(x)

# Mostrando a distribuição de frequências
tab
x
 Feminino Masculino 
       10        11 
# Gerando e mostrando a frequência relativa
tabprop <- prop.table(tab) ; tabprop
x
 Feminino Masculino 
0.4761905 0.5238095 

Aplicação

Para criar uma tabela utilizando a base de dados basta fazer:

#Gerando a distribuição de frequências
tab<- table(dados$Sexo)

# Mostrando a distribuição de frequências
tab

 Feminino Masculino 
       31         9 
# Gerando e mostrando a frequência relativa
tabprop <- prop.table(tab) ; tabprop

 Feminino Masculino 
    0.775     0.225 

Tabela de Variáveis Quantitativas


Possui alguns procedimentos mais específicos para elaboração do que de variáveis qualitativas, principalmente se tratando de variáveis contínuas, cuja sua elaboração precisa da divisão dos valores em intervalos.

Ramo e Folha

Um esquema que possibilita a organização dos dados, dividindo os valores em duas partes, em que uma será o ramo e restante serão as folhas. As etapas consistem em:

1 - Colocar os ramos empilhados em uma coluna e traçar uma linha vertical.

2 - Colocar as folhas representadas pelos dígitos posteriores ao ramo.

Exemplo

Por exemplo, suponha que nessa mesma turma o professor faça uma pesquisa de idade, obtendo o seguinte resultado:

#Criação do vetor y com o resultado:

y<- c(19,18,21,25,23,22,24,19,17,25,23,24,22,23,24,23,22,21,20,20,19,20,24,23,22,21,22,21,19,19,17,18,23,22,21,23,21,25,19,18)

#Gerando a distribuição de frequências
tab<- table(y)

# Mostrando a distribuição de frequências
tab
y
17 18 19 20 21 22 23 24 25 
 2  3  6  3  6  6  7  4  3 
# Gerando e mostrando a frequência relativa
tabprop <- prop.table(tab) ; tabprop
y
   17    18    19    20    21    22    23    24    25 
0.050 0.075 0.150 0.075 0.150 0.150 0.175 0.100 0.075 
# Gerando e mostrando a frequência percentual
tabperc <- tabprop*100 ; tabperc
y
  17   18   19   20   21   22   23   24   25 
 5.0  7.5 15.0  7.5 15.0 15.0 17.5 10.0  7.5 
# Formatando a tabela

tabela<-data.frame(cbind(tab,tabprop,tabperc))

names(tabela)<-c("ni","fi","%")

tabela
   ni    fi    %
17  2 0.050  5.0
18  3 0.075  7.5
19  6 0.150 15.0
20  3 0.075  7.5
21  6 0.150 15.0
22  6 0.150 15.0
23  7 0.175 17.5
24  4 0.100 10.0
25  3 0.075  7.5

Aplicação

Para criar uma tabela utilizando a base de dados basta fazer:

#Gerando a distribuição de frequências
tab<- table(dados$Idade)

# Mostrando a distribuição de frequências
tab

18 19 20 21 22 23 24 31 
 4 13  8  3  5  5  1  1 
# Gerando e mostrando a frequência relativa
tabprop <- prop.table(tab) ; tabprop

   18    19    20    21    22    23    24    31 
0.100 0.325 0.200 0.075 0.125 0.125 0.025 0.025 

Intervalos

Ajuda a evitar a construção de tabelas com muitas linhas e consiste em construir faixas de valores e contar o número de ocorrências em cada uma dessas faixas.

# Obtendo a distribuição de frequência para os intervalos [20,22),[22,24),[24,30)
intervalos<-cut(dados$Idade,breaks = c(20,22,24,30), right =FALSE)
tab<-table(intervalos)
tab
intervalos
[20,22) [22,24) [24,30) 
     11      10       1 
tab_fi<-prop.table(tab)
tab_fi
intervalos
   [20,22)    [22,24)    [24,30) 
0.50000000 0.45454545 0.04545455 
tab_p<-tab_fi*100
tab_p
intervalos
  [20,22)   [22,24)   [24,30) 
50.000000 45.454545  4.545455 
# Formatando a tabela

tabela<-data.frame(cbind(tab,tab_fi,tab_p))

names(tabela)<-c("ni","fi","%")

tabela
        ni         fi         %
[20,22) 11 0.50000000 50.000000
[22,24) 10 0.45454545 45.454545
[24,30)  1 0.04545455  4.545455


Gráficos

Os gráficos em R são feitos de acordo com as variáveis que nele estarão, por exemplo, para variáveis qualitativas são utilizados gráficos em setores e em barras.


Gráficos Variáveis Qualitativas



Gráficos de Setores/Pizza


Adequado para variáveis qualitativas, principalmente as nominais. Utiliza as frequências relativas ou percentuais e permite avaliar o peso relativo de cada categoria.

Exemplo

Supondo que seja feita uma pesquisa para saber o grau de escolaridade de um grupo de pessoas e periferias do estado do Rio de Janeiro, obtendo os seguintes resultados:

#Criação do vetor x com os resultados;
x<-c("Fundamental","Médio","Médio","Superior","Fundamental","Fundamental","Fundamental","Médio","Fundamental","Superior","Fundamental","Fundamental","Médio")

#Gerando a distribuição de frequências:
tab<- table(x)

#Plotando o gráfico:
pie(tab)

Aplicação

#Gerando a distribuição de frequências da variável Time:
tab<- table(dados$Time)

#Plotando o gráfico:
pie(tab)


Gráficos de Coluna/Barras


Adequado para variáveis qualitativas, em que são feitos retângulos verticais ou horizontais sobre o plano cartesiano, a altura ou comprimento informa a frequência de ocorrência.

Exemplo

Utilizando a mesma pesquisa de escolaridade do gráfico de setores:

#Criação do vetor x com os resultados;
x<-c("Fundamental","Médio","Médio","Superior","Fundamental","Fundamental","Fundamental","Médio","Fundamental","Superior","Fundamental","Fundamental","Médio")

#Gerando a distribuição de frequências:
tab<- table(x)

#Plotando o gráfico:
barplot(tab, xlab= "Escolaridade", ylab="Quantidade de pessoas")

#Plotando o gráfico com barras horizontais:
barplot(tab, horiz=T, xlab= "Quantidade de pessoas", ylab="Escolaridade")

Aplicação

#Gerando a distribuição de frequências da variável Cor:
tab<- table(dados$Cor)

#Plotando o gráfico:
barplot(tab, xlab= "Cor", ylab="Quantidade de alunos")

#Plotando o gráfico com barras horizontais:
barplot(tab, horiz=T, xlab= "Quantidade de alunos", ylab="Cor")


Gráficos Variáveis Quantitativas



Gráficos de Coluna/Barras


Adequado para variáveis quantitativas discretas, representado por retângulos verticais ou horizontais sobre o plano cartesiano.

Exemplo

Supondo uma pesquisa feita para descobrir uma média de parceiros de um grupo, obtendo os seguintes resultados:

#Criação do vetor x com os resultados;
x<-c(1,2,4,1,5,1,6,7,3,3,3,2,2,4,4,5,2,2,3,2,4,2,4,1,3)

#Gerando a distribuição de frequências:
tab<- table(x)

#Plotando o gráfico:
barplot(tab)

#Plotando o gráfico com barras horizontais:
barplot(tab, horiz=T)

Aplicação

#Gerando a distribuição de frequências da variável Número de pessoas que moram na casa :
tab<- table(dados$N_Pessoas)

#Plotando o gráfico:
barplot(tab, xlab= "Moradores", ylab="Número de pessoas")

#Plotando o gráfico com barras horizontais:
barplot(tab, horiz=T, xlab= "Número de pessoas", ylab="Moradores")

Gráficos de Séries Temporais

Serve pare representar dados coletados em diferentes momentos do tempo.


Histogramas de frequência


Análogo ao gráfico de colunas, porém utiliza os intervalos obtidos na tabela de distribuição de frequência.

Exemplo

Supondo que tenha sido feita uma pesquisa para saber a altura de um grupo de mulheres obtendo o seguinte resultado:

#Criação do vetor x com os resultados;
x<-c(1.57,1.62,1.61,1.65,1.70,1.63,1.67,1.75)

#Plotando o gráfico:
hist(x, xlab= "Altura", ylab="Número de pessoas")

Aplicação

#Plotando o gráfico:
hist(dados$Peso, xlab= "Peso", ylab="Número de pessoas", main = "Histograma de Peso dos alunos")


Histogramas de Densidade frequência


Um histograma em que a frequência é representada pela área e não pela altura. No eixo y é informado a densidade de frequência \(d_i\), quantidade obtida pelo quociente entre a frequência e amplitude de cada intervalo. Adequado para variáveis contínuas.

Exemplo

Aplicação

hist(dados$Peso,breaks= c(47,50,60,112),freq = FALSE)


Medidas de Posição

Medidas que caracterizam a distribuição da variável em termos de centralidade e posição.


Média


Medida que descreve a centralidade dos dados. É a soma de todos os valores da variável dividida pelo número de valores observados.

Fórmula


\(\bar{x}=\frac{\sum x_i}{n}\)

Função no R


mean(x)

Exemplo

Se você quiser saber a média dos valores 15,23,36 basta fazer:

#Criação do vetor x com os valores 15,23,36
x<-c(15,23,36)

#Obtenção da média do vetor x
mean(x)
[1] 24.66667

Atenção: a média é afetada por valores atítpicos. Valores Atípicos são aqueles que destoam em magnitude em relação aos demais do conjunto.

Ao voltarmos ao nosso exemplo: 15,23,36 vamos substituir o 36 por 96:

#Criação do vetor x com os valores 15,23,96
x<-c(15,23,96)

#Obtenção da média do vetor x
mean(x)
[1] 44.66667

Constatamos que a média foi de 24,67 para 44,67.

Aplicação

Para saber a média de idade dos alunos na Pesquisa Perfil dos alunos, basta fazer:

mean(dados$Idade)
[1] 20.55

Então, vemos que a média dos alunos é de 20.55 anos.


Mediana


Valor que ocupa a posição central na distribuição de freqüência da variável quando esta se encontra ordenada. A mediana deixa 50% da distribuição abaixo dela e 50% acima.

A fórmula a seguir fornece a posição da mediana. O comando do R fornece diretamente o valor da mediana.

Fórmula da Posição

n é ímpar n é par
\(Posição=\frac{n+1}{2}\) \(Posição=\frac{\frac{n}{2}+\frac{n+1}{2}}{2}\)

Fórmula no R

Comando R median(x)

Exemplo

Se você quiser saber a mediana da distribuição dos valores 10,11,12,15,17,20,23 basta fazer:

#Criação do vetor x com os valores 10,11,12,15,17,20,23
x<-c(10,11,12,15,17,20,23)

#Obtenção da mediana do vetor x
median(x)
[1] 15

Aplicação

Para saber a mediana de idade dos alunos na Pesquisa Perfil dos alunos, basta fazer:

median(dados$Idade)
[1] 20

Então, vemos que a média dos alunos é de 20anos.


Moda


A moda representa o valor ou categoria que mais apareceu na distribuição da variável, serve tanto para variáveis qualitativas quanto para quantitativas.

OBS: As distribuições podem não possuir moda, ou seja, serem amodais, ou possuirem duas modas, sendo bimodais.

No R não há uma função no pacote Base para obter a moda. No entanto, podemos saber qual é o valor modal a partir da distribuição de frequência.

Exemplo

Supondo que tenhamos a distribuição de valores: 1,1,1,3,4,6,6,6,6,7,8,9 a moda seria o valor que mais aparece, no caso, o 6.

Porém, se tivéssemos a distribuição: 1,1,1,1,3,4,6,6,6,6,7,8,9 a moda seria os dois valores que mais aparecem, o 1 e o 6.

Por fim, se tivéssemos a distribuição: 1,1,1,1,3,4,6,6,6,6,7,8,9,9,9,9 a distribuição não teria moda, visto que três valores aparecem 4 vezes.


Separatrizes ou Quantis


Os quantis (separatrizes) são quantidades que dividem a distribuição dos valores observados em grupos do mesmo tamanho. Dentro destes existem os quartis, decis e percentis.

Quartis

Dividem a distribuição em quatro partes de mesmo tamanho (Q1,Q2,Q3).

x<- c(1,1,1,3,3,4,4,5,5,6,6,7,8,8,9,11,11,13,14)

quantile(x)
  0%  25%  50%  75% 100% 
 1.0  3.5  6.0  8.5 14.0 
#Utilizando a base de dados

quantile(dados$Peso,type=2)
   0%   25%   50%   75%  100% 
 47.0  55.5  63.5  71.0 112.0 

Decis

Dividem a distribuição em 10 grupos de mesmo tamanho (D1,D2,…,D9).

x<- c(1,1,1,3,3,4,4,5,5,6,6,7,8,8,9,11,11,13,14)

quantile(x,probs=.10)
10% 
  1 
#Utilizando a base de dados

quantile(dados$Peso,type=2,probs=.10)
10% 
 50 

Percentis

Dividem a distribuição em 100 grupos de mesmo tamanho (P1,P2,…,P99).

x<- c(1,1,1,3,3,4,4,5,5,6,6,7,8,8,9,11,11,13,14)

quantile(x,probs=.10)
10% 
  1 
#Utilizando a base de dados

quantile(dados$Peso,type=2,probs=.85)
85% 
 75 

Aplicação

#Utilizando a variável peso da base de dados

#Obtenção dos quartis
quantile(dados$Peso)
    0%    25%    50%    75%   100% 
 47.00  55.75  63.50  70.50 112.00 
#Obtenção do 1º decil
quantile(dados$Peso,probs=.10)
10% 
 50 
#Obtenção de percentil 85
quantile(dados$Peso,probs=.85)
85% 
 75 

Quartis:25% dos alunos tem peso de até 55,75kg ; Metade dos alunos tem peso inferior a 63,5kg; Como o terceiro quartil é igual a 70,5kg, constatamos que 75% dos alunos tem peso inferior a esse valor.

Decis: 10% dos alunos tem peso inferior a 50kg, ou 90% tem peso superior a esse valor.

Percentil: 85% dos alunos tem peso inferior a 75Kg.


Medidas de Dispersão

Medidas que quantificam a variabilidade do conjunto.


Amplitude total


Diferença entre o maior e o menor valor do conjunto de dados. Fácil de calcular, mesmo para grandes conjuntos de dados, e de fácil entendimento.

Fórmula

\(AT=X_{max}-X_{min}\)

Exemplo

Se você quiser saber a amplitude total dos valores 15,23,36 basta fazer:

#Criação do vetor x com os valores 15,23,36
x<-c(15,23,36)

#Obtenção da amplitude total do vetor x
diff (range (x))
[1] 21

Aplicação

Se você quiser saber a amplitude total da variável peso na base de dados basta fazer:

range(dados$Peso)
[1]  47 112
diff(range(dados$Peso))
[1] 65

Ou seja, a variável peso varia em 65 kg, com mínimo de 47 kg e máximo de 112 kg


Amplitude interquartílica


Diferença entre o terceiro e o primeiro quartil.Abrange 50% dos dados e é útil para identificar valores atípicos.

Fórmula

Amplitude Interquartílica = Q3 - Q1

Exemplo

Se você quiser saber a amplitude interquartílica dos valores 10,11,20,24,25,26,28,29,33 basta fazer:

#Criação do vetor x com os valores 10,11,20,24,25,26,28,29,33
x<-c(10,11,20,24,25,26,28,29,33)

#Obtenção da amplitude interquartílica do vetor x
IQR(x)
[1] 8

Aplicação

Se você quiser saber a amplitude interquartílica da variável peso na base de dados basta fazer:

IQR(dados$Peso)
[1] 14.75

Variância


Mensura o grau de dispersão de um conjunto de dados em relação à média.

Fórmula

\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2\)

Exemplo

Se você quiser saber a variância dos valores 10,11,20,24,25,26,28,29,33 basta fazer:

#Criação do vetor x com os valores 10,11,20,24,25,26,28,29,33
x<-c(10,11,20,24,25,26,28,29,33)

#Obtenção da amplitude interquartílica do vetor x
var(x)
[1] 62.11111

Aplicação

var(dados$Peso)
[1] 144.7945

Ou seja, a variância da variável peso é de 144.7945


Desvio Padrão


É a raiz quadrada da variância e sua unidade será a mesma da média.

Fórmula

\(\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}\)

Exemplo

Se você quiser saber o desvio padrão dos valores 10,11,20,24,25,26,28,29,33 basta fazer:

#Criação do vetor x com os valores 10,11,20,24,25,26,28,29,33
x<-c(10,11,20,24,25,26,28,29,33)

#Obtenção da amplitude interquartílica do vetor x
sd(x)
[1] 7.88106

Aplicação

sd(dados$Peso)
[1] 12.03306

Ou seja, o desvio padrão da variável peso é de 12.03306


Coeficiente de Variação


Medida de dispersão relativa definida como a razão entre o desvio padrão e a média. Quanto mais próximo de zero, mais homogêneo é o conjunto de dados. O coeficiente de variação segue a classificação:

Fórmula


\(CV(X)=\frac{DP(X)}{\bar{X}*100}\)

Função no R


Não existe uma função no R base. Então, iremos obter o coeficiente de variação utilizando as funções do desvio-padrão e da média.

sd(x)/mean(x)*100

Exemplo

Se você quiser saber o coeficiente de variação dos valores 15,23,36 basta fazer:

#Criação do vetor x com os valores 15,23,36
x<-c(15,23,36)

#Obtenção do coeficiente de variação de x
sd(x)/mean(x)*100
[1] 42.96787

Ou seja, o coeficiente de variação dos valores é muito alto, o que significa que o conjunto é muito heterogêneo.

Aplicação

Para obter o coeficiente de variação da variável peso do nosso banco de dados, basta fazer:

#Obtenção do CV de Peso

sd(dados$Peso)/mean(dados$Peso)*100
[1] 18.63063

O coeficiente de variação indica que existe uma moderada dispersão dos indíviduos na turma em relação à variável peso.


Análise Bidimensional

Utilizado para estudar um fenômeno a partir da observação de duas variáveis, análise de relação dessas e avaliação do grau de dependência entre elas.


Variáveis Quantitativas


Para variáveis quantitativas podemos utilizar recursos gráficos ou medidas que mensurem o grau de associação entre essas variáveis.

Diagrama de Dispersão

Realizado a partir do plano cartesiano, de modo que cada eixo represente uuma variável. Nesse diagrama é importante observar a aglomeração dos pontos, quando mais próximos de uma reta, mais forte será a associação entre eles.

Associação Positiva

Quando as duas variáveis variam no mesmo sentido, ou seja, quando uma aumenta, a outra aumenta. Pode ser chamada tambem de associação crescente.

Associação Negativa

Quando as duas variáveis variam em sentidos opostos, ou seja, quando uma aumenta, a outra diminui. Pode ser chamada tambem de associação decrescente.

Ausência de Associação

Os pontos estão distribuídos de forma aleatória no plano.

Exemplo

Supondo que tenha sido feita uma pesquisa para checar se há relação entre idade e o tempo de tela da pessoa, obtendo o seguinte resultado:

#Criação do vetor idade:
x<-c(10,15,20,25,30,35,40,45,50,55,60)

#Criação do vetor tempo de tela, em horas:
y<-c(5,8,10,8,8,7,5,5,4,4,4)

plot(x,y,xlab="X:Idade dos entrevistados", ylab = "Y: Tempo de tela diário, em horas")

É possível perceber que a associação parece ser negativa, pois a medida que a idade aumenta, se observa a redução no tempo de tela.

Aplicação

Para associarmos as variáveis peso e altura do banco de dados, basta fazer:

plot(dados$Altura,dados$Peso,xlab="X:Altura dos alunos", ylab = "Y: Peso dos alunos")

A associação entre as variáveis parece ser positiva pois, no geral, observa-se um aumento do peso acompanhado pelo aumento da altura.


Covariância


É uma medida do grau de interdepêndencia de duas variáveis, porém, a mesma pode ser afetada pela escala com que as variáveis foram mensuradas, sendo difícil de avaliar sua magnitude.

Fórmula

\({cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\)

Aplicação

Para obter a covariância das variáveis peso e idade do nosso banco de dados, basta fazer:

#Obtenção da covariância de Peso e Idade

cov(dados$Peso,dados$Idade)
[1] 2.012179

Coeficiente de Correlação Linear de Pearson


Utilizado para superar o problema na interpretação do gráfico da covariância. Varia entre -1 e 1, de modo que quanto mais próximo do módulo de 1 mais forte será a associação entre as variáveis e quanto mais próximo do 0, mais fraca será a associação.

O sinal do coeficiente indica o tipo de variação, sendo positivo indicador que as variáveis variam no mesmo sentido, o negativo indicador que as variáveis variam em sentidos opostos.

Quanto a avaliação do coeficiente de correlação:

Fórmula

\(\rho_{X,Y} = \frac{{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}}{{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}}\)

Aplicação

#Obtenção da coeficiente de Pearson de Peso e Idade

cor(dados$Peso,dados$Idade)
[1] 0.07010426

Ou seja, e possível inferir que as variáveis possuem uma correlação muito fraca, ainda que variem no mesmo sentido devido ao coeficiente positivo.


Variáveis Qualitativas


Para variáveis qualitativas podemos utilizar tabelas com a distribuição conjunta das variáveis e medidas que mensuram o grau de associação entre as variáveis.


Tabela de contingência


Distribuição conjunta de duas variáveis por uma tabela de duas entradas.

Exemplo

Supondo que tenha sido feita uma pesquisa de intenção de voto para associar o sexo da pessoa ao candidato escolhido. Obtendo os resultados:

#Criação do vetor sexo:
x<-c("Feminino","Feminino","Masculino","Feminino","Masculino","Masculino","Masculino","Feminino")

#Criação do vetor candidato:
y<-c("A","A","A","A","B","B","B","A")

#Criação da tabela com os resultados:
tabela<- table(x,y);tabela
           y
x           A B
  Feminino  4 0
  Masculino 1 3
#Plotando o gráfico:
barplot(t(tabela),xlab = "Sexo",ylab = "Intenção de voto")

Aplicação

Para obter a tabela de contingência das variáveis sexo e cor do nosso banco de dados, basta fazer:

#Criação da tabela com os resultados:
tabela<- table(dados$Sexo,dados$Cor);tabela
           
            Branca Parda Preta
  Feminino      16    14     1
  Masculino      2     6     1
#Plotando o gráfico:
barplot(t(tabela),xlab = "Sexo",ylab = "Cor")

Coeficiente de contingência

A medida que quantifica a associação entre duas variáveis qualitativas é denominada Qui-quadrado de Pearson \(\chi^2\). Essa estatística avalia a distância entre as frequências observadas e as esperadas na hipótese de independência entre as variáveis

\(\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)

Onde: - \((\chi^2)\) é a estatística do qui-quadrado, - \((O_{ij})\) são as frequências observadas, - \((E_{ij})\) são as frequências esperadas.

A partir da estatística Qui-Quadrado é possível obter uma métrica que quantifica o grau de associação entre as variáveis, tal como ocorre com o Coeficiente de Correlação de Pearson para as variáveis quantitativas. No caso das variáveis qualitativas,essa medida é dada pelo Coeficiente de Contingência, cujos valores variam entre 0 e 1. Quanto mais próximo de 0, menor a associação, quanto mais próximo de 1, mas forte é a associação. O Coeficiente de Contingência é obtido por:

\(C = \sqrt{\frac{\chi^2}{\chi^2+n}}\)

No R base não há uma função para obter o Coeficiente de Contingência, porém, é possível, a partir do valor do Qui-Quadrado calcular essa medida.


    Pearson's Chi-squared test

data:  tabela
X-squared = 2.8515, df = 2, p-value = 0.2403
function (x)  .Primitive("sqrt")
:::