Blog da Minitab

Quais são os graus de liberdade nas estatísticas?

Written by Minitab Blog Editor | 10/abr/2019 14:28:17

Mais ou menos um ano atrás, um leitor perguntou se eu poderia tentar explicar os graus de liberdade em estatística. Desde então, tenho pensado nesse pedido com muita cautela, como se fosse algum tipo de animal selvagem que não sei ao certo se consigo dominar e aprisionar.

Graus de liberdade não são fáceis de serem explicados. Eles surgem na estatística em muitos contextos diferentes — alguns avançados e complicados. Na matemática, eles são tecnicamente definidos como a dimensão do domínio de um vetor aleatório.

Mas não vamos entrar nesse assunto. Porque, de maneira geral, graus de liberdade não representam algo que você precisa entender para realizar uma análise estatístico — a menos que você seja um estatístico de pesquisas ou alguém que esteja estudando teoria estatística.

E, ainda assim, as mentes curiosas querem saber. Então, para os aventureiros e os curiosos, aqui estão alguns exemplos que proporcionam a visualização da essência básica de seu significado na estatística.

 

A liberdade de variar

Primeiro, esqueça a estatística. Imagine que você é uma pessoa que gosta de diversão e adora usar chapéus. Você não dá a menor importância para os graus de liberdade. Você acredita que variedade é o tempero da vida.

Infelizmente, você tem restrições. Você tem apenas 7 chapéus. No entanto, você quer usar um chapéu diferente todos os dias da semana.

No primeiro dia, você pode usar qualquer um dos 7 chapéus. No segundo dia, você pode escolher entre os 6 chapéus restantes, no 3º dia você pode escolher entre 5 chapéus e assim por diante.

Quando o sexto dia chega, você ainda pode escolher entre dois chapéus que ainda não usou naquela semana. Mas depois de escolher o seu chapéu para o 6º dia, você não tem escolha para o chapéu que você usa no 7º dia. Você deverá usar o único chapéu restante. Você tinha 7-1 = 6 dias de liberdade de “chapéu” — em que o chapéu que você usava poderia variar!

Esse é o tipo de ideia que há por trás dos graus de liberdade na estatística. Em geral, os graus de liberdade são definidos como o número de "observações" (pontos de dados individuais) nos dados que são livres para variar quando é feita a estimativa dos parâmetros estatísticos.

Graus de liberdade: Teste t para 1 amostra

Agora imagine que você não gosta de chapéus. Você gosta de análise de dados.

Você tem um conjunto de dados com 10 valores. Se você não está estimando nada, cada valor pode receber qualquer número, certo? Cada valor é totalmente livre para variar.

Mas suponha que você queira testar a média populacional com uma amostra de 10 valores, e que utilize um teste t para 1 amostra. Agora você tem uma restrição — a estimativa da média. O que é essa restrição, exatamente? Para a definição de média, a seguinte relação deve ser mantida: A soma de todos os valores nos dados deve ser igual a n x a média, em que n é o número de valores no conjunto de dados.

Portanto, se um conjunto de dados tiver 10 valores, a soma dos 10 valores deverá ser igual à média x 10. Se a média dos 10 valores for 3.5 (você pode escolher qualquer número), essa restrição exige que a soma dos 10 valores seja igual a 10 x 3.5 = 35.

Com essa restrição, o primeiro valor no conjunto de dados é livre para variar. Seja qual for o valor, ainda é possível que a soma de todos os 10 números tenha o valor de 35. O segundo valor também é livre para variar, porque não importa o valor escolhido, ele ainda possibilita que a soma de todos os valores seja 35.

De fato, os primeiros 9 valores podem ser qualquer coisa, incluindo estes dois exemplos:

34, -8,3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

Mas para que todos os 10 valores sejam somados a 35 e tenham uma média de 3.5, o 10º valor não pode variar. Ele deve ser um número específico:

34, -8,3, -37, -92, -1, 0, 1, -22, 99  -----> o 10o valor deve ser 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> o 10o valor deve ser 30.5

Portanto, você tem 10 - 1 = 9 graus de liberdade. Não importa qual tamanho amostral você usa, ou que valor da media você usa — o último valor da amostra não está livre para variar. Você termina com n - 1 graus de liberdade, em que n é o tamanho amostral.

Outra maneira de dizer isso é que o número de graus de liberdade é igual ao número de “observações” menos o número de relacionamentos necessários entre as observações (por exemplo, o número de estimativas de parâmetros). Para um teste t para 1 amostra, um grau de liberdade é utilizado na estimativa da média, e os restantes n - 1 graus de liberdade estimam a variabilidade.

Então, os graus para liberdade definem a distribuição t específica que é usada para calcular os valores-p e os valores-t para o teste t.

Observe que, para tamanhos amostrais pequenos (n), que correspondem a graus de liberdade menores (n - 1 para o teste t para 1 amostra), a distribuição t apresenta caudas mais encorpadas. Isso ocorre porque a distribuição t foi especialmente concebida para fornecer resultados de teste mais conservadores ao analisar amostras pequenas (como as da indústria cervejeira). À medida que o tamanho amostral (n) aumenta, o número de graus de liberdade também aumenta e a distribuição t se aproxima de uma distribuição normal.

Graus de liberdade: Teste Qui-Quadrado para Independência

Vamos observar outro contexto. Um teste qui-quadrado para independência é usado para determinar se duas variáveis categóricas são dependentes. Para este teste, os graus de liberdade são o número de células na tabela 2x2 das variáveis categóricas que podem variar, dadas as restrições dos totais marginais das linhas e das colunas. Portanto, cada "observação", neste caso, é uma freqüência em uma célula.

Considere o exemplo mais simples: uma tabela 2x2, com duas categorias e dois níveis para cada categoria:

 

Categoria A

Total

Categoria B

        ?

  

       6

 

 

      15

Total

     10

      11

      21

Não importa quais valores você usa para os totais marginais das linhas e as colunas. Quando esses valores são definidos, há apenas um valor de célula que pode variar (mostrado aqui com o ponto de interrogação, mas que pode ser qualquer uma das quatro células). Depois de inserir um número para uma célula, os números de todas as outras células são predeterminadas pelos totais de linha e coluna. Eles não estão livres para variar. Portanto, o teste do qui-quadrado para independência tem apenas 1 grau de liberdade para uma tabela 2x2.

Da mesma forma, uma tabela 3x2 tem 2 graus de liberdade, porque apenas duas das células podem variar para um determinado conjunto de totais marginais.

 

Categoria A

 Total

Categoria B

         ?

        ?

 

      15

 

 

 

      15

Total

      10

      11

     9

       30

Se você experimentasse tabelas com tamanhos diferentes, acabaria encontrando um padrão geral. Para uma tabela com r linhas e c colunas, o número de células que pode variar é (r-1) (c-1). E essa é a fórmula para os graus de liberdade para o teste do qui-quadrado da independência!

Dessa forma, os graus de liberdade definem a distribuição qui-quadrado usada para avaliar a independência para o teste.

A distribuição qui-quadrado é positivamente assimétrica. À medida que os graus de liberdade aumentam, aproximam-se da curva normal.

Graus de liberdade e Regressão:

Os graus de liberdade estão mais envolvidos no contexto da regressão. Em vez de me arriscar a perder o único leitor que está ainda lendo isto (Oi, mãe!), vou direto ao ponto.

Lembre-se de que, de maneira geral, os graus de liberdade são iguais ao número de observações (pontos de dados) menos o número de parâmetros estimados. Quando você realiza a regressão, um parâmetro é estimado para cada termo no modelo e cada um deles consome um grau de liberdade. Portanto, incluir termos em excesso em um modelo de regressão múltipla reduz os graus de liberdade disponíveis para estimar a variabilidade dos parâmetros. Na verdade, se a quantidade de dados não for suficiente para o número de termos em seu modelo, pode não haver graus de liberdade (GL) suficientes para o termo de erro e nenhum valor-p ou valores-F poderão ser calculados de forma alguma. Você terá uma saída assim:

Se isso acontecer, você precisará coletar mais dados (para aumentar os graus de liberdade) ou descartar termos de seu modelo (para reduzir o número de graus de liberdade necessários). Portanto, os graus de liberdade exercem efeitos reais e tangíveis sobre sua análise de dados, apesar de existirem nas profundezas do domínio de um vetor aleatório.

Acompanhamento

Este post oferece uma introdução básica e informal aos graus de liberdade na estatística. Se você quiser aprofundar sua compreensão conceitual dos graus de liberdade, confira este artigo clássico no Journal of Educational Psychology, da Dra. Helen Walker, professora assistente no departamento de educação em Colúmbia, que foi a primeira presidente do sexo feminino da American Statistical Association. Outra boa referência geral é oferecida por Pandy, S., e Bright, C. L., Social Work Research Vol 32, número 2, junho de 2008, disponível aqui.

 

*Alguns dos links relacionados podem conter informações em outros idiomas