*Alguns dos links relacionados podem conter informações em outros idiomas
A análise de regressão gera uma equação para descrever a relação estatística entre uma ou mais variáveis preditoras e a variável resposta. Depois de usar o Software Estatístico Minitab para ajustar um modelo de regressão e verificar o ajuste em verificação dos gráficos de resíduos, você deverá interpretar os resultados. Neste post mostrarei como interpretar os valores-p e os coeficientes que aparecem na saída da análise de regressão linear.
O valor-p para cada termo testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Um valor-p baixo (< 0,05) indica que você pode rejeitar a hipótese nula. Em outras palavras, uma preditora que tenha um valor-p baixo provavelmente será uma adição significativa ao seu modelo, porque as alterações no valor da preditora estão relacionadas a alterações na variável resposta.
Por outro lado, um valor-p maior (insignificante) sugere que as mudanças na preditora não estão associadas a mudanças na resposta.
Na saída abaixo, podemos ver que as variáveis preditoras do Sul e do Norte são significativas porque ambos os valores-p são 0,000. No entanto, o valor-p para o Leste (0,092) é maior do que o nível alfa comum de 0,05, o que indica que ele não é estatisticamente significativo.
Normalmente você usa os valores-p dos coeficientes para determinar quais termos devemos manter no modelo de regressão. No modelo acima, devemos considerar a remoção de Leste.
Relacionado:Teste F para significância global
Os coeficientes de regressão representam a mudança média na variável resposta para uma unidade de mudança na variável preditora, mantendo as outras preditoras na constante do modelo. Esse controle estatístico que a regressão proporciona é importante porque isola o papel de uma variável de todas as outras no modelo.
A chave para entender os coeficientes é pensar neles como inclinações, e eles são frequentemente chamados de coeficientes de inclinação. Ilustrarei isso no gráfico de linhas abaixo, onde usarei a altura de uma pessoa para modelar seu peso. Primeiro, a saída da janela de sessão do Minitab:
O gráfico de linha ajustada mostra graficamente os mesmos resultados de regressão.
A equação mostra que o coeficiente para a altura em metros é 111,7 kg. O coeficiente indica que para cada metro adicional de altura você pode esperar que o peso aumente, em média, em 111,7 kg.
A linha vermelha ajustada mostra graficamente a mesma informação. Se você se mover para a esquerda ou para a direita ao longo do eixo x em um valor que represente uma mudança de um metro de altura, a linha ajustada aumenta ou diminui em 111,7 kg. Entretanto, estas alturas são de garotas de 5a. a 8a. série do ensino fundamental, e variam entre os 1,3 me 1,7 m. A relação é válida apenas dentro desse intervalo de dados, portanto neste caso nós não vamos deslocar para cima ou para baixo a linha em um metro inteiro.
Se a linha ajustada era plana (um coeficiente de inclinação de zero), o valor esperado para o peso não mudaria, não importando o quão longe a linha fosse mexida para cima ou para baixo. Assim, um valor-p baixo sugere que a inclinação não é zero, o que sugere que mudanças na variável preditora estão associadas a mudanças na variável resposta.
Eu usei um gráfico de linha ajustada porque ele realmente faz a matemática mostrar a sua cara. No entanto, os gráficos da linha ajustada só podem exibir os resultados da regressão simples, que é uma variável preditora e a resposta. Os conceitos são verdadeiros para a regressão linear múltipla, mas eu precisaria de uma dimensão espacial extra para cada preditora adicional para plotar os resultados. Isso é difícil de mostrar com a tecnologia atual!
No exemplo acima, a altura é um efeito linear; a inclinação é constante, o que indica que o efeito também é constante ao longo de toda a linha ajustada. No entanto, se o seu modelo requer termos polinomiais ou de interação, a interpretação é um pouco menos intuitiva.
Relembre que termos polinomiais modelam a curvatura nos dados, enquanto os termos de interação indicam que o efeito de uma preditora depende do valor de outra preditora.
O próximo exemplo usa um conjunto de dados que requer um termo quadrático (ao quadrado) para modelar a curvatura. Na saída abaixo, vemos que os valores-p para os termos linear e quadrático são significativos.
Os gráficos de resíduos (não mostrados) indicam um bom ajuste, de forma que podemos prosseguir com a interpretação. Mas como interpretaremos esses coeficientes? Ajuda muito fazer um gráfico de linha ajustada.
É possível ver como a relação entre a configuração da máquina e o consumo de energia varia dependendo de onde você começa na linha ajustada. Por exemplo, se você iniciar em uma configuração de máquina 12 e aumentar a configuração em 1 unidade, você pode esperar que o consumo de energia diminuísse. Mas se você começar em 25, um aumento de 1 aumentaria o consumo de energia. E se você começar por volta 20, o consumo de energia não deve mudar muito.
Um termo polinomial significativo pode tornar a interpretação menos intuitiva porque o efeito de alterar a preditora varia dependendo do valor dessa preditora. Da mesma forma, um termo de interação significativo indica que o efeito da preditora varia dependendo do valor de uma preditora diferente.
Tome muito cuidado ao interpretar um modelo de regressão que contenha esses tipos de termos. Não é possível simplesmente olhar para o efeito principal (termo linear) e entender o que está acontecendo! Infelizmente, se você estiver realizando uma análise de regressão múltipla, não será possível usar um gráfico de linha ajustada para interpretar graficamente os resultados. Este é o lugar onde o conhecimento da área é muito valioso!
Os leitores realmente atentos podem ter notado que eu não contei como interpretar a constante. Eu abordarei no meu próximo post!
Certifique-se de:
Se você está aprendendo sobre regressão, leia meu tutorial sobre regressão!