O termo constante na análise de regressão linear parece ser uma coisa tão simples. Também conhecido como intercepto y, é simplesmente o valor no qual a linha ajustada cruza o eixo y.
Embora o conceito seja simples, já vi muita confusão em relação à interpretação da constante. Esse não é um fato surpreendente, pois o valor do termo constante é quase sempre sem significado!
Paradoxalmente, embora o valor não tenha significado de forma geral, é essencial incluir o termo constante na maioria dos modelos de regressão!
Neste post, mostrarei tudo o que você precisa saber sobre a constante na análise de regressão linear.
Usarei gráficos de linha ajustada para ilustrar os conceitos, porque isso realmente dá vida à matemática. No entanto, os gráficos de linha ajustada bidimensionais só podem mostrar os resultados da regressão simples, que tem uma variável preditora e a resposta. Os conceitos são verdadeiros para a regressão linear múltipla, mas não consigo representar graficamente as dimensões superiores necessárias.
Por vezes, a definição de valor zero para todas as variáveis preditoras é impossível
É muito comum eu ver a constante descrita como o valor médio de resposta quando todas as variáveis preditoras são definidas como zero. Matematicamente, isso está certo. No entanto, uma definição de valor zero para todos os preditores em um modelo é normalmente uma combinação impossível/absurda, como no exemplo a seguir.
No meu último post sobre a interpretação dos valores-p e coeficientes de regressão, usei um gráfico de linha ajustada para ilustrar uma análise de regressão de peso por altura. Abaixo, alterei a escala do eixo y nesse gráfico de linha ajustada, mas os resultados da regressão são os mesmos de antes.
Se você seguir a linha ajustada vermelha até onde ela intercepta o eixo y, encontrará um valor bastante negativo. A partir da equação de regressão, vemos que o valor do intercepto é -121.8. Se a altura for zero, a equação de regressão prevê que o peso seja de -121.8 kg!
É óbvio que esta constante não tem significado e você nem deveria tentar dar um significado a ela. Nenhum ser humano pode ter altura zero ou peso negativo!
Agora imagine uma análise de regressão múltipla com muitos preditores. Para falar de forma realista, é ainda mais improvável que TODOS os preditores possam ser definidos como zero.
Se nenhum dos preditores puderem assumir o valor de zero, é impossível interpretar o valor da constante. Não adianta nem tentar!
As definições de valor zero para todas as variáveis preditoras pode estar fora do intervalo dos dados
Mesmo que seja possível que todas as variáveis preditoras sejam iguais a zero, esse ponto de dados pode estar fora do intervalo dos dados observados.
Você nunca deve usar um modelo de regressão para fazer uma predição para um ponto que esteja fora do intervalo de seus dados porque o relacionamento entre as variáveis pode mudar. O valor da constante é uma predição para o valor de resposta quando todos os preditores são iguais a zero. Se você não coletou dados nesse intervalo de zeros, não pode confiar no valor da constante.
O exemplo de altura por peso ilustra esse conceito. Esses dados são de meninas do ensino fundamental II e não é possível estimar o relacionamento entre as variáveis fora do intervalo de peso e altura observados. No entanto, podemos ter a sensação de que o relacionamento muda ao marcar o peso e a altura médios de um bebê recém-nascido no gráfico. Essa não é uma altura totalmente zerada, mas é o mais perto que podemos chegar.
Eu desenhei o círculo vermelho perto da origem para aproximar a altura e peso médios do recém-nascido. Você pode ver claramente que o relacionamento deve mudar à medida que você amplia o intervalo de dados!
Assim, a relação que vemos para os dados observados é localmente linear, mas muda para além desses limites. É essa é a razão pela qual você não deve fazer predições fora do intervalo de seus dados ... e outra razão pela qual a constante de regressão pode estar sem significado.
A constante é o coletor de lixo para o modelo de regressão
Mesmo que a definição zero para todos os preditores seja um cenário plausível, e mesmo se você coletar dados dentro desse intervalo de zero, a constante ainda pode ser sem significado!
O termo constante é, em parte, estimado pela omissão dos preditores de uma análise de regressão. Em essência, ele serve como uma lixeira para qualquer viés que não seja considerado pelos termos do modelo. Você pode visualizar isso imaginando que a linha de regressão flutua para cima e para baixo (ajustando a constante) até um ponto em que a média dos resíduos seja zero, o que é uma suposição fundamental para a análise de resíduos. Essa flutuação não se fundamenta no que faz sentido para a constante, mas sim no que funciona matematicamente para produzir essa média zero.
A constante garante que os resíduos não tenham um viés global positivo ou negativo, mas também dificulta a interpretação do valor da constante porque absorve o viés.
Por que é fundamental incluir a constante em um modelo de regressão?
Logo acima, vimos um dos principais motivos pelos quais você deve incluir a constante em seu modelo de regressão. Garante que seus resíduos tenham uma média de zero.
Além disso, se você não incluir a constante, a linha de regressão será forçada a percorrer a origem. Isso significa que todos os preditores e a variável resposta devem ser iguais a zero nesse ponto. Se a linha ajustada não passar naturalmente pela origem, os coeficientes de regressão e as predições serão viesados caso você não inclua a constante.
Usarei o exemplo de regressão de altura e peso para ilustrar esse conceito. Primeiro, usarei a regressão geral no o software estatístico Minitab para ajustar o modelo sem a constante. Na saída abaixo, você pode ver que não há nenhuma constante, apenas um coeficiente para altura.
Em seguida, vou sobrepor a linha relacionada a essa equação no gráfico de linha ajustado anterior para que possamos comparar o modelo com e sem a constante.
A linha vermelha é a linha ajustada para o modelo de regressão com a constante, enquanto a linha verde é para o modelo sem a constante. Fica claro que a linha verde simplesmente não ajusta. A inclinação está distante e os valores preditos apresentam viés. Para o modelo sem a constante, as predições de peso tendem a ser altas demais para pessoas mais baixas e baixas demais para pessoas mais altas.
Em suma, normalmente não vale a pena interpretar a constante de regressão. Apesar disso, é quase sempre uma boa ideia incluir a constante em sua análise de regressão. No final, o valor real de um modelo de regressão corresponde à capacidade de compreender a maneira como a variável de resposta muda quando são alterados os valores das variáveis preditoras. Não se preocupe muito com a constante!
Se você está aprendendo sobre regressão, leia meu tutorial sobre regressão!
*Alguns links relacionados podem estar em outros idiomas.