Blog da Minitab

Basta! Lidando com a multicolinearidade na análise de regressão

Written by Minitab Blog Editor | 19/abr/2019 16:28:58

Na análise de regressão observamos as correlações entre uma ou mais variáveis de entrada, ou fatores, e uma resposta. Podemos ver como o tempo de cozimento e a temperatura do forno se relacionam com a dureza de um pedaço de plástico, ou como os níveis educacionais e a região de seu nascimento estão relacionados à renda anual. O número de fatores potenciais que você pode incluir em um modelo de regressão é limitado apenas por sua imaginação... e sua capacidade de reunir na prática os dados que você imaginou.

Mas antes de lançar dados sobre cada potencial preditora existente em seu modelo de regressão, lembre-se de uma coisa chamada multicolinearidade. Com a regressão, como acontece com tantas coisas na vida, chega um ponto em que adicionar mais não melhora. Na verdade, às vezes, acrescentar "mais" fatores a um modelo de regressão não apenas falha em deixar as coisas mais claras, como também torna as coisas mais difíceis de serem entendidas!

O que é multicolinearidade e por que devo me importar com isso?

Em regressão, "multicolinearidade" refere-se a preditoras correlacionadas com outras preditoras. A multicolinearidade ocorre quando o modelo inclui vários fatores correlacionados não apenas à sua variável de resposta, mas também uns aos outros. Em outras palavras, resulta quando você tem fatores que são, de certa forma, um pouco redundantes.

Você pode pensar sobre isso em termos de um jogo de futebol americano: Se um jogador enfrentar o quarterback adversário, é fácil dar crédito ao sack onde o crédito é devido. Mas se três jogadores estão atacando o quarterback simultaneamente, é muito mais difícil determinar qual dos três faz a maior contribuição para o sack.

Não entende de futebol americano? OK, tente esta analogia então: Você vai ver uma banda de rock and roll com dois grandes guitarristas. Você está ansioso para ver qual deles toca melhor. Mas no palco, ambos estão tocando trechos de música ao mesmo tempo! Quando os dois estão tocando alto e rápido, como você pode dizer qual guitarrista tem o maior efeito no som? Mesmo que eles não estejam tocando as mesmas notas, o que eles estão fazendo é tão similar que é difícil distinguir um do outro.

Esse é o problema com a multicolinearidade.

A multicolinearidade aumenta os erros padrão dos coeficientes. O aumento dos erros padrão, por sua vez, significa que os coeficientes para algumas variáveis independentes podem não ser significativamente diferentes de 0. Em outras palavras, ao super-inflacionar os erros padrão, a multicolinearidade torna algumas variáveis estatisticamente insignificantes quando deveriam ser significativas. Sem multicolinearidade (e, portanto, com erros padrão mais baixos), esses coeficientes poderiam ser significativos.

Sinais de aviso de multicolinearidade

Um pouco de multicolinearidade não é necessariamente um grande problema: ampliando a analogia da banda de rock, se um guitarrista for mais barulhento que o outro, você poderá diferenciá-lo facilmente. Mas a multicolinearidade grave é um grande problema, porque aumenta a variância dos coeficientes de regressão, tornando-os instáveis. Quanto mais variância eles têm, mais difícil é interpretar os coeficientes.

Então, como você sabe se precisa se preocupar com multicolinearidade em seu modelo de regressão? Aqui estão algumas coisas para serem observadas:

  • Um coeficiente de regressão não é significativo, embora, teoricamente, essa variável deveria ser altamente correlacionada com Y.
  • Quando você adiciona ou exclui uma variável X, os coeficientes de regressão mudam drasticamente.
  • Você observa um coeficiente de regressão negativo quando sua resposta deveria aumentar junto com o X.
  • Você observa um coeficiente de regressão positivo quando a resposta deveria diminuir conforme X aumenta.
  • Suas variáveis X têm correlações emparelhadas altas .

Uma maneira de medir a multicolinearidade é o fator de inflação da variância (VIF), que avalia o quanto a variância de um coeficiente de regressão estimado aumenta se as suas preditoras estiverem correlacionadas. Se nenhum fator estiver correlacionado, os VIFs serão todos 1.

O VIF é incluído com os resultados padrão no Minitab, junto com as tabelas simples que incluem os coeficientes. Aqui está um exemplo envolvendo alguns dados que analisam a relação entre salário de pesquisador, publicações e anos de emprego:

Se o VIF for igual a 1 não há multicolinearidade entre os fatores, mas se o VIF for maior que 1, as preditoras podem estar moderadamente correlacionadas. A saída acima mostra que o VIF para os fatores de publicação e anos são cerca de 1.5, o que indica alguma correlação, mas não o suficiente para se preocupar demais com isso. Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático. E se o VIF for acima de 10, você pode assumir que os coeficientes de regressão estão mal estimados devido à multicolinearidade.

Você vai querer tomar alguma providência em relação a isso.

Como posso lidar com a multicolinearidade?

Se a multicolinearidade for um problema em seu modelo - se o VIF para um fator estiver próximo ou acima de 5 - a solução pode ser relativamente simples. Experimente uma destas:

  • Remova do modelo as preditoras que são altamente correlacionadas. Se você tiver dois ou mais fatores com um VIF alto, remova um deles do modelo. Como eles fornecem informações redundantes, a remoção de um dos fatores correlacionados geralmente não reduz drasticamente o R-quadrado. Considere o uso de regressão stepwise, regressão melhores subconjuntos, ou o conhecimento especializado do conjunto de dados para remover essas variáveis. Selecione o modelo que apresenta o maior valor de R-quadrado.
  • Use Regressão de Mínimos Quadrados Parciais (PLS) ou Análise de Componentes Principais, que são métodos de regressão que reduzem o número de preditoras a um conjunto menor de componentes não correlacionados.

Com o Software Estatístico Minitab é fácil usar as ferramentas disponíveis no menu Estat > Regressão para testar rapidamente diferentes modelos de regressão a fim de encontrar o melhor. Se você não estiver usando, convidamos você a experimentar o Minitab gratuitamente por 30 dias.

 

*Alguns dos links relacionados podem conter informações em outros idiomas