Como identificar as variáveis preditoras mais importantes em modelos de regressão

Minitab Blog Editor | 11 Junho, 2019

Tópicos: analise de dados

Você realizou uma regressão linear múltipla e estabeleceu um modelo que contém várias variáveis preditoras que são estatisticamente significativas. Nesse ponto, normalmente surge a pergunta: "Qual variável é mais importante?”

A primeira vista, esta questão é mais complicada do que parece. Por um lado, a maneira como você define “mais importante” geralmente depende da sua área de especialidade e de seus objetivos. Adicionalmente, a maneira utilizada para coletar e medir os dados amostrais pode influenciar a importância aparente de cada variável.

Tendo em vista tais situações, ajudarei você a responder a essa pergunta. Começarei mostrando estatísticas que não respondem à pergunta sobre importância, o que pode surpreendê-lo. Em seguida, passarei aos métodos estatísticos e não estatísticos para determinar quais variáveis são mais importantes nos modelos de regressão.

Não compare os coeficientes de regressão regular para determinar a importância da variável

Os coeficientes de regressão descrevem o relacionamento entre cada variável preditora e a resposta. O valor do coeficiente representa a mudança média na resposta, dado o aumento de uma unidade no preditor. Consequentemente, é fácil achar que variáveis com coeficientes maiores são mais importantes porque representam uma mudança maior na resposta.

No entanto, as unidades variam entre os diferentes tipos de variáveis, o que inviabiliza sua comparação direta. Por exemplo, o significado da alteração de uma unidade é muito diferente se você estiver falando sobre temperatura, peso ou concentração de substâncias químicas.

Esse problema fica ainda mais complicado pelo fato de haver diferentes unidades dentro de cada tipo de medição. Por exemplo, o peso pode ser medido em gramas e quilogramas. Se você ajusta modelos para o mesmo conjunto de dados usando gramas em um modelo e quilogramas em outro, o coeficiente de peso muda por um fator de mil, embora o ajuste subjacente do modelo permaneça inalterado. O valor do coeficiente muda muito, embora a importância da variável permaneça constante.

Lições aprendidas: Os coeficientes maiores não identificam necessariamente as variáveis preditoras mais importantes.

Não compare valores-p para determinar a importância da variável

O valor do coeficiente não indica a importância de uma variável, mas e quando se trata do valor-p da variável? No final das contas, procuramos valores-p baixos para ajudar a determinar se a variável deve ser incluída no modelo em primeiro lugar.

Os cálculos do valor-p incorporam várias propriedades, mas uma medida de importância não está entre elas. Um valor-p muito baixo pode refletir outras propriedades além da importância, como uma estimativa muito precisa e um tamanho amostral grande.

Efeitos que são triviais no mundo real podem ter valores-p muito baixos. Um resultado estatisticamente significativo pode não ser significativo na prática.

Lições aprendidas: Valores-p baixos não identificam necessariamente variáveis preditoras que são importantes na prática.

Compare estas estatísticas para determinar a importância da variável

Excluímos algumas das estatísticas mais óbvias que não conseguem avaliar a importância das variáveis. Felizmente, existem várias estatísticas que podem nos ajudar a determinar quais variáveis preditoras são mais importantes nos modelos de regressão. Estas estatísticas podem não estar em concordância porque a maneira como cada uma delas define "mais importante" é um pouco diferente.

Coeficientes de regressão padronizados

Expliquei como os coeficientes de regressão regulares usam escalas diferentes e não é possível compará-los diretamente. No entanto, se você padronizar os coeficientes de regressão para que eles sejam baseados na mesma escala, será possível compará-los.

Para obter coeficientes padronizados, padronize os valores para todos os seus preditores contínuos. No Minitab, você pode fazer isso facilmente clicando no botão Codificando na caixa de diálogo principal Regressão. Em Padronizar preditores contínuos, selecione Subtrai a média e divide pelo desvio padrão.

Depois de ajustar o modelo de regressão usando seus preditores padronizados, observe os coeficientes codificados, que são os coeficientes padronizados. Essa codificação coloca os diferentes preditores na mesma escala e permite que você faça uma comparação direta entre seus coeficientes. Os coeficientes padronizados representam a mudança média na resposta dada à mudança de um desvio padrão no preditor.

Lições aprendidas: Procure pela variável preditora com o maior valor absoluto para o coeficiente padronizado.

Mudança no R-quadrado quando a variável é adicionada ao modelo por último

A regressão múltipla no menu Assistente do Minitab inclui uma análise clara. Calcula o aumento no R-quadrado que cada variável produz quando é adicionada a um modelo que já contém todas as outras variáveis.

Como a mudança na análise do R-quadrado trata cada variável como se fosse a última inserida no modelo, a mudança representa a porcentagem de variância explicada por uma variável que não pode ser explicada por outras variáveis do modelo. Em outras palavras, essa mudança no R-quadrado representa a quantidade de variância única explicada por cada variável acima e além das outras variáveis no modelo.

Lições aprendidas: Procure pela variável preditora que está associada ao maior aumento no R-quadrado.

minitab-statistical-software-fale-com-a-minitab

Um exemplo de uso da estatística para identificar as variáveis mais importantes em um modelo de regressão

A saída de exemplo abaixo mostra um modelo de regressão que tem três preditores. A saída do texto é produzida pela análise de regressão regular no Minitab. Eu padronizei os preditores contínuos usando a caixa de diálogo Codificando para que seja possível ver os coeficientes padronizados, que são rotulados como coeficientes codificados. Você encontrará esta análise no menu do Minitab: Estat > Regressão > Regressão > Modelo de regressão ajustado.

O relatório com os gráficos é produzido pela opção de Regressão múltipla no menu Assistente. Você encontrará esta análise no menu do Minitab: Assistente > Regressão > Regressão múltipla.

coeficientes-codificados

regressao-multipla-para-fuxo-de-calo

Os coeficientes padronizados mostram que o Norte tem coeficiente padronizado com o maior valor absoluto, seguido por Sul e Leste. O gráfico de Impacto incremental mostra que o Norte explica a maior quantidade de variância única, seguido por Sul e Leste. Para nosso exemplo, ambas as estatísticas sugerem que o Norte é a variável mais importante no modelo de regressão.

Advertências para a utilização de estatísticas para identificar variáveis importantes

As medições estatísticas podem mostrar a importância relativa das diferentes variáveis preditoras. No entanto, essas medidas não conseguem determinar se as variáveis são importantes na prática. Para determinar a importância prática, você precisará usar o conhecimento de sua área de especialidade.

A forma como você coleta e mede sua amostra pode influenciar a aparente importância das variáveis em sua amostra em comparação com sua verdadeira importância na população.

Se você amostrar aleatoriamente suas observações, a variabilidade dos valores do preditor em sua amostra provavelmente refletirá a variabilidade na população. Nesse caso, os coeficientes padronizados e a mudança nos valores do R-quadrado provavelmente refletirão seus valores populacionais.

No entanto, se você selecionar um intervalo restrito de valores de predição para sua amostra, ambas as estatísticas tendem a subestimar a importância desse preditor. Por outro lado, se a variabilidade da amostra para um preditor for maior que a variabilidade na população, as estatísticas tenderão a superestimar a importância desse preditor.

Além disso, considere a exatidão e a precisão das medições para seus preditores, porque isso pode afetar sua importância aparente. Por exemplo, medições de baixa qualidade podem fazer com que uma variável pareça menos preditiva do que realmente é.

Se seu objetivo for alterar o significado da resposta, você deve estar confiante de que existem relações causais entre os preditores e a resposta, e não apenas uma correlação. Se houver uma correlação observada, mas nenhuma causa, as alterações intencionais nos valores do preditor não produzirão necessariamente a mudança desejada na resposta, independentemente das medidas estatísticas de importância.

Para determinar se existe uma relação causal, você normalmente precisa realizar um experimento planejado em vez de um estudo de observações.

Considerações não estatísticas para identificação de variáveis importantes

A maneira como você define “a mais importante” geralmente depende de seus objetivos e da área de especialidade. Embora as estatísticas possam ajudá-lo a identificar as variáveis mais importantes em um modelo de regressão, é fundamental aplicar os conhecimentos da área de especialização a todos os aspectos da análise estatística. Os problemas do mundo real provavelmente influenciam a variável que você identifica como a mais importante em um modelo de regressão.

Por exemplo, se sua meta for alterar os valores do preditor para alterar a resposta, use sua experiência para determinar quais variáveis apresentam maior viabilidade para a alteração. Pode haver variáveis cuja mudança é mais complicada e custosa. É possível que algumas variáveis não possam ser mudadas de forma alguma. Às vezes, é mais prático fazer uma mudança de grande porte em uma variável do que uma mudança pequena em outra variável.

“A mais importante” é uma característica subjetiva e sensível ao contexto. Você pode usar a estatística para ajudar a identificar candidatos para a variável mais importante em um modelo de regressão, mas é provável que você também precise usar seus conhecimentos da área de especialidade.

Se você está aprendendo sobre regressão, leia meu tutorial sobre regressão!

 

*Alguns links relacionados podem estar em outros idiomas.