A regressão múltipla pode ser uma análise atraente e cheia de tentações. É fácil demais adicionar mais variáveis conforme você pensa nelas ou apenas porque os dados são úteis. Alguns dos preditores serão significativos. Talvez haja um relacionamento, ou é apenas um acaso? Você pode adicionar polinômios de ordem superior a fim de curvar e girar a linha ajustada como quiser, mas você está ajustando padrões reais ou apenas conectando os pontos? O tempo todo, o valor do R-quadrado (R2) aumenta, provocando e incitando você a adicionar mais variáveis!
Anteriormente, mostrei como o R-quadrado pode ser enganoso quando você avalia a qualidade do ajuste para a análise de regressão linear. Neste post, veremos por que você deve resistir ao desejo de adicionar muitos preditores a um modelo de regressão e como o R-quadrado ajustado e o R-quadrado predito podem ajudar!
Alguns problemas com o R-quadrado
No meu último post, mostrei como o R-quadrado não consegue determinar se as estimativas e predições dos coeficientes são viesadas, e é por isso que você deve avaliar os gráficos de resíduos. No entanto, o R-quadrado tem outros problemas que o R-quadrado ajustado e o R-quadrado predito, de acordo com sua concepção, podem resolver.
Problema 1: Toda vez que você adiciona um preditor a um modelo, o R-quadrado aumenta, mesmo que apenas por acaso. Ele nunca diminui. Consequentemente, um modelo com mais termos pode parecer ter um melhor ajuste simplesmente porque tem mais termos.
Problema 2: Se um modelo possui muitos preditores e polinômios de ordem superior, ele começa a modelar o ruído aleatório nos dados. Essa condição é conhecida como sobreajuste do modelo e produz valores de R-quadrado ilusoriamente altos e uma capacidade reduzida de fazer predições.
O que é o R-quadrado ajustado?
O R-quadrado ajustado compara o poder explicativo dos modelos de regressão que contêm diferentes números de preditores.
Suponha que você compare um modelo de cinco preditores que tem um R-quadrado mais alto a um modelo com um preditor. O modelo de cinco preditores têm um R-quadrado mais alto porque é melhor? Ou o R-quadrado é mais alto porque tem mais preditores? Basta comparar os valores do R-quadrado ajustados para descobrir!
O R-quadrado ajustado é uma versão modificada do R-quadrado que foi ajustada para o número de preditores no modelo. O R-quadrado ajustado aumenta somente se o novo termo melhorar o modelo mais do que seria esperado pelo acaso. Ele diminui quando um preditor melhora o modelo menos do que o esperado por acaso. O R-quadrado ajustado pode ser negativo, mas geralmente não é. É sempre menor que o R-quadrado.
Na saída da Regressão dos Melhores Subconjuntos simplificada mostrada abaixo, você pode ver onde o R-quadrado ajustado chega ao pico e depois declina. Enquanto isso, o R-quadrado continua a aumentar.
Você pode querer incluir apenas três preditores neste modelo. No meu último blog, vimos como um modelo subespecificado (um que era simples demais) pode produzir estimativas tendenciosas. No entanto, um modelo superespecificado (aquele que é muito complexo) tem maior probabilidade de reduzir a precisão das estimativas dos coeficientes e dos valores preditos. Consequentemente, você não deseja incluir mais termos no modelo do que o necessário. (Leia um exemplo de como usar a Regressão de Melhores Subconjuntos do Minitab).
Como última observação, um uso diferente para o R-quadrado ajustado é que ele fornece uma estimativa não viesada do R-quadrado da população.
O que é o R-quadrado predito?
O R-quadrado predito indica em que medida um modelo de regressão prediz bem as respostas para novas observações. Essa estatística ajuda a determinar quando o modelo ajusta os dados originais, mas é menos capaz de produzir predições válidas para as novas observações. (Leia um exemplo de como usar a regressão para fazer predições).
O Minitab calcula o R-quadrado predito removendo sistematicamente cada observação do conjunto de dados, estimando a equação de regressão e determinando como o modelo prediz a observação removida. Exatamente como acontece com o R-quadrado ajustado, o R-quadrado predito pode ser negativo e sempre menor que o R-quadrado.
Mesmo que você não planeje usar o modelo para predições, o R-quadrado predito ainda oferece informações cruciais.
Um dos principais benefícios do R-quadrado predito é que ele pode impedir que você faça um sobreajuste ao modelo. Como mencionado anteriormente, um modelo sobreajustado contém preditores em demasia e começa a modelar o ruído aleatório.
Como é impossível prever o ruído aleatório, o R-quadrado predito deve apresentar uma redução quando se trata de um modelo sobreajustado. Se você vir um R-quadrado predito que seja muito mais baixo que o R-quadrado regular, é quase certo que há termos demais no modelo.
Exemplos de modelos sobreajustados e R-quadrados preditos
Você pode experimentar esses exemplos usando este arquivo de projeto do Minitab que contém duas worksheets. Se você quiser acompanhar melhor e ainda não fez o download do teste gratuito de 30 dias do Minitab Statistical Software, pode baixar agora!
Há uma maneira fácil de ver um modelo sobreajustado em ação. Se você analisar um modelo de regressão linear que tenha um preditor para cada grau de liberdade, sempre obterá um R-quadrado de 100%!
Na worksheet de dados aleatórios, criei 10 linhas de dados aleatórios para uma variável resposta e nove preditores. Como existem nove preditores e nove graus de liberdade, obtemos um R-quadrado de 100%.
Parece que o modelo é responsável por toda a variação. No entanto, sabemos que os preditores aleatórios não têm relação com a resposta aleatória! Estamos apenas ajustando a variabilidade aleatória.
Esse é um caso extremo, mas vamos ver alguns dados reais na planilha de classificação do presidente.
Esses dados vêm do meu post sobre grandes presidentes. Não encontrei nenhuma associação entre o maior índice de aprovação de cada presidente e a classificação do historiador. Na verdade, eu descrevi que o gráfico de linhas ajustadas (abaixo) como um exemplo de relação nula (nenhuma), uma linha reta com um R-quadrado de 0.7%!
Digamos que não conhecêssemos bem o assunto e que fizemos um sobreajuste no modelo por meio da inclusão do maior índice de aprovação como um polinômio cúbico.
Caramba! Tanto o R-quadrado quanto o R-quadrado ajustado parecem muito bons! Além disso, as estimativas dos coeficientes são todas significativas porque seus valores-p são menores que 0.05. Os gráficos de resíduos (não mostrados) também parecem bons. Ótimo!
Mas espere um pouco... tudo o que estamos fazendo é curvar excessivamente a linha ajustada para conectar artificialmente os pontos, em vez de encontrar um relacionamento verdadeiro entre as variáveis.
Nosso modelo é complicado demais e o R-quadrado predito mostra isso. Na verdade, temos um valor de R-quadrado predito negativo. Um valor R-quadrado negativo é raro e contraintuitivo e, portanto, começando com o Minitab versão 17, se um valor de R-quadrado for negativo, o Minitab mostrará 0%.
O R-quadrado predito não precisa ser negativo para indicar um modelo sobreajustado. Se ficar evidente que o R-quadrado predito começa a cair à medida que você adiciona preditores, mesmo que sejam significativos, você deve começar a se preocupar com o sobreajuste do modelo.
Considerações finais sobre o R-quadrado ajustado e o R-quadrado predito
Todos os dados contêm uma quantidade natural de variabilidade que é inexplicável. Infelizmente, o R-quadrado não respeita esses limites naturais. A nossa busca por um valor alto de R-quadrado pode nos forçar a incluir preditores em demasia em uma tentativa de explicar o inexplicável.
Nesses casos, pode ser que você obtenha um valor de R-quadrado mais alto, mas ao custo de resultados enganosos, precisão reduzida e menor capacidade menor de fazer predições.
Tanto o R-quadrado ajustado quanto o R-quadrado predito proporcionam informações que ajudam a avaliar o número de preditores em seu modelo:
- Use o R-quadrado ajustado para comparar modelos com diferentes números de preditores
- Use o R-quadrado predito para determinar em que medida o modelo faz uma boa predição das novas observações e se o modelo é complicado demais
A análise de regressão é eficiente, mas certamente você deseja ser seduzido por essa eficiência e usá-la imprudentemente!
Se você está aprendendo sobre regressão, leia meu tutorial sobre regressão!
*Alguns dos links relacionados podem conter informações em outros idiomas