Escolher o modelo correto de regressão linear pode ser difícil, e tentar criar o modelo com apenas uma amostra não facilita nada. Neste post revisaremos alguns métodos estatísticos comuns para a seleção de modelos, complicações que você poderá enfrentar e forneceremos alguns conselhos práticos para escolher o melhor modelo de regressão.
Começa quando um pesquisador deseja descrever matematicamente a relação entre algumas preditoras e a variável resposta. A equipe de pesquisa encarregada de investigar normalmente mede muitas variáveis, mas inclui apenas algumas delas no modelo. Os analistas tentam eliminar as variáveis que não estão relacionadas e incluir apenas aquelas que tenham um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos modelos possíveis.
Eles se esforçam para alcançar um equilíbrio perfeito com o número de preditoras que eles incluem.
- Muito poucas: Um modelo subespecificado tende a produzir estimativas tendenciosas.
- Muitas: Um modelo sobre-especificado tende a produzir estimativas menos precisas.
- Na medida certa: Um modelo com os termos corretos não tem viés e tem as estimativas mais precisas.
Métodos estatísticos para encontrar o melhor modelo de regressão
Para um bom modelo de regressão, você deseja incluir as variáveis que você está especificamente testando junto com outras variáveis que afetam a resposta, a fim de evitar resultados viesados. O Software Estatístico Minitab oferece medidas e procedimentos estatísticos que ajudam você a especificar seu modelo de regressão.
O R-quadrado ajustado e o R-quadrado predito. Geralmente, você escolhe os modelos que têm valores mais altos de R-quadrado ajustado e R-quadrado predito. Essas estatísticas são criadas para evitar um problema central com o R-quadrado comum - ele aumenta toda vez que você adiciona uma preditora e pode induzi-lo a especificar um modelo excessivamente complexo.
- O R-quadrado ajustado aumenta apenas se o novo termo melhorar o modelo mais do que seria esperado se fosse um acaso, e também pode diminuir com preditoras de baixa qualidade.
- O R-quadrado predito é uma forma de validação cruzada e também pode diminuir. A validação cruzada determina o quanto seu modelo é generalizável para outros conjuntos de dados através do particionamento de seus dados.
Valores-P para as preditoras: Na regressão, os valores-p baixos indicam termos estatisticamente significativos. A "redução o modelo" refere-se à prática de incluir todas as preditoras que sejam candidatas ao modelo e, em seguida, remover sistematicamente o termo com o valor-p mais alto, um a um, até que você fique com apenas preditoras significativas.
Regressão stepwise e Regressão nos melhores subconjuntos: Esses são dois procedimentos automatizados que podem identificar preditoras úteis durante os estágios exploratórios da construção de modelos. O Minitab fornece o Cp de Mallow na regressão nos melhores subconjuntos, que é uma estatística projetada especificamente para ajudá-lo a gerenciar a troca entre precisão e viés.
Complicações no mundo real
Ótimo, há vários métodos estatísticos para nos ajudar a escolher o melhor modelo. Infelizmente, também existem várias complicações potenciais. Não se preocupe, nós daremos alguns conselhos práticos!
- O melhor modelo pode ser tão bom quanto as variáveis medidas pelo estudo. Os resultados das variáveis incluídas na análise podem ser influenciados pelas variáveis significativas que você não incluir. Leia sobre um exemplo de viés de variável omitida.
- Sua amostra pode ser incomum, seja por acaso ou pela metodologia da coleta de dados. Falsos positivos e falsos negativos fazem parte do jogo quando se trabalha com amostras.
- Os valores-P podem mudar por causa dos termos específicos do modelo. Em particular, a multicolinearidade pode minar o significado e dificultar a determinação do papel de cada preditora.
- Se você avaliar suficientes modelos, você vai encontrar variáveis que parecem ser significativas, mas são correlacionadas somente por acaso. Essa forma de mineração de dados pode fazer com que dados aleatórios pareçam significativos. Um R-quadrado baixo é uma boa maneira de verificar esse problema.
- Valores-P, R-quadrado predito e ajustado e Cp de Mallows podem sugerir modelos diferentes.
- A regressão stepwise e a regressão melhores subconjuntos são ótimas ferramentas e podem aproximá-lo do modelo correto. No entanto, estudos mostraram que elas geralmente não escolhem o modelo correto.
Recomendações para encontrar o melhor modelo de regressão
Escolher o modelo de regressão correto é ao mesmo tempo uma ciência e uma arte. Os métodos estatísticos podem ajudar você ir na direção correta, mas no final você precisará incorporar outras considerações.
Teoria
Pesquise o que os outros fizeram e incorpore essas descobertas na construção de seu modelo. Antes de iniciar a análise de regressão, desenvolva uma ideia de quais são as variáveis importantes, juntamente com suas relações, sinais de coeficiente e magnitudes de efeito. Com base nos resultados de outras pessoas, fica mais fácil coletar os dados corretos e especificar o melhor modelo de regressão sem a necessidade de usar mineração de dados.
Considerações teóricas não devem ser descartadas com base apenas em medidas estatísticas. Depois de ajustar seu modelo, determine se ele se alinha com a teoria e (possivelmente) faça ajustes. Por exemplo, com base na teoria, você pode incluir uma preditora no modelo mesmo que seu valor-p não seja significativo. Se algum dos sinais de coeficiente contradizer a teoria, investigue e mude seu modelo ou explique a inconsistência.
Complexidade
Você pode pensar que problemas complexos exigem modelos complexos, mas muitos estudos mostram que modelos mais simples geralmente produzem previsões mais precisas. Dados vários modelos com capacidade explicativa semelhante, o mais simples é provavelmente a melhor escolha. Comece simples e apenas torne o modelo mais complexo conforme for necessário. Quanto mais complexo você montar o seu modelo, mais provável é que você esteja adaptando o modelo ao seu conjunto específico de dados, o que acarretará em problemas com a generalização.
Verifique se a complexidade adicionada realmente produz intervalos de previsão mais estreitos. Verifique o R-quadrado predito e não persiga de forma descuidada o R-quadrado regular mais alto!
Gráficos de resíduos
Ao avaliar os modelos, verifique os gráficos de resíduos porque eles podem ajudá-lo a evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por exemplo, o viés em modelos subespecificados pode aparecer como padrões nos resíduos, como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos aleatórios é um bom candidato a ser um modelo relativamente preciso e imparcial.
No final, nenhuma medida individual é capaz dizer qual é o melhor modelo. Os métodos estatísticos não compreendem o processo subjacente ou a área de estudo. Seu conhecimento é uma parte crucial do processo!
*Alguns dos links relacionados podem conter informações em outros idiomas