Escolher o modelo correto de regressão linear pode ser difícil, e tentar criar o modelo com apenas uma amostra não facilita nada. Neste post revisaremos alguns métodos estatísticos comuns para a seleção de modelos, complicações que você poderá enfrentar e forneceremos alguns conselhos práticos para escolher o melhor modelo de regressão.
Começa quando um pesquisador deseja descrever matematicamente a relação entre algumas preditoras e a variável resposta. A equipe de pesquisa encarregada de investigar normalmente mede muitas variáveis, mas inclui apenas algumas delas no modelo. Os analistas tentam eliminar as variáveis que não estão relacionadas e incluir apenas aquelas que tenham um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos modelos possíveis.
Eles se esforçam para alcançar um equilíbrio perfeito com o número de preditoras que eles incluem.
Para um bom modelo de regressão, você deseja incluir as variáveis que você está especificamente testando junto com outras variáveis que afetam a resposta, a fim de evitar resultados viesados. O Software Estatístico Minitab oferece medidas e procedimentos estatísticos que ajudam você a especificar seu modelo de regressão.
O R-quadrado ajustado e o R-quadrado predito. Geralmente, você escolhe os modelos que têm valores mais altos de R-quadrado ajustado e R-quadrado predito. Essas estatísticas são criadas para evitar um problema central com o R-quadrado comum - ele aumenta toda vez que você adiciona uma preditora e pode induzi-lo a especificar um modelo excessivamente complexo.
Valores-P para as preditoras: Na regressão, os valores-p baixos indicam termos estatisticamente significativos. A "redução o modelo" refere-se à prática de incluir todas as preditoras que sejam candidatas ao modelo e, em seguida, remover sistematicamente o termo com o valor-p mais alto, um a um, até que você fique com apenas preditoras significativas.
Regressão stepwise e Regressão nos melhores subconjuntos: Esses são dois procedimentos automatizados que podem identificar preditoras úteis durante os estágios exploratórios da construção de modelos. O Minitab fornece o Cp de Mallow na regressão nos melhores subconjuntos, que é uma estatística projetada especificamente para ajudá-lo a gerenciar a troca entre precisão e viés.
Ótimo, há vários métodos estatísticos para nos ajudar a escolher o melhor modelo. Infelizmente, também existem várias complicações potenciais. Não se preocupe, nós daremos alguns conselhos práticos!
Escolher o modelo de regressão correto é ao mesmo tempo uma ciência e uma arte. Os métodos estatísticos podem ajudar você ir na direção correta, mas no final você precisará incorporar outras considerações.
Teoria
Pesquise o que os outros fizeram e incorpore essas descobertas na construção de seu modelo. Antes de iniciar a análise de regressão, desenvolva uma ideia de quais são as variáveis importantes, juntamente com suas relações, sinais de coeficiente e magnitudes de efeito. Com base nos resultados de outras pessoas, fica mais fácil coletar os dados corretos e especificar o melhor modelo de regressão sem a necessidade de usar mineração de dados.
Considerações teóricas não devem ser descartadas com base apenas em medidas estatísticas. Depois de ajustar seu modelo, determine se ele se alinha com a teoria e (possivelmente) faça ajustes. Por exemplo, com base na teoria, você pode incluir uma preditora no modelo mesmo que seu valor-p não seja significativo. Se algum dos sinais de coeficiente contradizer a teoria, investigue e mude seu modelo ou explique a inconsistência.
Complexidade
Você pode pensar que problemas complexos exigem modelos complexos, mas muitos estudos mostram que modelos mais simples geralmente produzem previsões mais precisas. Dados vários modelos com capacidade explicativa semelhante, o mais simples é provavelmente a melhor escolha. Comece simples e apenas torne o modelo mais complexo conforme for necessário. Quanto mais complexo você montar o seu modelo, mais provável é que você esteja adaptando o modelo ao seu conjunto específico de dados, o que acarretará em problemas com a generalização.
Verifique se a complexidade adicionada realmente produz intervalos de previsão mais estreitos. Verifique o R-quadrado predito e não persiga de forma descuidada o R-quadrado regular mais alto!
Gráficos de resíduos
Ao avaliar os modelos, verifique os gráficos de resíduos porque eles podem ajudá-lo a evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por exemplo, o viés em modelos subespecificados pode aparecer como padrões nos resíduos, como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos aleatórios é um bom candidato a ser um modelo relativamente preciso e imparcial.
No final, nenhuma medida individual é capaz dizer qual é o melhor modelo. Os métodos estatísticos não compreendem o processo subjacente ou a área de estudo. Seu conhecimento é uma parte crucial do processo!
*Alguns dos links relacionados podem conter informações em outros idiomas