Como interpretar corretamente valores-P

*Alguns dos links relacionados podem conter informações em outros idiomas

O valor-P é usado em todas as estatísticas, desde testes-t até análise de regressão. Todos sabem que você usa valores-P para determinar a significância estatística em um teste de hipóteses. Na realidade, os valores-P frequentemente determinam quais estudos são publicados e quais projetos recebem financiamento.

Apesar de ser tão importante, o valor-P é um conceito escorregadio que as pessoas geralmente interpretam de forma incorreta. Como você interpreta os valores-P?

Neste post vou ajudá-lo a entender os valores-P de uma maneira mais intuitiva e evitar uma má interpretação muito comum que pode lhe custar dinheiro e credibilidade.

Qual é a Hipótese nula no teste de hipóteses?

Scientist performing an experiment Para entender os valores-P você deve primeiro entender a Hipótese nula.

Em todos os experimentos existe um efeito ou diferença entre os grupos que os pesquisadores estão testando. Pode ser a eficácia de um novo medicamento, material de construção ou outra intervenção que tenha benefícios. Infelizmente para os pesquisadores, há sempre a possibilidade de que não haja efeito, ou seja, que não haja diferença entre os grupos. Esta falta de diferença é chamada de hipótese nula, que é essencialmente a posição que um advogado do diabo tomaria ao avaliar os resultados de um experimento.

Para entender por que, vamos imaginar um experimento para um novo medicamento que sabemos ser totalmente ineficaz. A hipótese nula é verdadeira: não há diferença entre os grupos experimentais no nível da população.

Apesar do nulo ser verdadeiro, é inteiramente possível que haja um efeito nos dados da amostra causado pelo erro da amostragem aleatória. Na verdade, é extremamente improvável que os grupos amostrais sejam exatamente iguais ao valor da hipótese nula. Consequentemente, a posição de advogado do diabo é que a diferença observada na amostra não reflete uma diferença real entre as populações.

O que são valores-P?

Valores-P avaliam quão bem os dados da amostra apoiam o argumento do advogado do diabo de que a hipótese nula é verdadeira. Ele mede quão compatíveis os seus dados são com a Hipótese nula. Qual é a probabilidade do efeito observado nos seus dados amostrais se a hipótese nula for verdadeira?

Valores-P altos: seus dados são prováveis com uma hipótese nula verdadeira.
Valores-P baixos: seus dados não são prováveis com uma hipótese nula verdadeira.

Um valor-P baixo sugere que sua amostra fornece evidências suficientes de que você pode rejeitar a Hipótese nula para toda a população.

Como você interpreta valores-P?

Vaccine Em termos técnicos, um valor-P é a probabilidade de obter um efeito pelo menos tão extremo quanto aquele em seus dados amostrais, assumindo que a hipótese nula é verdadeira.

Por exemplo, suponha que um estudo sobre uma vacina tenha produzido um valor-P de 0.04. Este valor-P indica que se a vacina não tivesse efeito, você obteria a diferença observada ou maior em 4% dos estudos devido ao erro amostral aleatório.

Os valores-P abordam apenas uma questão: quão provável são seus dados, assumindo-se que a hipótese nula é verdadeira? Ele não mede o apoio para a hipótese alternativa. Essa limitação nos leva à próxima seção para cobrir uma má interpretação muito comum dos valores-P.

P valores NÃO são a probabilidade de cometer um erro

Interpretações incorretas dos valores-P são muito comuns. O erro mais comum é interpretar um valor-P como a probabilidade de cometer um erro ao rejeitar uma hipótese nula verdadeira (um erro Tipo I).

Existem várias razões pelas quais os valores-P não podem ser a taxa de erro.

Primeiro, os valores-P são calculados com base nas suposições de que a hipótese nula é verdadeira para a população e que a diferença na amostra é causada inteiramente por acaso. Consequentemente, os valores-P não podem informar a probabilidade de que a hipótese nula é verdadeira ou falsa, porque é 100% verdadeira na perspectiva dos cálculos.

Segundo, enquanto um valor-P baixo indica que seus dados são improváveis assumindo uma hipótese nula verdadeira, não é possível avaliar qual dos dois casos concorrentes é mais provável:

A hipótese nula é verdadeira, mas a sua amostra é incomum.
A hipótese nula é falsa.

Determinar qual caso é mais provável requer conhecimento da área e replicação de estudos.

Vamos voltar ao estudo da vacina e comparar a maneira correta e incorreta de interpretar o valor-P de 0.04:

Correta: Supondo que a vacina não teve efeito, você obteria a diferença observada ou maior em 4% dos estudos devido ao erro amostral aleatório.
Incorreta: Se você rejeitar a hipótese nula, há 4% de chance de estar cometendo um erro.

Para ver uma representação gráfica de como os testes de hipóteses funcionam, leia meu post: Compreender os Testes de hipóteses:Os níveis de significância e valores-P.

Qual é a verdadeira taxa de erro?

Você pensa que essa diferença de interpretação é simplesmente uma questão de semântica e só é importante para os estatísticos exigentes? Pense de novo. É importante para você.

Se um valor-P não é a taxa de erro, qual é a taxa de erro no final das contas? (Você consegue adivinhar para onde isto está indo agora?)

Sellke et al.* Estimaram as taxas de erro associadas a diferentes valores-P. Embora a taxa de erro precisa dependa de várias suposições (que discuto aqui), a tabela resume essas suposições arrazoadas.

Valor-p	Probabilidade de rejeitar incorretamente uma hipótese nula verdadeira
0.05	Pelo menos 23% (e geralmente perto de 50%)
0.01	Pelo menos 7% (e geralmente perto de 15%)

As taxas de erro mais altas nesta tabela surpreendem você? Infelizmente, a má interpretação comum dos valores-P como a taxa de erro cria a ilusão de ter substancialmente mais evidência contra a hipótese nula do que é justificado. Como você pode ver, se você basear uma decisão em um único estudo com um valor-P próximo a 0.05, a diferença observada na amostra pode não existir no nível da população. Isso pode ser custoso!

Agora que você sabe como interpretar valores-P, leia minhas cinco diretrizes de como usar valores-P e evitar erros.

Você também pode ler minha refutação para um periódico acadêmico que realmente baniu os valores-P!

Um estudo interessantíssimo sobre a reprodutibilidade dos resultados experimentais foi publicado em agosto de 2015. Este estudo destaca a importância de entender a verdadeira taxa de erro. Para mais informações, leia minha postagem no blog: Valores-P e replicação de experimentos.

A American Statistical Association fala sobre como usar os valores-P!

*Thomas SELLKE, M. J. BAYARRI, and James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, February 2001, Vol. 55, No. 1