*Alguns dos links relacionados podem conter informações em outros idiomas
Por vezes, os valores-p são mal interpretados, o que causa muitos problemas. Não vou reapresentar esses problemas aqui, mas o fato é que o valor-p continuará a ser uma das ferramentas mais usadas para determinar se um resultado é estatisticamente significativo.
Você conhece o velho ditado sobre "Mentiras, mentiras terríveis e estatísticas ", certo? Isso parece verdadeiro, porque as estatísticas estão tão relacionadas à interpretação e apresentação quanto à matemática. Isso significa que nós, meros seres humanos cheios de fraquezas e falhas e que recebemos a tarefa de analisar os dados, temos a oportunidade de sombrear e turvar a forma como os resultados são apresentados.
Embora, como regra geral, eu prefira de acreditar que as pessoas querem ser honestas e objetivas — especialmente pessoas inteligentes que pesquisam e analisam dados que possam afetar a vida de outras pessoas —, aqui estão 500 evidências que contrapõem essa crença.
Voltaremos a esse assunto em um minuto. Mas primeiro, faremos uma rápida revisão...
O que é um valor-p e como posso interpretá-lo?
A maioria de nós tem seu primeiro encontro com os valores-p quando realiza testes de hipóteses simples, embora eles também sejam parte integrante de muitos métodos mais sofisticados. Vamos usar o Minitab Statistical Software para fazer uma rápida revisão de como eles funcionam (se você quiser acompanhar e não tiver o Minitab, o pacote completo é disponibilizado gratuitamente por 30 dias). Vamos comparar o consumo de combustível para dois tipos diferentes de fornalha para saber se há alguma diferença entre suas médias.
Vá para Arquivo > Abrir Worksheet e clique no botão “Procurar na pasta de dados amostrais do Minitab”. Abra o conjunto de dados amostrais com o nome Fornalha.mtw e selecione Estat > Estatísticas básicas > Teste t para 2 Amostras... no menu. Na caixa de diálogo, insira "BTU.Con" para Amostras e insira "Amortecedor" para Identificações de Amostra.
Pressione OK e o Minitab retorna a seguinte saída, na qual eu destaquei o valor-p.
Na maioria das análises, um alfa de 0.05 é usado como ponto de corte para significância. Se o valor-p for menor que 0.05, devemos rejeitar a hipótese nula de que não há diferença entre as médias e concluir que existe uma diferença significativa. Se o valor-p for maior que 0.05, não é possível concluir que existe uma diferença significativa.
Isso está bem claro, não é mesmo? Abaixo de 0.05, significativo. Acima de 0.05, não significativo.
“Perdeu por muito!”
No exemplo acima, o resultado é claro: um valor-p de 0,7 é tão maior que 0.05 que nenhum pensamento desejoso pode ser aplicado aos resultados. Mas e se o seu valor-p for realmente muito próximo de 0.05?
Assim como se você tivesse um valor-p de 0.06?
Isso não é significativo.
Oh. Ok, e quanto a 0.055?
Não significativo.
E 0.051?
Ainda não é estatisticamente significativo, e os analistas de dados não devem acreditar o contrário. Um valor-p não é uma negociação: se p > 0.05, os resultados não são significativos. Ponto final.
Então, o que devo dizer quando obtenho um valor-p maior que 0.05?
Que tal dizer isso: “Os resultados não foram estatisticamente significativos”. Se é isso que os dados lhe dizem, não há nada de errado em dizer isso.
Não importa se você fatia fino ou grosso, a mortadela é sempre a mesma.
O que me traz de volta ao post do blog que eu mencionei no começo. Faça uma leitura, mas a conclusão é que o autor catalogou 500 maneiras diferentes pelas quais os colaboradores de periódicos científicos usaram a linguagem para obscurecer seus resultados (ou a falta deles).
Como estudante de idiomas, confesso que acho a lista fascinante... mas também desconcertante. Não está certo: Esses colaboradores são pessoas instruídas que certamente entendem o seguinte: A) o que significa um valor-p superior a 0.05, e B) que manipular palavras para suavizar esse resultado é deliberadamente enganoso. Ou, para dizer em palavras que menos suaves, é uma mentira terrível.
No entanto, isso acontece com frequência.
Aqui estão apenas algumas das minhas favoritas entre as 500 maneiras diferentes pelas quais as pessoas relataram resultados que não eram significativos, acompanhados pelos valores-p aos quais essas interpretações criativas se aplicavam:
- uma certa tendência em direção à significância (p = 0.08)
- aproximou-se do limiar de significância (p = 0.07)
- na margem de significância estatística (p < 0.07)
- próximo de ser estatisticamente significativo (p = 0.055)
- ficou bem perto de significância estatística (p = 0,12)
- perdeu apenas um pouquinho do nível de significância (p = 0.086)
- significância quase marginal (p = 0,18)
- apenas levemente não significativo (p = 0.0738)
- provisoriamente significativo (p = 0.073)
e meu favorito:
- quase-significativo (p = 0.09)
Não sei ao certo o que "quase-significativo" significa, mas soa quase importante, desde que você não pense muito sobre isso. Mas ainda não há como ignorar o fato de que um valor-p de 0.09 não é um resultado estatisticamente significativo.
O blogueiro não aborda a questão de saber se a situação oposta ocorre. Os colaboradores sempre escrevem que um valor-p de, digamos, 0.049999 é:
- quase não significativo
- apenas um pouco significativo
- provisoriamente não significativo
- no limite de ser não significativo
- na margem da não significância estatística
Vou me arriscar e pressupor que descrever um valor-p abaixo de 0.05 de modo a diminuir sua significância estatística simplesmente não acontece. No entanto, minimizar a não significância estatística parece ser uma situação quase endêmica.
É por isso que acho o post mencionado acima tão desanimador. É angustiante que seja possível reunir tantos exemplos de mau comportamento demonstrado por analistas de dados que quase certamente sabem melhor o assunto.
Você nunca usaria a linguagem para tentar obscurecer o resultado de sua análise, não é?