Como compreender os testes de hipóteses: níveis de significância (alfa) e valores-p na estatística

Minitab Blog Editor | 8/13/2019

Tópicos: analise de dados

O que os níveis de significância e valores-p significam nos testes de hipóteses? O que é mesmo a significância estatística? Neste post, manterei meu foco nos conceitos e gráficos que podem ajudá-lo a alcançar um entendimento mais intuitivo de como os testes de hipóteses funcionam na estatística.

Para uma demonstração prática, adicionarei o nível de significância e o valor-p ao gráfico do post anterior para executar uma versão gráfica do teste t para 1 amostra. É mais fácil entender quando você consegue vir a significância estatística que que tem significado real!

Este é o ponto em que terminamos no meu último post. Queremos determinar se a média da nossa amostra (330,6) indica que o custo médio de energia deste ano é significativamente diferente do custo médio de energia do ano passado, que foi US$ 260,00.

estatisticas

distribucao-da-amostragem-para-a-hipotese-nula-para

O gráfico de distribuição de probabilidade acima mostra a distribuição das médias amostrais que obteríamos diante da suposição de que a hipótese nula é verdadeira (média populacional = 260) e extraímos repetidamente um grande número de amostras aleatórias.

Deixei você com uma pergunta: onde traçamos a linha de significância estatística no gráfico? Agora vamos adicionar o nível de significância e o valor-p, que são as ferramentas de tomada de decisão de que precisaremos.

Usaremos essas ferramentas para testar as seguintes hipóteses:

  • Hipótese nula: A média da população é igual à média hipotética (260).
  • Hipótese alternativa: A média da população é diferente da média hipotética (260).

Qual é o nível de significância (alfa)?

O nível de significância, também denotado como alfa ou α, é a probabilidade de rejeição da hipótese nula quando ela é verdadeira. Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma diferença quando não há diferença real.

A natureza técnica de tais tipos de definições pode dificultar a sua compreensão. A utilização de imagens facilita muito a compreensão dos conceitos!

O nível de significância determina a que distância do valor da hipótese nula traçaremos essa linha no gráfico. Para representar graficamente um nível de significância de 0,05, precisamos sombrear os 5% da distribuição que estão mais distantes da hipótese nula.

regiao-critica-de-duas-laterais-para-um-nivel-de-significancia

No gráfico acima, as duas áreas sombreadas são equidistantes do valor da hipótese nula e cada área tem uma probabilidade de 0,025, para um total de 0,05. Em estatística, chamamos essas áreas sombreadas de região crítica quando se trata de um teste bilateral. Se a média da população for 260, esperamos obter uma média amostral que fique na região crítica por 5% do tempo. A região crítica define a que distância a estatística de nossas amostras deve estar do valor da hipótese nula antes que seja possível afirmar que ela é atípica o suficiente para que a hipótese nula seja rejeitada.

Nossa média amostral (330,6) fica dentro da região crítica, o que indica que é estatisticamente significativa no nível de 0,05.

Também podemos ver se ela é estatisticamente significativa quando usado outro nível de significância comum no nível de 0,01.

regiao-critica-de-duas-laterais-para-um-nivel-de-significancia-1

As duas áreas sombreadas têm uma probabilidade de 0,005, cuja soma resulta em uma probabilidade total de 0,01. Desta vez, nossa média amostral não fica dentro da região crítica e não podemos rejeitar a hipótese nula. Essa comparação mostra por que você precisa escolher seu nível de significância antes de começar seu estudo. Ela o impede de escolher um nível de significância inadequado porque convenientemente lhe dá resultados significativos!

Graças ao gráfico, é possível avaliar se nossos resultados são estatisticamente significativos no nível 0,05 sem usar um valor-p. No entanto, quando você usa a saída numérica produzida pelo software estatístico, é necessário comparar o valor-p com seu nível de significância para fazer tal determinação.

O que são valores-p?

Um valor-p é a probabilidade de obter um efeito pelo menos tão extremo quanto aquele em seus dados amostrais, assumindo-se que a hipótese nula seja verdadeira.

Esta definição de valores-p, embora tecnicamente correta, é um pouco complexa. É mais fácil entender com um gráfico!

Para representar graficamente o valor-p para nosso conjunto de dados de exemplo, precisamos determinar a distância entre a média amostral e o valor da hipótese nula (330,6 - 260 = 70,6). Em seguida, podemos representar graficamente a probabilidade de obter uma média amostral que seja pelo menos tão extrema em ambas as caudas da distribuição (260 +/- 70,6).

o-valor-p-para-nossa-media-amostral

No gráfico acima, as duas áreas sombreadas têm, cada uma, uma probabilidade de 0,01556, para uma probabilidade total de 0,03112. Esta probabilidade representa a chance de obter uma média amostral que seja pelo menos tão extrema quanto a nossa média amostral em ambas as caudas da distribuição, se a média da população for 260. Esse é o nosso valor-p!

Quando um valor-p é menor ou igual ao nível de significância, você deve rejeitar a hipótese nula. Se pegarmos o valor-p para o nosso exemplo e compararmos com os níveis de significância comuns, ele corresponderá aos resultados apresentados nos gráficos anteriores. O valor-p de 0,03112 é estatisticamente significativo a um nível alfa de 0,05, mas não ao nível de 0,01.

Se mantivermos um nível de significância de 0,05, podemos concluir que o custo médio de energia para a população é maior que 260.

Um equívoco comum é interpretar o valor-p como a probabilidade de que a hipótese nula seja verdadeira. Para entender por que essa interpretação está incorreta, leia o post do meu blog Como interpretar corretamente os valores-p.

Discussão sobre resultados estatisticamente significativos

Um teste de hipótese avalia duas declarações mutuamente exclusivas em relação a uma população para determinar qual delas está mais bem respaldada pelos dados amostrais. Um resultado de teste é estatisticamente significativo quando a estatística da amostra é atípica o suficiente em relação à hipótese nula para que podemos rejeitar a hipótese nula para toda a população. Em um teste de hipótese, entendemos por “atípica o suficiente”:

  • A suposição de que a hipótese nula é verdadeira — os gráficos são centralizados no valor da hipótese nula.
  • O nível de significância — até onde é possível traçar a linha para a região crítica?
  • Nossa estatística de amostra — ela fica dentro da região crítica?

Tenha em mente que não há um nível de significância mágico que faça a distinção entre os estudos que têm um efeito real e os que não têm 100% de exatidão. Os valores alfa comuns de 0,05 e 0,01 são baseados meramente na tradição. Para um nível de significância de 0,05, você deve obter médias amostrais na região crítica na faixa de 5% do tempo quando a hipótese nula é verdadeira. Nesses casos, você não saberá que a hipótese nula é verdadeira, mas a rejeitará porque a média amostral fica dentro da região crítica. É por isso que o nível de significância também é chamado de taxa de erro!

Esse tipo de erro não implica que o pesquisador tenha feito algo errado nem demanda outra explicação atípica. Os gráficos mostram que, quando a hipótese nula é verdadeira, é possível obter essas médias amostrais atípicas sem nenhuma outra razão que não seja a de erro amostral aleatório. É apenas fruto do acaso.

Os níveis de significância e os valores-p são ferramentas importantes que ajudam a quantificar e controlar esse tipo de erro em um teste de hipótese. O uso dessas ferramentas para decidir quando a hipótese nula deve ser rejeitada aumenta sua chance de tomar a decisão correta.

Se você gostou deste post, talvez queira ler as outros posts desta série que usam a mesma estrutura gráfica:

Se você quiser ver como eu produzo esses gráficos, leia: Como criar uma versão gráfica do teste t para 1 amostra.

 

*Alguns links relacionados podem estar em outros idiomas.