Blog da Minitab

Como compreender os testes de hipóteses: níveis de significância (alfa) e valores-p na estatística

Written by Minitab Blog Editor | 13/ago/2019 19:46:00

O que os níveis de significância e valores-p significam nos testes de hipóteses? O que é mesmo a significância estatística? Neste post, manterei meu foco nos conceitos e gráficos que podem ajudá-lo a alcançar um entendimento mais intuitivo de como os testes de hipóteses funcionam na estatística.

Para uma demonstração prática, adicionarei o nível de significância e o valor-p ao gráfico do post anterior para executar uma versão gráfica do teste t para 1 amostra. É mais fácil entender quando você consegue vir a significância estatística que que tem significado real!

Este é o ponto em que terminamos no meu último post. Queremos determinar se a média da nossa amostra (330,6) indica que o custo médio de energia deste ano é significativamente diferente do custo médio de energia do ano passado, que foi US$ 260,00.

O gráfico de distribuição de probabilidade acima mostra a distribuição das médias amostrais que obteríamos diante da suposição de que a hipótese nula é verdadeira (média populacional = 260) e extraímos repetidamente um grande número de amostras aleatórias.

Deixei você com uma pergunta: onde traçamos a linha de significância estatística no gráfico? Agora vamos adicionar o nível de significância e o valor-p, que são as ferramentas de tomada de decisão de que precisaremos.

Usaremos essas ferramentas para testar as seguintes hipóteses:

  • Hipótese nula: A média da população é igual à média hipotética (260).
  • Hipótese alternativa: A média da população é diferente da média hipotética (260).

Qual é o nível de significância (alfa)?

O nível de significância, também denotado como alfa ou α, é a probabilidade de rejeição da hipótese nula quando ela é verdadeira. Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma diferença quando não há diferença real.

A natureza técnica de tais tipos de definições pode dificultar a sua compreensão. A utilização de imagens facilita muito a compreensão dos conceitos!

O nível de significância determina a que distância do valor da hipótese nula traçaremos essa linha no gráfico. Para representar graficamente um nível de significância de 0,05, precisamos sombrear os 5% da distribuição que estão mais distantes da hipótese nula.

No gráfico acima, as duas áreas sombreadas são equidistantes do valor da hipótese nula e cada área tem uma probabilidade de 0,025, para um total de 0,05. Em estatística, chamamos essas áreas sombreadas de região crítica quando se trata de um teste bilateral. Se a média da população for 260, esperamos obter uma média amostral que fique na região crítica por 5% do tempo. A região crítica define a que distância a estatística de nossas amostras deve estar do valor da hipótese nula antes que seja possível afirmar que ela é atípica o suficiente para que a hipótese nula seja rejeitada.

Nossa média amostral (330,6) fica dentro da região crítica, o que indica que é estatisticamente significativa no nível de 0,05.

Também podemos ver se ela é estatisticamente significativa quando usado outro nível de significância comum no nível de 0,01.

As duas áreas sombreadas têm uma probabilidade de 0,005, cuja soma resulta em uma probabilidade total de 0,01. Desta vez, nossa média amostral não fica dentro da região crítica e não podemos rejeitar a hipótese nula. Essa comparação mostra por que você precisa escolher seu nível de significância antes de começar seu estudo. Ela o impede de escolher um nível de significância inadequado porque convenientemente lhe dá resultados significativos!

Graças ao gráfico, é possível avaliar se nossos resultados são estatisticamente significativos no nível 0,05 sem usar um valor-p. No entanto, quando você usa a saída numérica produzida pelo software estatístico, é necessário comparar o valor-p com seu nível de significância para fazer tal determinação.

O que são valores-p?

Um valor-p é a probabilidade de obter um efeito pelo menos tão extremo quanto aquele em seus dados amostrais, assumindo-se que a hipótese nula seja verdadeira.

Esta definição de valores-p, embora tecnicamente correta, é um pouco complexa. É mais fácil entender com um gráfico!

Para representar graficamente o valor-p para nosso conjunto de dados de exemplo, precisamos determinar a distância entre a média amostral e o valor da hipótese nula (330,6 - 260 = 70,6). Em seguida, podemos representar graficamente a probabilidade de obter uma média amostral que seja pelo menos tão extrema em ambas as caudas da distribuição (260 +/- 70,6).

No gráfico acima, as duas áreas sombreadas têm, cada uma, uma probabilidade de 0,01556, para uma probabilidade total de 0,03112. Esta probabilidade representa a chance de obter uma média amostral que seja pelo menos tão extrema quanto a nossa média amostral em ambas as caudas da distribuição, se a média da população for 260. Esse é o nosso valor-p!

Quando um valor-p é menor ou igual ao nível de significância, você deve rejeitar a hipótese nula. Se pegarmos o valor-p para o nosso exemplo e compararmos com os níveis de significância comuns, ele corresponderá aos resultados apresentados nos gráficos anteriores. O valor-p de 0,03112 é estatisticamente significativo a um nível alfa de 0,05, mas não ao nível de 0,01.

Se mantivermos um nível de significância de 0,05, podemos concluir que o custo médio de energia para a população é maior que 260.

Um equívoco comum é interpretar o valor-p como a probabilidade de que a hipótese nula seja verdadeira. Para entender por que essa interpretação está incorreta, leia o post do meu blog Como interpretar corretamente os valores-p.

Discussão sobre resultados estatisticamente significativos

Um teste de hipótese avalia duas declarações mutuamente exclusivas em relação a uma população para determinar qual delas está mais bem respaldada pelos dados amostrais. Um resultado de teste é estatisticamente significativo quando a estatística da amostra é atípica o suficiente em relação à hipótese nula para que podemos rejeitar a hipótese nula para toda a população. Em um teste de hipótese, entendemos por “atípica o suficiente”:

  • A suposição de que a hipótese nula é verdadeira — os gráficos são centralizados no valor da hipótese nula.
  • O nível de significância — até onde é possível traçar a linha para a região crítica?
  • Nossa estatística de amostra — ela fica dentro da região crítica?

Tenha em mente que não há um nível de significância mágico que faça a distinção entre os estudos que têm um efeito real e os que não têm 100% de exatidão. Os valores alfa comuns de 0,05 e 0,01 são baseados meramente na tradição. Para um nível de significância de 0,05, você deve obter médias amostrais na região crítica na faixa de 5% do tempo quando a hipótese nula é verdadeira. Nesses casos, você não saberá que a hipótese nula é verdadeira, mas a rejeitará porque a média amostral fica dentro da região crítica. É por isso que o nível de significância também é chamado de taxa de erro!

Esse tipo de erro não implica que o pesquisador tenha feito algo errado nem demanda outra explicação atípica. Os gráficos mostram que, quando a hipótese nula é verdadeira, é possível obter essas médias amostrais atípicas sem nenhuma outra razão que não seja a de erro amostral aleatório. É apenas fruto do acaso.

Os níveis de significância e os valores-p são ferramentas importantes que ajudam a quantificar e controlar esse tipo de erro em um teste de hipótese. O uso dessas ferramentas para decidir quando a hipótese nula deve ser rejeitada aumenta sua chance de tomar a decisão correta.

Se você gostou deste post, talvez queira ler as outros posts desta série que usam a mesma estrutura gráfica:

Se você quiser ver como eu produzo esses gráficos, leia: Como criar uma versão gráfica do teste t para 1 amostra.

 

*Alguns links relacionados podem estar em outros idiomas.