Os testes t são testes de hipótese úteis na estatística quando é necessário comparar médias. Você pode comparar uma média amostral com um valor hipotético ou com um valor alvo usando um teste t para uma amostra. Você pode comparar as médias de dois grupos com um teste t para duas amostras. Se você tiver dois grupos com observações pareadas (por exemplo, antes e depois das medições), use o teste t pareado.
Como funcionam os testes t? Como fazer com que os valores-t se ajustem neles? Nesta série de posts, responderei a essas perguntas concentrando-me em conceitos e gráficos, em vez de equações e números. Afinal de contas, um dos principais motivos para usar um software estatístico como o Minitab é que você não fica atolado nos cálculos e pode se concentrar em compreender seus resultados.
Neste post, explicarei o que são valores-t, distribuições-t e como os testes t utilizam tudo isso para calcular probabilidades e avaliar hipóteses.
Os testes t recebem essa denominação porque os resultados do teste são todos baseados em valores-t. Os valores-t são um exemplo de o que os estatísticos chamam de estatísticas de teste. Uma estatística de teste é um valor padronizado que é calculado a partir de dados amostrais durante um teste de hipótese. O procedimento que calcula a estatística de teste compara seus dados com o que é esperado sob a hipótese nula.
Cada tipo de teste t usa um procedimento específico para resumir todos os seus dados amostrais em um valor, o valor-t. Os cálculos por trás dos valores-t comparam sua(s) média(s) amostrais com a hipótese nula e incorporam o tamanho amostral e a variabilidade nos dados. Um valor-t de 0 indica que os resultados da amostra são exatamente iguais à hipótese nula. Conforme aumenta a diferença entre os dados amostrais e a hipótese nula, o valor absoluto do valor-t aumenta.
Suponha que realizemos um teste t e que ele calcule um valor-t de 2 para nossos dados amostrais. Afinal, o que isso quer dizer? Eu poderia muito bem ter lhe dito que nossos dados são iguais a 2 fizbins! Não sabemos se isso é comum ou raro quando a hipótese nula é verdadeira.
Por si só, um valor-t de 2 não nos diz nada. Os valores-t não estão nas unidades dos dados originais ou em qualquer outra coisa com a qual estejamos familiarizados. Precisamos de um contexto maior em que possamos colocar valores-t individuais para que seja possível interpretá-los. É aqui que entram as distribuições t.
Quando você realiza um teste t para um único estudo, obtém um único valor-t. No entanto, se extraíssemos várias amostras aleatórias do mesmo tamanho da mesma população e realizássemos o mesmo teste t, obteríamos muitos valores-t e poderíamos representar graficamente uma distribuição de todos eles. Esse tipo de distribuição é conhecido como distribuição de amostragem.
Felizmente, as propriedades das distribuições t são bem compreendidas na estatística, então podemos representá-las graficamente sem ter que coletar muitas amostras! Uma distribuição t específica é definida por seus graus de liberdade (GL), um valor intimamente relacionado ao tamanho da amostra. Portanto, existem diferentes distribuições t para cada tamanho amostral. Você pode representar graficamente as distribuições t usando os gráficos de distribuição de probabilidade do Minitab.
As distribuições t assumem que você extrai amostras repetidas aleatórias de uma população em que a hipótese nula é verdadeira. Você coloca o valor-t do seu estudo na distribuição t para determinar em que medida seus resultados são consistentes com a hipótese nula.
O gráfico acima mostra uma distribuição t que tem 20 graus de liberdade, o que corresponde a um tamanho amostral de 21 em um teste t para uma amostra. É uma distribuição simétrica em forma de sino semelhante à distribuição normal, mas com caudas mais grossas. Este gráfico representa a função de densidade de probabilidade (FDP), que descreve a probabilidade de cada valor-t.
O pico do gráfico está bem no zero, o que indica que o mais provável é a obtenção de um valor de amostra próximo à hipótese nula. Isso faz sentido porque as distribuições t assumem que a hipótese nula é verdadeira. À medida que você se afasta do zero em qualquer direção, os valores-t se tornam menos prováveis. Em outras palavras, quando a hipótese nula é verdadeira, é menos provável que você obtenha uma amostra que seja muito diferente da hipótese nula.
Nosso valor-t de 2 indica uma diferença positiva entre nossos dados amostrais e a hipótese nula. O gráfico mostra que existe uma probabilidade razoável de obter um valor-t de -2 a +2 quando a hipótese nula é verdadeira. Nosso valor-t de 2 é um valor atípico, mas não sabemos exatamente o quanto ele é atípico. Nosso objetivo final é determinar se nosso valor-t é atípico o suficiente para justificar a rejeição da hipótese nula. Para fazer isso, será necessário calcular a probabilidade.
Os alicerces que sustentam qualquer teste de hipótese é a capacidade de obter a estatística de teste de uma amostra específica e colocá-la dentro do contexto de uma distribuição de probabilidade conhecida. Para testes t, se você pegar um valor-t e colocá-lo no contexto da distribuição t correta, poderá calcular as probabilidades associadas a esse valor-t.
Uma probabilidade permite que determinemos em que medida nosso valor-t é comum ou raro sob a suposição de que a hipótese nula é verdadeira. Se a probabilidade for baixa o suficiente, podemos concluir que o efeito observado em nossa amostra é inconsistentes com a hipótese nula. A evidência nos dados amostrais é forte o suficiente para rejeitar a hipótese nula para toda a população.
Antes de calcularmos a probabilidade associada ao nosso valor t de 2, precisamos tratar de duas coisas importantes.
Primeiro, usaremos os valores-t de +2 e -2, porque faremos um teste bilateral. Um teste bilateral é aquele que consegue testar as diferenças nas duas direções. Por exemplo, um teste t bilateral para duas amostras pode determinar se a diferença entre o grupo 1 e o grupo 2 é estatisticamente significativa na direção positiva ou negativa. Um teste unilateral consegue fazer a avaliação apenas em uma dessas direções.
Segundo, podemos calcular apenas uma probabilidade diferente de zero para um intervalo de valores-t. Como você verá no gráfico abaixo, um intervalo de valores-t corresponde a uma proporção da área total sob a curva de distribuição, que é a probabilidade. A probabilidade de qualquer valor de ponto específico é zero porque não produz uma área sob a curva.
Com esses pontos em mente, sombrearemos a área da curva que tem valores-t maiores que 2 e valores-t menores que -2.
O gráfico mostra a probabilidade de observação de uma diferença da hipótese nula que seja pelo menos tão extrema quanto a diferença presente em nossos dados amostrais, enquanto assume que a hipótese nula é realmente verdadeira. Cada uma das regiões sombreadas tem uma probabilidade de 0,02963, que, somadas, resultam em uma probabilidade total de 0,05926. Quando a hipótese nula é verdadeira, o valor-t cai dentro dessas regiões quase 6% do tempo.
Essa probabilidade tem um nome que já deve ter ouvido falar — é chamada de valor-p! Embora a probabilidade de nosso valor t cair dentro dessas regiões seja relativamente baixa, ela não é baixa o suficiente para rejeitar a hipótese nula usando o nível de significância comum de 0.05.
Aprenda a interpretar corretamente o valor-p.
Como mencionado acima, as distribuições t são definidas pelo GL, que está intimamente associado ao tamanho amostral. À medida que o GL aumenta, a densidade de probabilidade nas caudas diminui e a distribuição fica mais intensamente agrupada em torno do valor central. O gráfico abaixo mostra distribuições t com 5 e 30 graus de liberdade.
A distribuição t com menos graus de liberdade tem caudas mais grossas. Isso ocorre porque a distribuição t tem o objetivo de refletir a incerteza adicional associada à análise de amostras pequenas. Em outras palavras, se você tiver uma amostra pequena, a probabilidade de que a estatística da amostra fique mais distante da hipótese nula é maior mesmo quando a hipótese nula for verdadeira.
Amostras pequenas são mais propensas a serem atípicas. Isso afeta a probabilidade associada a qualquer valor-t. Para 5 e 30 graus de liberdade, um valor-t de 2 em um teste bilateral tem valores-p de 10,2% e 5,4%, respectivamente. As amostras grandes são melhores!
Mostrei como os valores-t e as distribuições t trabalham em conjunto para produzir probabilidades. Para ver como cada tipo de teste-t funciona e calcula realmente os valores-t, leia o outro post desta série, Como compreender testes t: Testes t para uma amostra, para duas amostras e pareados.
Se você quiser saber como funciona o teste F com ANOVA, leia meu post, Como compreender a análise de variância (ANOVA) e o teste F.