Quelles sont les valeurs T et les valeurs P dans les statistiques ?

Rédigé par Julie Colas | 6 nov. 2020 13:58:00

Si vous n’êtes pas un statisticien, une évaluation d’une sortie statistique peut parfois vous faire sentir un peu comme Alice aux pays des merveilles. D'un coup, vous entrez dans un monde fantastique où les fantasmes étranges et mystérieux apparaissent de nulle part.

Par exemple, considérez le T et le P dans vos résultats de test t.

« De plus en plus curieux » vous pourriez vous exclamer, comme Alice, en regardant votre sortie.

Quelles sont ces valeurs, en réalité ? D’où viennent-elles ? Même si vous avez utilisé la valeur p pour interpréter la signification statistique de vos résultats une énièmes fois, son origine réelle peut rester floue.

T et P: Le Tweedledee et Tweedledum d’un T-test

T et P sont inextricablement liés. Ils vont main dans la main, comme Tweedledee et Tweedledum. Nous vous expliquons pourquoi :

Lorsque vous effectuez un test t, vous essayez habituellement de trouver des preuves d’une différence significative entre les moyens de la population (test t à deux échantillons) ou entre la moyenne de la population et une valeur présumée (test t à un échantillon).

La valeur t mesure l’ampleur de la différence par rapport à la variation de vos données d’échantillon. En d’autres termes, T est simplement la différence calculée représentée dans les unités de l’erreur type de la moyenne. Plus l’ampleur de T est grande, plus la preuve contre l’hypothèse nulle est grande. Cela signifie qu’il y a de plus grandes preuves qu’il y ait une différence significative. Plus T est proche de 0, plus il est probable qu’il n’y ait pas de différence significative.

N’oubliez pas que la valeur t de votre production est calculée à partir d’un seul échantillon de l’ensemble de la population.Si vous avez pris des échantillons aléatoires répétés de données de la même population, vous obtiendrez des valeurs de t légèrement différentes à chaque fois, en raison de l’erreur d’échantillonnage aléatoire (qui n’est vraiment pas une erreur quelconque, c’est juste la variation aléatoire attendue dans les données).

Dans quelle mesure pouvez-vous vous attendre à ce que les valeurs t provenant de nombreux échantillons aléatoires extraits d’une même population soient différentes ? Et comment la valeur t de vos données d’échantillon se compare-t-elle à ces valeurs t attendues ?

Vous pouvez utiliser une distribution t pour le savoir.

Utilisation d’une distribution t pour calculer la probabilité

Pour des raisons de démonstration, supposons que vous utilisez un test t d’un échantillon pour déterminer si la moyenne de la population est supérieure à une valeur hypothétique, telle que 5, basée sur un échantillon de 20 observations, comme il est affiché dans la sortie ci-dessus du test t.

Dans Minitab, choisissez Graphique Diagramme de la loi de probabilité.
Sélectionnez Visualisation de la probabilité, puis cliquez sur OK.
Dans loi de Distribution, sélectionnez t.
Dans Degrés de liberté Entrez 19. (Pour un test de 1 échantillon t, les degrés de liberté égalent la taille de l’échantillon moins 1).
Cliquez sur Zone ombragée. Sélectionnez Valeur de X. Sélectionnez Côté droit.
Dans Valeur X, entrez 2.8 (la valeur t), puis cliquez sur OK.

La partie la plus élevée (le pic) de la courbe de distribution vous montre où vous pouvez vous attendre à trouver la plupart des valeurs t si votre moyenne est égale à la valeur cible en réalité pour un test t à un échantillon. La plupart du temps, vous vous attendez à obtenir des valeurs t près de 0. C’est logique, n’est-ce pas ? Parce que si vous sélectionnez au hasard des échantillons représentatifs d’une population, la moyenne de la plupart de ces échantillons aléatoires de la population devrait être proche de la moyenne globale de la population, ce qui rend leurs différences (et donc les valeurs t calculées) près de 0.

Prêt(e) pour une démonstration du logiciel d'analyse de données Minitab ? Ecrivez-nous >

Valeurs de T, valeurs de P et mains de poker

Les valeurs T de plus grande ampleur (négatives ou positives) sont moins probables. Les extrêmes gauche et droite de la courbe de distribution représentent des exemples d’obtention de valeurs extrêmes de t, loin de 0. Par exemple, la région ombragée représente la probabilité d’obtenir une valeur t de 2,8 ou plus.

Imaginez une fléchette magique qui pourrait atterrir au hasard n’importe où sous la courbe de distribution. Quelles sont les chances qu’elle atterrisse dans la région ombragée ? La probabilité calculée est de 0,005712.....qui arrondit à 0,006 ... qui est ... la valeur p obtenue dans les résultats du test t.

En d’autres termes, la probabilité d’obtenir une valeur t de 2,8 ou plus, lors de l’échantillonnage de la même population (ici, une population avec une moyenne hypothétique de 5), est d’environ 0,006.

Quelle est la probabilité que cela se produise ? Peu de chance ! À titre de comparaison, la probabilité d’obtenir, après distribution un brelan dans une main de poker de 5 cartes est plus de trois fois plus élevé (0,021).

Étant donné que la probabilité d’obtenir une valeur t aussi élevée ou plus élevée lorsque l’échantillonnage de cette population est si faible, qu’y a-t-il de plus probable ? Il est plus probable que cet échantillon ne provienne pas de cette population (avec la moyenne hypothétique de 5). Il est beaucoup plus probable que cet échantillon provienne d’une population différente, où la moyenne est supérieure à 5.

À savoir : Parce que la valeur p est très faible (niveau alpha), vous rejetez l’hypothèse nulle et concluez qu’il y a une différence statistiquement significative.

De cette façon, T et P sont inextricablement liés. Considérez simplement différentes façons de quantifier l’extrémité de vos résultats sous l’hypothèse nulle. Vous ne pouvez pas changer la valeur de l’un sans changer l’autre.

Plus la valeur absolue de la valeur t est grande, plus la valeur p est faible et plus la preuve contre l’hypothèse nulle est grande. (Vous pouvez vérifier cela en entrant des valeurs t inférieures et plus élevées pour la distribution t à l’étape 6 ci-dessus).

Essayez ce suivi bilatéral...

L’exemple de distribution t ci-dessus est basé sur un test t unilatéral pour déterminer si la moyenne de la population est supérieure à une valeur présumée. Par conséquent, l’exemple de la distribution t montre la probabilité associée à la valeur t de 2,8 seulement dans une direction (la côté extrême vers la droite de la distribution).

Comment utiliseriez-vous la distribution t pour trouver la valeur p associée à une valeur t de 2,8 pour le test t bilatéral (dans les deux directions) ?

Indice: Dans Minitab, ajustez les options à l’étape 5 pour trouver la probabilité pour les deux côtés de la distribution.

Découvrez et essayez gratuitement la version d'essai du logiciel d'analyse de données Minitab >

Voir l'article complet