Que sont les tests de Poisson à un ou deux échantillons ?

Minitab Blog Editor | 8/26/2020

Les Sujets: test d’hypothèse

Ces tests permettent d’effectuer une inférence statistique sur des données issues de lois de Poisson :

  • Le test à 1 échantillon calcule un intervalle de confiance et un test d’hypothèse pour le taux et la moyenne des données issues d’une loi de Poisson.
  • Le test à 2 échantillons calcule un intervalle de confiance et un test d’hypothèse pour la différence entre les moyennes et les taux de 2 processus de Poisson.

 

Propriétés de la loi de Poisson

La loi de Poisson est une distribution de données qui représente le nombre d’occurrences d'un événement dans un espace d’observation défini.

Le nombre d’appels quotidiens vers un centre d’appels, par exemple, suit une loi de Poisson.

Etant donné qu’un événement ne peut pas se produire un nombre de fois négatif, ou un nombre de fois non-entier, des données de Poisson doivent être des nombres entiers non-négatifs sans borne supérieure.

Le nombre de défauts de peinture sur un capot de voiture constitue des données de Poisson, en raison de l’absence de borne supérieure pour le décompte.

De plus, l’espace d’observation doit être défini : le nombre de défauts de peinture sur un capot de voiture; le nombre de clients pour un jour ouvrable, etc.

Comme pour la distribution normale, il y a un nombre infini de lois de Poisson.

Une distribution normale est définie par deux paramètres (la moyenne mu, et la variance sigma2), alors qu'une loi de Poisson est définie par un seul paramètre lambda, qui correspond au nombre d’occurrences prévues d’un événement pendant la période d'observation donnée.

Supposons, par exemple, qu’un événement se produise deux fois toutes les 5 minutes en moyenne.

Si vous dénombrez des événements pour un intervalle de 10 minutes, vous utiliserez une loi de Poisson avec lambda = 4 car l’événement devrait se produire quatre fois en 10 minutes.

 

Calcul des probabilités avec la loi de Poisson

Les données de Poisson sont des nombres entiers non-négatifs. Les lois de Poisson sont donc discrètes, la probabilité d’une valeur individuelle1 peut être calculée. La probabilité selon laquelle il y a exactement k occurrences = P(x=k) = 

 

Relation avec une distribution normale

Lorsque la valeur de lambda augmente, une loi de Poisson se rapproche d’une distribution normale, la moyenne et la variance (non pas l’écart type) étant égales à lambda : N(lambda, lambda). Cette propriété permet des approximations normales lors de l’exécution de tests d’hypothèses.

Lorsque la valeur de lambda augmente, les lois de Poisson se rapprochent de N(lambda, lambda).

 

 

La loi de Poisson discrète (lambda = 100) est presque identique à la distribution continue N(100 100).

 

 

 

Qu’est-ce qu’un processus de Poisson ?

Un processus de Poisson décrit le nombre d'occurrences d’un événement pour une durée, une surface, un volume, etc. donné.

En d’autres termes, il s’agit d’une situation dans laquelle on dénombre des événements dans un espace d’observation défini, sans limite supérieure pour le dénombrement.

 

Longueur de l’observation

La période d’observation doit être bien précisée. Toutefois, cette « période d’observation » peut avoir n’importe quelle forme :

  • temporelle (combien de clients se rendent dans un bureau de poste en 1 jour)
  • espace bidimensionnel (dénombrement des défauts de peinture sur un capot de voiture)
  • espace tridimensionnel (dénombrement des poissons dans un kilomètre cube d’eau de mer)
  • Etc.

Les dimensions de la période d’observation sont importantes pour les calculs des tests.

Minitab désigne cette valeur sous le nom de « longueur » de l’observation.

L’exemple suivant illustre l’importance de la « longueur » pour l'analyse d'un processus de Poisson :

Supposons que vous dénombriez le nombre de défauts de peinture sur un capot de voiture.

Il ne sera pas nécessaire de spécifier les dimensions du capot si vous comparez des capots de type et de taille identiques.

Ainsi, si vous comparez les défauts de peinture sur les capots de 2 véhicules du même modèle A, vous n’aurez pas à spécifier les dimensions car celles-ci sont identiques.

Par contre, si vous comparez des capots d’un modèle A de citadine et d’un modèle B de tout terrain, vous devrez convertir le nombre moyen de défauts en un taux de défauts.

Par exemple, si des citadines présentent, en moyenne, 9 défauts sur un capot de 1,2 m², et des 4x4 15 défauts sur un capot de 2,4 m², vous devrez normaliser les résultats pour pouvoir effectuer une comparaison.

Les 4x4 ont une moyenne plus élevée, mais un taux inférieur : 0,6 comparé à 0,752.

Dans ce calcul, les dimensions 1,2 et 2,4 sont des valeurs de « longueur ».

Autre exemple :

Vous comparez deux centres d’appels pour déterminer celui qui traite le plus d'appels. Un centre dénombre les appels hebdomadaires; l’autre dénombre les appels quotidiens.

Vous ne pouvez pas comparer ces chiffres bruts, et vous devez donc les normaliser à des fins de comparaison en entrant des valeurs de « longueur ».

Pour exprimer ces deux observations en tant que taux quotidien, considérez des valeurs de longueur de 7 et 1.

 

Distinction entre « taux » et « moyenne »

Moyenne : Le nombre moyen d’occurrences d’un événement dans l’espace d’observation total.

Moyenne = Nombre total d’occurrences ÷ effectif de l'échantillon.

Exemple :

Vous dénombrez les arrivées de clients dans un bureau de poste pendant 5 jours consécutifs.

Vous dénombrez 5, 10, 15, 20, et 25 clients, respectivement.

Moyenne = (5 + 10 + 15 + 20 + 25) ÷ 5 = 15

Taux = Moyenne ÷ longueur

  • lorsque la longueur = 1 (défaut), Taux = Moyenne, et on utilise l'étiquette "taux"
  • lorsque la longueur ≠ 1, Minitab affiche le taux et la moyenne

 

Retour au logiciel Minitab : Test de Poisson à 1 échantillon

La boîte de dialogue accepte les formats de données suivants :

  • colonnes de données brutes
  • colonnes de données d'effectifs
  • données résumées

Comme d’autres fonctionnalités du logiciel Minitab ayant les mots "1 échantillon" dans leur nom, si vous entrez plusieurs échantillons dans la feuille de travail, seront exécutés plusieurs tests à 1 échantillon.

 

Durées d'observation pour le test de Poisson à 1 échantillon

Dans le cas d’un test à 1 échantillon, vous ne comparez pas 2 populations, mais vous devrez peut-être spécifier la notion de durées d'observation pour une mise à l’échelle appropriée de vos résultats.

La notion de durées d'observation est toujours pertinente car vous devrez peut-être comparer le taux de votre population simple à une moyenne historique ou à une norme industrielle.

 

Approximation normale

Etant donné la relation entre les lois de Poisson et les distributions normales, on peut calculer le test et l’intervalle de confiance avec une approximation normale.

Cette méthode n’est valide que si le nombre total d'événements est suffisamment élevé.

Lorsque ce total est inférieur à 11, le logiciel Minitab affiche la mise en garde suivante : "* REMARQUE * L'approximation selon la loi normale risque de ne pas être exacte pour les nombres totaux d'occurrences trop faibles."

L’approximation normale peut être utile majoritairement à des fins d'enseignement.

L'exemple suivant s’applique à un Test de Poisson à 1 échantillon qui utilise des données résumées et la notion de durée d'observation.

Supposons que 30 capots de voiture, de 1,2 m² chacun, soient inspectés et que l’on constate 535 défauts. Votre objectif est de tester : taux =3 comparé à taux ≠3.

Dans le logiciel, Choisissez Stat > Statistiques Elémentaires > Test de Poisson à 1 échantillon.

Renseignez la boîte de dialogue comme illustré ci-dessous.

 

 

N’oubliez pas que la notion d’ « effectif de l’échantillon » signifie le nombre de fois que vous avez dénombré des événements.

Si vous dénombrez vos appels téléphoniques pendant 7 jours, l'effectif de votre échantillon est 7.

Toutefois, si vous dénombrez vos appels téléphoniques hebdomadaires pendant une semaine, l'effectif de votre échantillon est 1.

Cliquez ensuite sur Options et renseignez la boîte de dialogue comme suit afin de tenir compte des dimensions du capot de voiture.

 

 

Cliquez sur OK dans chaque boîte de dialogue.

 

 

Les résultats permettent de tirer les conclusions suivantes :

  • Sur la base de votre échantillon, vous pouvez être sûr à 95% que le taux d’occurrence vrai pour la population ou l’occurrence moyenne se situe dans les plages fournies
  • Dans le cas de l’utilisation d’un seuil de signification alpha de 0,05, vous pouvez rejeter l’hypothèse nulle selon laquelle le taux = 3

 

Retour au logiciel Minitab : Test de Poisson à 2 échantillons

La boîte de dialogue accepte les formats de données suivants :

  • colonnes de données brutes, empilées ou désempilées
  • colonnes de données d'effectifs, empilées ou désempilées
  • données résumées

 

Durées d'observation pour test à 2 échantillons

Si les périodes d’observation pour vos échantillons sont différentes, vous devez entrer des valeurs de durées d'observation pour que vos comparaisons soient significatives.

Si vous entrez une valeur, Minitab applique cette valeur aux deux échantillons.

Si vous entrez deux valeurs, chacune s’applique à son échantillon respectif.

L’option « Utiliser l’estimation de regroupement du taux pour tester une différence de zéro »

 

 

Choisissez cette possibilité dans le menu déroulant des Options de la boîte de dialogue pour calculer une valeur lambda de regroupement à utiliser pour les deux échantillons.

L’hypothèse de lambdas égaux, alors que la raison même d’un test à 2 échantillons est de montrer qu’ils sont différents, peut sembler contradictoire. Toutefois, il n’y a pas contradiction mathématique. Tous les tests supposent que H0 est vrai, et le regroupement du taux reflète simplement l’hypothèse nulle.

Autrement dit, si vous n’utilisez pas un taux de regroupement lorsque H0 indique que les taux sont égaux, vous n’utilisez que la moitié de vos données pour estimer le taux pour chaque échantillon.

Si vous avez 2 échantillons à effectifs de 10, vous pouvez estimer le taux de chacun séparément à l’aide de 10 observations, ou vous pouvez combiner les échantillons et calculer un taux à partir de 20 observations, que vous utiliserez pour les deux échantillons d’origine.

Vous avez supposé que les taux sont égaux dans H0, donc le regroupement du taux reflète ce choix.

L'exemple suivant s’applique à un Taux de Poisson à 2 échantillons qui utilise des données résumées et l'option "Durées d'observation".

Supposons que vous vouliez effectuer un test pour déterminer s'il y a une différence entre le nombre de défauts constatés sur des capots de citadines et de 4x4.

Sur l’échantillon de 80 citadines, 720 défauts constatés sur des capots de 1,2 m². Sur l’échantillon de 72 tout terrain, 1080 défauts constatés sur des capots de 2,4m².

Cet exemple illustrera également un test d’hypothèse unilatéral.

Dans le logiciel, Choisissez Stat > Statistiques Elémentaires > Test de Poisson à 2 échantillons.

Renseignez la boîte de dialogue comme illustré ci-dessous.

 

 

Cliquez ensuite sur Options et renseignez la boîte de dialogue comme suit afin de tenir compte des dimensions du capot de voiture.

 

 

Cliquez sur OK dans chaque boîte de dialogue.

 

 

Etant donné que des valeurs ont été saisies dans la partie "Durées d'observation", Minitab exécute des tests sur le taux et la moyenne.

On remarquera également qu’un test unilatéral est choisi.

Les résultats indiquent que le test pour le taux est significatif, mais que le test pour la moyenne ne l’est pas.

Ceci est dû au fait que le Taux1 est supérieur au Taux2, alors que la Moyenne1 est inférieure à la Moyenne2.

Ceci vous montre que vous devez comprendre la signification de la notion de durées d'observation pour pouvoir tirer les conclusions correctes de vos données.