Que faire si mes données ne suivent pas une distribution normale ?

Cet article communique la réponse apportée à l'une des questions qui reviennent le plus souvent au cours des formations; c'est-à-dire «Que dois-je faire lorsque mes données ne sont pas normalement distribuées ?".

De nombreux tests statistiques sont basés sur l'hypothèse de normalité. Par conséquent, ne pas disposer de données normalement distribuées peut générer un sentiment d’appréhension lors de l’analyse.

Si vos données ne suivent pas une distribution normale, certains praticiens vous suggéreront un test non paramétrique (non basé sur l’hypothèse de normalité). D'après son expérience, l'auteur de cet article dirait que si vous avez des données non normales, vous pouvez effectivement considérer le test non paramétrique qui correspond ; toutefois, si le test d’hypothèse que vous utilisez n’est pas sensible à la normalité, vous pouvez l’utiliser même lorsque vos données ne sont pas normales.

Quels sont les tests robustes à l'hypothèse de normalité ?

Plusieurs tests sont «robustes» à l'hypothèse de normalité : les tests t de Student (1 échantillon, 2 échantillons et tests t appariés), l’analyse de la variance (ANOVA), la régression et les plans d’expériences (DOE).

Les tests d’hypothèse robustes à la normalité sont des tests basés sur les moyennes. Même si la normalité est une hypothèse sous-jacente pour ces tests, ils donnent des résultats satisfaisants pour des données non normales ; presque aussi satisfaisants que si les données (ou résidus) étaient normalement distribuées.

D’après le Théorème Central Limite, même si des données individuelles ne suivent pas une loi normale, une moyenne issue de ces données suivra, elle, une loi normale, à condition que l’échantillon collecté soit suffisamment grand.

Prenons un exemple pour illustrer ce point.

Générez dans Minitab, à l'aide du sous-menu Calc > Données aléatoires > Gamma... des données aléatoires à partir d'une distribution Gamma avec un paramètre d’échelle de 1 et un paramètre de forme de 2, vous obtiendrez des données qui sont bornées à 0 et fortement asymétriques. La moyenne théorique de ces données est de 2. Il est clair que ces données ne sont pas normales, pas même à peu près normales !

Histogramme de Distribution de Gamma

Comment vérifier mon hypothèse, soit une moyenne de la population égale à 2 ? Un test t de Student à 1 échantillon me permettra-t-il de procéder à cette vérification ?

Si la normalité n’est pas strictement essentielle, je devrais pouvoir exécuter le test avec une conclusion correcte dans environ 95% des cas ou, en termes plus techniques, avec environ 95% de confiance.

Pour générer 40 échantillons à partir d'une loi Gamma (1 ; 2) et stocker la valeur de p pour un test t à 1 échantillon dans la colonne C9 de votre propre feuille de travail, vous pouvez aussi copier les commandes de session ci-dessous et les coller dans un fichier Bloc-notes. Enregistrez le fichier en le nommant "ValeursDeP.mtb," avec une extension .MTB et non pas .TXT (enregistrez-le en choisissant le Type de fichier : Tous les fichiers dans la boîte de dialogue d’enregistrement plutôt que le Type : Texte).

Random 40 C1;

Gamma 2 1.

Name c2 "Moyenne1" c3 "Ecart type1" c4 "N1"

Statistics C1;

Mean 'Moyenne1';

StDeviation 'Ecart type1';

N 'N1'.

Name C5 'T'

Let 'T' = -abs('Moyenne1'-2)/('Ecart type1'/sqrt('N1'))

Name c6 "PDiv2"

CDF 'T' 'PDiv2';

T 39.

Name C7 'valeur de p'

Let 'valeur de p' = 'PDiv2' * 2

name C9 "valeurs de p"

stack C7 C9 C9

Une fois le fichier enregistré, sélectionnez le sous-menu Outils > Lancer un exécutable dans Minitab 17. Dans « Nombre d’exécutions », saisissez un nombre relativement important, par exemple 1000, et sélectionnez le fichier qui contient la série de commandes de session (parcourez jusqu’à l'emplacement sur votre ordinateur où le fichier ValeursDeP.MTB a été enregistré précédemment). Cliquez sur Ouvrir.

Prenez une tasse de café… A votre retour, la simulation sera terminée. Créez un histogramme de la colonne C9 (qui contient les valeurs de p stockées) en sélectionnant le sous-menu Graphique > Histogramme. Vous constaterez que, dans environ 95% des cas, les valeurs de p seront supérieures au seuil critique de 0,05. Cela signifie que dans 95% des cas nous ne pourrons pas rejeter l’hypothèse nulle, c’est exactement ce à quoi nous devrions nous attendre si l'hypothèse nulle était vraie (vraie moyenne égale à 2).

Puisque l’hypothèse nulle est vraie dans notre scénario, nous ne devrions logiquement pas la rejeter. Dans la simulation que j’ai lancée, dans 95,3% des cas, la valeur de p était supérieure à 0,05, ce qui correspond à une décision de non rejet de l’hypothèse nulle. Incroyable ? Qu'est-ce que cela signifie vraiment ? En termes simples, le test fonctionne avec un niveau de confiance de 95% environ, en dépit du fait que les données ne sont clairement pas normales !

Histogramme des valeurs de p

Notez que dans votre propre simulation, l'histogramme ci-dessus sera très probablement un peu différent du mien. C’est ce qui fait la beauté de la simulation de données, le résultat est un peu différent à chaque fois. Cependant, même avec des chiffres légèrement différents, la conclusion de l'analyse devrait être très similaire.

Test T a 1 echantillon

À ce stade, j’espère que vous vous sentirez un peu plus à l'aise en ce qui concerne l'utilisation de ces tests robustes à la non normalité, même si vos données individuelles ne satisfont pas l'hypothèse de normalité.

Le menu Assistant peut également vous aider.

En effet, sélectionnez le sous-menu Assistant > Tests d’hypothèse > Test t à 1 échantillon, en choisissant C1 dans le champ Colonne de données ; 2 dans le champ Cible et « La moyenne de C1 est-elle différente de 2 » dans le champ Que souhaitez-vous déterminer ? L’Assistant vous produit trois rapports.

Test t à 1 échantillon pour la moyenne de C1

Le rapport ci-dessous vous fournit des «règles de base». Ce rapport vous informe que le test réalisé est correct même avec des données non normales à partir du moment où la taille de l’échantillon disponible est suffisamment grande ( n ≥ 20 ).

Test t à 1 échantillon pour la moyenne de C1 - rapport

Ce rapport communiqué par le menu Assistant permet aussi de signaler des observations inhabituelles. Ces observations suspectes ou inhabituelles auraient pu être considérées comme aberrantes si les données avaient été distribuées normalement. Dans ce cas cependant, puisque nous savons ces données ont été générées aléatoirement à partir d’une loi non normale (Loi Gamma), nous pouvons être sûrs qu'il ne s’agit pas de valeurs aberrantes, mais d’observations qui reflètent une répartition non normale sous-jacente.

Chaque fois qu'un test de normalité détecte une non-normalité, il faut tout d’abord déterminer la raison pour laquelle ses données ne sont pas normales. Voici quelques raisons très fréquentes :

La distribution sous-jacente est vraiment non normale.
Sont présentes des valeurs aberrantes, ou sont constatés des mélanges de distributions (pièces issues de deux lignes de production différentes et mélangées par exemple)
Le système de mesure a une capacité faible à discriminer entre pièces (nombre de catégories distinctes faible)
Les données sont asymétriques.
La taille de l'échantillon est très grande.

Quels tests ne sont pas robustes à l'hypothèse de normalité ?

Les tests basés sur les moyennes sont en général robustes à l'hypothèse de normalité, grâce au Théorème Central Limite. Cependant, pour les tests basés sur des valeurs individuelles ou sur l’analyse des queues de distribution, la normalité devient vraiment critique.

Voici quelques exemples :

Analyse de la capabilité pour déterminer les Cpk et Ppk
Intervalles de tolérance
Inspection par échantillonnage pour des données continues
Analyse de fiabilité pour estimer des percentiles faibles ou élevés

Les tests pour l'égalité des variances sont également très sensibles à l'hypothèse de normalité.

Dans cette situation, l’analyse de données non normales devient plus complexe. Des transformations de données pourraient s’avérer nécessaires ou l’analyse pourrait être faite à partir de la loi théorique sous- jacente (non normale) appropriée ou à partir des pourcentages de points qui se trouvent hors spécifications.

Si vous souhaitez apprendre à mieux évaluer la sensibilité des tests à la normalité dans différents scénarios, ou à analyser les données non normale lorsque l'hypothèse de normalité est extrêmement critique, ou moins critique, vous pouvez participer à notre cours sur l' analyse des données non normales pour la qualité.

Que faire si mes données ne suivent pas une distribution normale ?

Quels sont les tests robustes à l'hypothèse de normalité ?

Quels tests ne sont pas robustes à l'hypothèse de normalité ?

Autres articles à votre disposition