Cet article a explique les différents types d'intervalles disponibles dans Minitab, leurs caractéristiques, et quand vous devriez les utiliser.
En effet, dans les statistiques, plusieurs intervalles peuvent être exploités pour caractériser des résultats. Cet article vous décrit les intervalles de confiance, de prédiction et de tolérance. Ces derniers sont les moins connus, ils représentent une plage de valeurs qui est susceptible de contenir une certaine proportion de la population.
Les intervalles de confiance
Les intervalles de confiance représentent la plage d’incertitude associée à l’estimation d’une statistique (moyenne, proportion ou écart-type etc…). Une estimation est forcément entachée d’un risque d’erreur d’échantillonnage. Les intervalles de confiance sont utiles pour établir des bornes pour l’estimation, notamment, de la moyenne ou d’un écart type, mais également des coefficients de régression, des proportions, des taux de fréquence (Poisson) et des différences entre populations.
Un intervalle de confiance à 95% indique que pour 19 échantillons sur 20 prélevés à partir d’une même population, ces intervalles contiendront le paramètre étudié, avec une marge d'erreur de 5%.
Illustrons ces propos à l'aide d'un exemple. Un fabricant d’ampoules désire estimer combien de temps les ampoules fonctionnent. Il échantillonne au hasard 100 ampoules et enregistre le temps de combustion jusqu’à défaillance dans une feuille de calcul.
Minitab vous permet de calculer un intervalle de confiance à 95% de la moyenne, avec des bornes de [1230 – 1265] heures par exemple. L'intervalle de confiance indique que vous pouvez être sûr à 95% que la vraie moyenne pour l'ensemble de la population des ampoules se situe dans cette fourchette.
Dans l'exemple des ampoules, nous savons que la moyenne est susceptible de se situer dans l'intervalle, mais l'intervalle de confiance à 95% ne signifie pas que 95% des observations futures seront à l’intérieur de cet intervalle. Certes l’intervalle de confiance porte sur une moyenne, mais les valeurs individuelles sont forcément moins stables et plus bruitées qu’une valeur moyenne qui tend à lisser les points extrêmes. Pour tirer une telle conclusion, il faut donc utiliser un type d'intervalle différent.
Les intervalles de prédiction
Lorsque vous établissez un modèle statistique (à partir d’une régression, une ANOVA ou un plan d’expérience), vous pouvez générer des prévisions. Un intervalle de prédiction est une plage de valeurs qui est susceptible de contenir une observation individuelle future à partir des valeurs des prédicteurs en entrée, qui sont pris en compte dans votre modèle.
Utilisons le même échantillon que ci-dessus, Minitab calcule un intervalle de prédiction dont les bornes sont [1350 – 1500] heures pour des niveaux spécifiques des paramètres de fabrication en entrée. Nous pouvons être sûrs à 95% que cet intervalle comprendra le temps de combustion d’une prochaine ampoule produite avec des niveaux donnés des prédicteurs en entrée.
L'intervalle de prédiction est toujours plus large que l'intervalle de confiance à cause de l'incertitude supplémentaire liée à la prédiction d'une valeur individuelle. L’intervalle de prédiction dépend aussi de la qualité du modèle et de son adéquation dans la région que nous cherchons à étudier.
Que représentent les Intervalles de tolérance ?
Un intervalle de tolérance est une plage de valeurs qui est susceptible de contenir une certaine proportion de la population. Pour générer des intervalles de tolérance, vous devez spécifier à la fois la proportion de la population à couvrir et un niveau de confiance. Le niveau de confiance représente la probabilité que l'intervalle couvre effectivement cette proportion de la population.
Reprenons notre exemple du fabricant d’ampoules pour expliciter l'intervalle de tolérance : le fabricant a échantillonné au hasard 100 ampoules, il a saisi les temps de combustion dans Minitab.
Dans le logiciel Minitab, nous avons sélectionné le sous-menu Stat > Outils de qualité > Intervalles de tolérance. Dans la section Données de la boîte de dialogue, nous avons choisi « Un ou plusieurs échantillons chacun dans sa Colonne », nous avons entré Heures dans le champ proposé puis cliqué sur OK.
Le test de normalité intégré dans l’intervalle de tolérance indique que les données suivent une distribution normale. Par conséquent, nous pouvons utiliser l'intervalle normal [1060-1435]. Le fabricant est sûr à 95% que 95% au moins de toutes les durées de vie se situeront entre 1060 et 1435 heures.
L’intervalle de tolérance dans Minitab permet aussi d’analyser des données qui ne suivent pas une loi normale à l’aide d’une méthode non paramétrique. Si cette plage de valeurs est plus large que les exigences clients, le processus risque de générer une proportion excessive de défauts.
Comment fonctionne un intervalle de tolérance par rapport aux intervalles de confiance ?
La largeur d'un intervalle de confiance est entièrement associée à l'erreur d'échantillonnage. Lorsque la taille de l'échantillon se rapproche de l'ensemble de la population, la largeur de l'intervalle de confiance se rapproche de zéro.
En revanche, la largeur d'un intervalle de tolérance est due à la fois à l'erreur d'échantillonnage mais aussi à la variance dans la population. Lorsque la taille de l'échantillon se rapproche de l'ensemble de la population, l'erreur d'échantillonnage diminue et les percentiles estimés se rapprochent des véritables percentiles de la population.
Pour déterminer quelles bornes pourraient contenir 95% de la population, Minitab calcule le 2,5éme percentile estimé et le 97,5ème percentile (97,5 % - 2,5 % = 95 %. Ce taux représente le taux de couverture).
Les estimations des percentiles sont entachées d’une certaine erreur parce que nous travaillons avec un échantillon. Nous ne pouvons pas être sûrs à 100% que l’intervalle de tolérance contiendra vraiment le pourcentage indiqué de la population. Par conséquent, les intervalles de tolérance ont un niveau de confiance associé.
Utiliser des intervalles de tolérance
Dans le domaine de l'amélioration de la qualité, les analystes Six Sigma exigent généralement que les mesures de sortie d'un processus (par exemple, temps de combustion, longueur, etc.) restent dans des limites de spécification. Les intervalles de tolérance sont utiles pour détecter une variation excessive en comparant les exigences des clients aux limites de tolérance qui couvrent une proportion déterminée de la population. Si l'intervalle de tolérance est plus large que les exigences du client, la variation du produit risque d’être excessive.
Utilisez les intervalles de tolérance si vos données ne suivent aucune loi théorique connue (à cause de mélanges de distributions par exemple…), l’approche non paramétrique vous permettra de prévoir une plage de variation probable des résultats, même dans ces situations.
Avec Minitab, il est facile d'obtenir ces différents types d’intervalles pour vos données ! Vous avez juste besoin de bien comprendre quel type d’informations chacun de ces intervalles vous fournira.