Dans la version la plus récente de son logiciel Minitab Statistical Software, Minitab a ajouté des corrélogrammes à son arsenal d'outils visuels. A cette occasion, je voulais vous expliquer pourquoi ces graphiques sont des outils si populaires et si utiles pour les analyses avancées.
Pour faire simple, un corrélogramme, parfois désigné sous le nom de diagramme de corrélation ou matrice de corrélation, est un instrument permettant de visualiser des statistiques de corrélation. On l'utilise pour évaluer le caractère aléatoire de certains éléments et identifier des schémas simples au niveau de vos données en repérant des variables fortement corrélées entre elles. Comme c'est le cas pour une analyse de données, il est important dans un premier temps d'examiner et de comprendre la structure de vos données dans le processus d'analyse prédictive. Le fait de savoir si les variables sont fortement corrélées entre elles vous permet ainsi de mieux aborder les étapes suivantes.
Par ailleurs, comme vous allez le constater, le corrélogramme est un formidable outil visuel qui vous aide à exploiter au mieux les analyses prédictives.
UTILISER UN CORRELOGRAMME POUR IDENTIFIER RAPIDEMENT DES CORRELATIONS
Vous vous dites sans doute "Mais j'effectue déjà des analyses de corrélation au moyen d'un graphique matriciel pour évaluer les associations et le caractère aléatoire des données. Quelle est la différence ?" Lorsque vous n'avez que quelques variables et un nombre d'échantillons relativement restreint, il est tout à fait pertinent d'avoir recours à la corrélation conjointement avec un graphique matriciel.
Mais prenons l'exemple d'un ingénieur qui conçoit des piles à combustible pour des voitures électriques. Vous allez rapidement comprendre la puissance d'un corrélogramme lorsque le nombre de variables et d'échantillons est plus important.
La température de fonctionnement figure parmi les différents paramètres qui influent sur les performances des piles à combustible, au même titre que la pression, les débits et l'humidité. C'est pourquoi il est nécessaire de définir la température de fonctionnement optimale lors de la conception de piles à combustible. Pour optimiser les performances et l'efficacité lors de la conception des piles à combustible, l'ingénieur a besoin de comprendre la relation entre la quantité d'hydrogène dans la pile, la quantité d'oxygène et la température à laquelle l'hydrogène et l'oxygène sont introduits dans la pile à combustible pour générer de l'énergie.
L'ingénieur envisage d'évaluer si des réactions chimiques à une température légèrement plus élevée ou plus faible peuvent avoir un impact sur la puissance de la pile à combustible en utilisant 14 observations pour chacune de ces mesures.
Après avoir lancé l'analyse de corrélation dans Minitab (une étape accessible en toute simplicité à partir de l'option Stat -> Statistiques élémentaires -> Corrélation), l'ingénieur observe les corrélations parmi les variables de cette étude à partir du tableau de corrélation et un graphique matriciel.
Selon les résultats présentés dans le tableau, le coefficient de corrélation de Pearson entre le contenu en hydrogène et les minutes de puissance correspond à −0,791, et la valeur p à 0,001. La valeur p est inférieure au seuil de signification de 0,05, ce qui indique que la corrélation est sensiblement différente de zéro. L'association sous-entend que l'augmentation du contenu en hydrogène a tendance à réduire la durée, en minutes, de la puissance générée.
(N'oubliez pas qu'une corrélation mesure la force d'une association linéaire entre deux variables, qui est comprise entre -1 [forte corrélation négative] et +1 [forte corrélation positive]. Les corrélations proches de zéro indiquent qu'il n'existe aucune association linéaire importante entre les deux variables.)
Un graphique matriciel affiche les associations individuelles et représente un outil utile pour visualiser cette analyse. Dans l'exemple ci-dessous, notez que la représentation des minutes de puissance et du contenu en hydrogène se trouve dans l'angle inférieur gauche.
Bien qu'un graphique matriciel soit également particulièrement utile pour identifier les valeurs aberrantes potentielles, il n'a pas été conçu pour détecter rapidement les corrélations les plus fortes ou les plus faibles. Par exemple, si vous observez le graphique matriciel ci-dessus, combien de temps vous faut-il pour déterminer laquelle de ces corrélations se rapproche le plus de -1 ou de +1 ?
Pour que vous puissiez répondre rapidement à cette question, rien de mieux que le corrélogramme, un outil bien plus pratique, notamment lorsque vous présentez ce type d'analyse à d'autres personnes qui ont besoin de parcourir et de comprendre les informations d'un seul coup d'œil.
Prenons maintenant ces mêmes données, mais présentées cette fois-ci sous la forme d'un corrélogramme ci-dessous (dans Minitab Statistical Software : Graphique -> Corrélogramme) :
Avez-vous remarqué la rapidité avec laquelle votre œil a été attiré par le carré rouge foncé en bas, qui représente les minutes de puissance par rapport au contenu en oxygène ? Avec les corrélogrammes, l'intensité de la couleur est proportionnelle au coefficient de corrélation : plus les carrés sont foncés, plus les corrélations sont fortes. Le corrélogramme offre donc une représentation visuelle des corrélations à la fois claire et facile à analyser. En ayant recours dans ce cas au corrélogramme, l'ingénieur est en mesure de comprendre beaucoup plus facilement les corrélations entre les données.
UTILISER UN CORRELOGRAMME AVEC DE PLUS GRANDES QUANTITES DE DONNEES
Imaginons maintenant une analyse avec 14 variables et 1 000 lignes de données. L'origine spécifique des données importe peu ; il pourrait s'agir des résultats d'une étude menée sur un produit grand public ou de mesures réalisées sur un processus de fabrication de circuits imprimés. Si vous demandez à votre équipe de repérer visuellement les associations les plus fortes (proches de +1 ou de -1) dans le graphique matriciel ci-dessous, combien de temps, selon vous, lui faudra-t-il pour identifier les corrélations les plus fortes ?
Observez maintenant les mêmes données, mais présentées, cette fois, dans un corrélogramme, comme ci-dessous. Remarquez à quel point les faibles corrélations sont peu visibles alors que les corrélations les plus fortes vous sautent aux yeux. Imaginez un peu le gain de temps pour votre équipe lorsqu'elle aura besoin d'identifier les informations significatives !
Il est indispensable de comprendre les relations, telles que les corrélations, entre les variables pour pouvoir réaliser des analyses prédictives pertinentes. Bien qu'il soit assez simple d'identifier les corrélations lors d'une analyse de données comportant relativement peu de variables, la situation se complique lorsque le nombre de variables augmente et que les fichiers de données sont plus volumineux. Dans ce cas, vous devrez en effet redoubler d'efforts pour identifier et comprendre les relations de corrélation. En exploitant la puissance d'un corrélogramme, l'analyse statistique devient encore plus performante, plus rapide et plus simple avec Minitab, notamment pour vos problèmes plus complexes !