Les statistiques multivariées peuvent être utilisées pour mieux comprendre la structure de grandes quantités de données (qui pourraient être liées aux habitudes et profils de vos clients comme dans l’exemple que nous allons présenter ici).
Supposons que vous disposiez d’une grande quantité de données sur vos clients (les préférences, le degré de satisfaction, les attentes, etc ... ), et que vous ayez besoin d'analyser un grand nombre de variables.
Vos données pourraient sembler quelque peu chaotiques au début, et vous pourriez envisager l'utilisation de nombreux types de graphiques Minitab pour mieux comprendre la structure globale des données. Mais avec un grand nombre de variables, il devient très difficile d'obtenir une représentation satisfaisante et exhaustive en seulement quelques graphiques. À ce stade, vous aurez besoin d'utiliser des outils statistiques plus puissants, telles que les techniques multivariées.
Dans la suite de cet article, je m’intéresserai plus particulièrement à l'Analyse en Composantes Principales (ACP) utilisée pour analyser un grand nombre de données. Les techniques multivariées sont très utiles lorsque vous avez besoin de résumer beaucoup de variables en un plus petit nombre de variables (par exemple, réduire le nombre de dimensions) pour simplifier l'analyse d'un grand nombre de données et afin de mieux comprendre comment les variables peuvent être regroupées.
Le Tour de France
Il y a quelques années de cela, la société Minitab a organisé un «Tour de France», avec des événements et des présentations qui ont lieu en divers endroits et villes en France. Nous avons présenté les nouvelles fonctionnalités de Minitab 15 à un public de clients et clients potentiels. Ensuite, nous avons demandé aux participants de remplir des formulaires d'évaluation.
A partir de ces formulaires d’évaluation, nous voulions savoir quels étaient les différents profils de participants. Nous voulions également identifier les attentes des participants, et voir si certaines des questions étaient redondantes (et donc fortement corrélées). Nous avons posé plus de dix questions à 115 participants, qui ont répondu par Oui (1) ou par un Non (0). Une analyse en composantes principales (ACP) sur ces résultats à ensuite été réalisée.
Analyse en Composantes Principales
Le diagramme ci-dessous est une représentation graphique d'une analyse en composantes principales. Les lignes qui vont dans la même direction et sont proches les unes des autres indiquent que ces variables peuvent être regroupées (elles sont corrélées). Dans ce diagramme, la première composante dans la direction horizontale est un résumé d’une part de « Info training », « Info Minitab », « Info Minitab Engage », et d’autre part de Meet Minitab (« Rencontrer la société Minitab »), Meet Users (« Rencontrer d’autres utilisateurs »), Why Use QC (« pourquoi utiliser Minitab Engage »), et participer à d’autres événements organisés par la société Minitab. Ces variables ont été regroupées sur le diagramme, car elles sont étroitement associés / corrélées d'un point de vue statistique.
La première composante (dans le sens horizontal) est la plus importante: ces participants sont venus pour obtenir plus d'informations (sur la formation, Minitab et Minitab Engage), et ces trois variables sont fortement corrélées.
Certains participants ont des intérêts plus «sociaux» (Meet Minitab, Meet users : rencontrer des utilisateurs ou des employés de la société Minitab, Other Events : participer à d'autres événements, Why use QC : découvrir pourquoi utiliser Minitab Engage), et ces variables sont également été fortement corrélés. Donc, nous pouvons identifier deux types d'attentes distinctes des participants : Obtenir plus d'information ("Info") et rencontrer d'autres professionnels («attentes plus sociales»).
Considérons maintenant la deuxième composante principale / dimension (dans le sens vertical), deux variables sont étroitement associés: Learn Software (renseignements sur le logiciel Minitab) et Why Use Minitab (pourquoi utiliser Minitab). La seconde composante principale résume ces deux variables. Elle nous aide également à distinguer entre les variables "Info" et les variables plus «sociales».
Nous avons donc trois types d'attentes: Obtenir plus d' informations (trois variables), qui est un peu corrélés (même direction) avec des attentes plus "sociales" (quatre variables), puis - complètement dé-corrélées par rapport aux attentes précédentes - des demandes plus "techniques" peuvent être identifiées (Learn Software, Why use Minitab: deux variables).
Les dix variables ont donc été résumées en deux composantes principales (dans le graphique ci-dessous), et toutes ces variables ont été répartis en trois groupes différents: Obtenez plus d'informations, des intérêts plus "sociaux" et des attentes plus «techniques». Grâce à cette analyse multivariée, nous pouvons mieux comprendre les attentes des participants et la façon dont elles sont structurées.
Une analyse de regroupement / « clustering » (une autre technique multivariée) a ensuite été utilisée pour répartir les participants en trois groupes cohérents (les plus différents possibles entre groupes et les plus homogènes possibles à l’intérieur d’un groupe) par rapport aux deux composantes principales (dimensions) de l’ACP. Une analyse de regroupement (K-Moyennes en groupes) vise à minimiser les différences au sein des groupes (pour plus de cohésion), tout en maximisant les différences entre les groupes.
Considérez le diagramme des Scores ci-dessous: les points noirs (dans le coin supérieur gauche) tendent à représenter les participants qui sont intéressés plutôt par de questions «techniques», alors que les points verts représentent les participants qui sont intéressés par plus d'informations et qui ont aussi des intérêts plus «sociaux». Le dernier groupe, avec des points rouges (dans le coin inférieur gauche), est plus neutre, sans grand intérêt bien défini.
Nous avons donc identifié trois profils différents de participants, et le diagramme de Score dans Minitab nous a été utile pour montrer comment un individu en particulier est positionné lorsque l'on considère les principales variables/composantes principales (en utilisant la fonctionnalité balayage dans Minitab, il est possible d’obtenir des informations plus détaillées sur les points sélectionnés par l’utilisateur).
Enfin, dans le diagramme des Scores (de l’ACP) ci-dessous, nous avons affiché les fonctions professionnelles des participants, selon les deux composantes principales de l’ACP. Les Master Black Belts (les triangles violets) sont plutôt positionnés dans le coin inférieur droit, ils semblent avoir plus des attentes plus "sociales" de ces réunions, alors que les ingénieurs (fonction Engineering ») ont plutôt tendance à être positionnés dans le coin supérieur gauche, avec des attentes plus "techniques". Les autres groupes professionnels ont tendance à se répartir sur une grande surface, il est donc difficile de définir un comportement clair.
Grâce à cette analyse en composantes principales, nous avons maintenant une vision bien meilleure de ce que les différents groupes de participants attendent de nous. La façon dont les variables sont regroupées, selon les corrélations, a un sens d'un point de vue logique.
Ce type d'analyses statistiques multivariées peut être utilisé dans de nombreux contextes différents. Bien que cette approche nécessite des calculs intensifs, les graphiques de Minitab rendent plus aisée la compréhension de la structure de vos données.