Comprendre les comportements de clients ou de patients peut s'avérer compliqué. Les analystes ont souvent recours aux sondages, analysés à l’aide de la régression dans le logiciel de statistiques Minitab. Quand la variable de réponse est une variable de catégorie plutôt qu'une variable quantitative, l'interprétation des résultats d'une régression logistique n'est pas très intuitive.
Vous cherchez une autre option pour l'analyse des données d'enquête dans Minitab ? Découvrez les arbres de décision. Les arbres de classification et de régression CART®, technique d'auto-apprentissage par la machine, également appelée machine learning, sont désormais disponibles dans le logiciel de statistiques Minitab.
Les arbres de classification et de régression CART sont un algorithme. Cet algorithme crée un ensemble de règles de type oui/non pour partitionner la variable de réponse, en fonction des paramètres d'entrée ou de prévision. Le modèle obtenu se présente sous la forme d'un arbre de décision, il illustre la répartition de la variable de réponse fonction des paramètres d'entrée. L'algorithme CART de Minitab détermine automatiquement le nombre optimal de noeuds terminaux, aussi appelés divisions ou groupements finaux, avec pour objectif de maximiser la capacité de prévision du modèle.
Bonne nouvelle : une fois l'analyse terminée, les résultats de CART sont représentés sous la forme d'une illustration intuitive. Nul besoin d'être un data scientist pour obtenir des renseignements précieux à partir de vos données.
Minitab affiche un arbre CART détaillé par défaut. Cliquez avec le bouton droit de la souris sur l'arbre et choisissez Vue de division de nœuds pour voir la vue condensée ci-dessus.
Téléchargez votre version d'essai gratuite de Minitab® Statistical Software
pour découvrir les arbres de décision CART et les tester par vous-même
Maintenant que nous savons ce que sont les arbres de décisions CART, étudions leur fonctionnement à l’aide d’un exemple.
La responsable d’une clinique souhaitait connaître et comprendre les facteurs qui influencent la probabilité que les patients fassent de nouveau appel aux services de la clinique.
La clinique a mené une enquête de satisfaction auprès de ses patients, leur demandant la probabilité qu'ils reviennent : très probable, assez probable ou improbable. Le personnel a également consigné l'âge des patients, la distance entre leur domicile et la clinique ainsi que leur statut professionnel.
Un sous-ensemble de données est présenté ci-dessus, ainsi qu'une carte barre à droite, représentant les réponses données par les patients de la clinique.
Les arbres de décision peuvent être utilisés pour prévoir la probabilité d'un résultat de catégorie ; dans notre cas, la probabilité qu'un patient revienne à la clinique. Le moteur CART de Minitab pour la classification propose une interface intuitive qui prend en charge les résultats binaires (deux groupes) ou multinomiaux (trois groupes ou plus).
Une fois que la responsable a entré les données dans Minitab, elle sélectionne Stat > Analyse prédictive > CART® Classification. Dans la boîte de dialogue qui s’affiche, étant donné qu'il y a trois groupes ou plus, elle sélectionne Réponse multinomiale, suivi de "Probabilité de retour" en tant que réponse, soit la cible qu'elle souhaitait prévoir. Comme vous pouvez le constater dans la copie d’écran ci-dessous, elle remplit les champs en entrant les prédicteurs continus et les prédicteurs de catégorie, c’est-à-dire les entrées qu'elle utilisera pour faire une prévision.
CART gère automatiquement les valeurs manquantes, est insensible aux valeurs aberrantes extrêmes et ne contient pas d'hypothèses sur les distributions, les valeurs de p ou les valeurs résiduelles à vérifier, ce qui rend son utilisation simple, même pour les débutants. En outre, la fonctionnalité CART de Minitab répartit les données en deux groupes : une partie des données servira à construire le modèle (données d'apprentissage) et l'autre servira à évaluer la capacité du modèle à faire de nouvelles prévisions (données de test).
Les résultats de l'analyse CART montrent des valeurs de l'aire sous la courbe (ROC) égales ou supérieures à 0,93 pour chaque paire de variables cible. La courbe ROC a permis à la responsable de visualiser la capacité du modèle à prévoir la probabilité que les patients reviennent à la clinique. Le graphique montre la relation entre la sensibilité (valeurs positives correctement prévues comme positives) et la spécificité (valeurs négatives correctement prévues comme négatives).
Les valeurs de la courbe ROC égales ou supérieures à 0,70 sont généralement considérées utiles pour la plupart des applications. La responsable était donc satisfaite de trouver un modèle capable de prévoir avec autant de précision la probabilité que les patients reviennent à la clinique.
Avant l'étude, elle avait supposé que le prédicteur le plus important pour connaître la probabilité qu'un patient revienne à la clinique serait la distance entre son domicile et la clinique. A sa grande surprise, ce n'était pas le cas. Le graphique d'importance de la variable relative de CART montre clairement l'importance de chaque prédicteur pour déterminer la probabilité qu'un patient revienne à la clinique.
Une évaluation rapide du graphique d'importance des variables ci-dessus a révélé que l'âge d'un patient est le meilleur prédicteur pour déterminer la probabilité qu'il revienne à la clinique, suivi de la distance puis du statut professionnel.
Les informations obtenues sur le comportement des patients ont permis à la responsable régionale de la clinique de créer des profils pour les clients les plus susceptibles de revenir afin que le centre puisse leur proposer de la documentation supplémentaire et les incite à revenir. Par exemple, les patients de moins de 43 ans vivant à moins de 18 kilomètres de la clinique ont de grandes chances de revenir, quel que soit leur statut professionnel. Les patients entre 71 et 82 ans sont assez susceptibles de revenir, peu importe la distance ou le statut professionnel. En revanche, ceux entre 67 et 71 ans sont peu susceptibles de revenir s'ils vivent à plus de 18 kilomètres de la clinique, indépendamment des autres facteurs.
Les algorithmes d'auto-apprentissage par la machine reposant sur des arbres du logiciel de statistiques Minitab peuvent être utilisés dans de nombreux scénarios et vous aider à trouver des solutions aux problèmes de votre entreprise. Si ce n'est pas déjà fait, nous vous invitons à essayer Minitab gratuitement pendant 30 jours dès maintenant.
Les arbres de régression et de classification CART® ont révolutionné le domaine de l'analyse avancée, ouvrant sur une nouvelle ère du Machine Learning. Ils sont aujourd'hui l'un des outils de prévision les plus populaires et les plus utiles. Je découvre ce webinaire >