Pour comprendre des situations qui semblent défier l'analyse des données, vous pouvez utiliser des techniques telles que la régression logistique binaire. Cet article décrit comment les données discrètes issues de la dégustation de vin et le modèle de régression logistique binaire ont permis de déterminer des facteurs importants pour un panel de dégustateurs expérimentés. L'analyse montre que même les facteurs qui semblent difficiles à mesurer, comme les préférences de goût, peuvent être évalués grâce aux statistiques si la bonne analyse est utilisée.
Dans cet article, nous allons laisser de côté la subjectivité de la dégustation de vin pour analyser les goûts à l'aide des statistiques, une fois n'est pas coutume ! Bien que le ressenti gustatif soit très personnel et varie d'une personne à l'autre (De Gustibus non est discutandum : "Tous les goûts sont dans la nature"), certains vins sont meilleurs que d'autres, et la plupart d'entre nous sommes probablement capables de distinguer un bon vin d'un mauvais.
Nous nous intéressons à l'utilisation des statistiques pour déterminer si un vin contenant, par exemple, plus de sulfites ou de chlorures aurait meilleur goût. Grâce à cette analyse, il sera ensuite possible de produire un meilleur vin. Nous tiendrons compte de plusieurs variables telles que l'acidité, la teneur en dioxyde de soufre et le pourcentage d'alcool.
Nous disposons de données issues d'un panel d'oenologues qui ont goûté différents types de vins rouges et blancs, et ont fourni une évaluation binaire de la qualité de chaque vin (bonne : 1 ou mauvaise : 0). Voici les variables recueillies dans notre ensemble de données :
Variable | Détails | Unités |
Type | rouge ou blanc | N/A |
pH | acidité (valeur inférieure à 7) ou alcalinité (valeur supérieure à 7) | N/A |
Densité | densité |
grammes/centimètre cube |
Sulfites | sulfite de potassium | grammes/litre |
Alcool | pourcentage d'alcool | % du volume |
Sucre résiduel | sucre résiduel | grammes/litre |
Chlorures | chlorure de sodium | grammes/litre |
SO2 libre | dioxyde de soufre libre | milligrammes/litre |
Teneur totale en SO2 | dioxyde de soufre total | milligrammes/litre |
Acidité fixe | acide tartrique | grammes/litre |
Acidité volatile | acide acétique | grammes/litre |
Acide citrique | acide citrique | grammes/litre |
Notre objectif est d'identifier, parmi ces nombreuses variables, celles ayant une incidence significative sur la qualité du vin.
Les graphiques, aussi simples soient-ils, peuvent apporter des indications pertinentes sur l'importance de certaines variables et ainsi nous aider à comprendre la structure de notre ensemble de données. La carte barre ci-dessous illustre la relation entre les types de vins (blancs ou rouges) et les réponses binaires du panel de dégustateurs concernant leur qualité. Ces derniers ont goûté plus de vins blancs que de vins rouges et, dans la mesure où nous constatons un plus grand nombre de notations égales à 1 pour les vins blancs, nous pouvons en déduire que le panel de dégustateurs semble préférer les vins blancs.
Il s'agit là d'une information intéressante dont nous pourrons tenir compte ultérieurement. Mais revenons à notre objectif principal, qui est d'évaluer les effets du pH, de la densité, des sulfites, de l'alcool, du sucre résiduel et d'autres facteurs sur la qualité du vin. Certaines de ces variables ont-elles une incidence significative sur la qualité ? Si oui, lesquelles ?
Ce qui nous intéresse ici est d'identifier des variables qui présentent une grande différence entre un bon et un mauvais vin. Ces variables peuvent en effet constituer des prédicteurs pertinents d'un bon vin. Les boîtes à moustaches suivantes illustrent la distribution des variables en fonction de la bonne ou de la mauvaise qualité du vin. Nous constatons que nous devons tenir compte de nombreuses variables et que l'utilisation de graphiques pour sélectionner celles ayant un effet notable sur la qualité du vin est loin d'être facile.
L'analyse de régression permet d'observer comment plusieurs facteurs peuvent influencer un résultat. Elle serait donc la méthode idéale pour examiner les variables de la dégustation de vin. Il convient néanmoins de rappeler que le panel de dégustateurs a simplement évalué la qualité du vin comme étant bonne ou mauvaise. Cela signifie que nos données de réponse sont binaires et non continues, d'où la nécessité de poursuivre notre enquête avec la plus grande prudence : de manière générale, l'utilisation de la régression standard ou de la méthode ANOVA pour analyser une réponse binaire n'est en effet pas une bonne idée.
Comme les données binaires suivent une loi de distribution binomiale plutôt qu'une distribution normale en forme de cloche, la régression standard peut générer des données de probabilité négatives ou supérieures à 100 %. Nous risquons d'obtenir un modèle inutilement complexe, dans lequel les fausses interactions semblent importantes. De plus, la variance des données binaires n'est pas forcément constante. Si la proportion moyenne est proche de 0 ou de 1, la variabilité tend à se réduire, car les données binaires sont tronquées en raison de la limite supérieure (1) ou inférieure (0). Par conséquent, les effets qui semblent plus importants en raison de paramètres propres à un facteur peuvent résulter non pas d'interactions avec d'autres facteurs, mais d'une variance non constante.
Heureusement, il existe une solution simple : puisque nous disposons de données de réponse binaires, nous n'avons qu'à utiliser la régression logistique binaire.
Avant de nous lancer dans une analyse de régression, nous pouvons utiliser une analyse en composantes principales (analyse multivariée) afin de repérer la colinéarité ou la corrélation entre les variables. L'identification des variables présentant une colinéarité élevée (ce qui, dans certains cas, peut rendre l'une des variables presque redondante) peut nous aider à sélectionner le meilleur modèle de régression logistique binaire possible.
Le diagramme des contributions issu de l'analyse en composantes principales montre que :
Du fait de ces fortes colinéarités, plusieurs modèles (qui incluent différentes variables) peuvent être également acceptables en matière de prédiction. Ces informations doivent être prises en compte une fois le modèle final sélectionné.
La procédure habituelle pour une analyse de régression consiste à commencer par le "modèle complet", celui-ci comportant tous les facteurs potentiellement importants pour lesquels vous avez collecté des données. Dans ce cas, nous commençons l'analyse en incluant toutes les variables, et toutes les interactions entre celles-ci et le type de vin. Nous éliminons ensuite les variables ayant la valeur de p la plus élevée. Dans la mesure où certaines variables présentent une colinéarité élevée et peuvent s'influencer mutuellement, nous éliminons une seule variable à la fois, puis exécutons une régression à l'aide du modèle réduit.
Enfin, ce procédé itératif nous amène au modèle ci-dessous. Plutôt complexe, il contient de nombreuses interactions Type de vin*variable significatives :
Les facteurs et les interactions restant dans ce modèle sont statistiquement significatifs (avec des valeurs de p < 0,05). Vous pouvez observer que les valeurs de p des variables Alcool et SO2 libre sont élevées, ce qui peut plaider en faveur de leur élimination. Toutefois, puisque ces termes font partie d'interactions significatives, ils doivent être conservés dans le modèle.
Avec ces 15 termes, ce modèle est trop difficile à comprendre et à expliquer, mais il nous donne des indications sur les données à explorer afin de mieux identifier les facteurs qui contribuent le plus à la qualité gustative du vin.
Nous disposons de 5 interactions significatives impliquant le "type" dans notre modèle. Cela indique que les effets de certaines variables diffèrent considérablement selon que les vins sont rouges ou blancs. Rappelez-vous également que le panel de dégustateurs semble préférer les vins blancs aux vins rouges. Nous devrions peut-être envisager des modèles séparés pour les types de vins (blancs et rouges). Nous n'aurions ainsi plus besoin d'inclure les interactions entre les types de vins et les autres variables, ce qui simplifierait beaucoup les modèles.
Nous allons d'abord analyser les données relatives aux vins blancs. Comme précédemment, nous commençons par le modèle complet et éliminons les facteurs un à un, en fonction de leur valeur de p. Ceci nous amène au modèle suivant :
Ce modèle n'inclut que 6 termes, et les valeurs de p de toutes les variables restantes dans le modèle sont faibles (inférieures à 0,05 ou très proches de cette valeur). Ce modèle est facile à interpréter car il n'y a pas d'interactions. La densité, par exemple, semble avoir un effet négatif sur le goût car son coefficient est négatif, alors que l'effet du pH est positif.
Mais comment savoir si ce modèle est acceptable ? Les tests d'adéquation de l'ajustement permettent d'évaluer l'adéquation du modèle. Observez les résultats générés par Minitab ci-dessous :
Les valeurs de p des trois tests d'adéquation de l'ajustement sont largement supérieures à 0,05, nous ne pouvons donc pas rejeter l'hypothèse que ce modèle est adéquat. Voilà qui est encourageant. D'autre part, nous pouvons examiner le nombre de paires concordantes et discordantes dans notre modèle. La proportion de paires concordantes/discordantes est une mesure du niveau de concordance entre les prédictions du modèle et les observations (en d'autres termes, il s'agit de la capacité du modèle à refléter les données observées).
La proportion de paires concordantes est élevée. C'est également encourageant.
Afin de valider le modèle, nous pouvons examiner la qualité de la correspondance entre les données observées et les prévisions de probabilité du modèle. Le graphique du delta normalisé vérifie les grandes différences entre les prévisions de probabilité en fonction de notre modèle et des probabilités observées. Le graphique ci-dessous montre qu'il existe des valeurs aberrantes mais, de manière générale, il semble acceptable.
Nous avons suivi le même procédé que celui utilisé pour l'analyse des données relatives aux vins blancs, à savoir en éliminant de manière itérative les variables une à une du modèle complet, afin de créer un modèle pour les vins rouges :
Avec seulement deux facteurs, le modèle est assez simple et réduit. Nous devons tout de même examiner les tests d'adéquation de l'ajustement.
Les tests de Pearson et d'écart sont bons, mais la valeur de p du test de Hosmer-Lemeshow est faible. Cela suggère que l'exactitude de ce modèle n'est pas garantie.
Là encore, nous allons créer un graphique du delta normalisé qui nous permettra de valider le modèle. Ce graphique indique qu'il existe une valeur aberrante à la ligne 34, ce qui peut entraîner des problèmes d'adéquation de l'ajustement. Pour savoir si c'est le cas, nous pouvons éliminer la ligne 34 et exécuter à nouveau l'analyse complète.
La nouvelle analyse, sans la ligne 34, donne lieu à un modèle similaire. Ce modèle révisé comporte les mêmes variables, mais présente des coefficients sensiblement différents :
Cette fois-ci, les valeurs de p sont élevées pour tous les tests d'adéquation de l'ajustement, il n'y a donc pas de problème d'adéquation du modèle :
Observons à présent ce que Minitab nous révèle sur les paires concordantes et discordantes :
Les résultats générés par Minitab ci-dessus montrent que la proportion de paires concordantes est élevée. De plus, le graphique bêta du delta des valeurs résiduelles ne révèle aucune valeur aberrante majeure :
Maintenant que nous disposons de modèles pour les vins rouges et blancs, nous pouvons analyser les données afin de déterminer les caractéristiques du vin qui ont influencé les notations du panel de dégustateurs. Par exemple, ce nuage de points résume la relation entre les variables pour les vins rouges :
Le nuage de points indique que les vins rouges contenant un pourcentage d'alcool et une acidité fixe plus élevés ont été les mieux notés.
L'ensemble de données utilisé pour construire nos modèles n'est qu'une partie d'un ensemble de données plus important que nous avons divisé en deux : un ensemble de données d'apprentissage pour construire notre modèle et un ensemble de données de test pour le valider. Une fois les modèles finaux obtenus, nous avons utilisé les données de test pour les tester et les valider. En comparant les prédictions des modèles pour les nouvelles données aux résultats réels du panel issus du second ensemble de valeurs de test, nous avons observé 152 résultats concordants et 48 résultats discordants. L'analyse des goûts personnels étant très difficile, ce résultat est très satisfaisant !
Ainsi, pour comprendre des situations qui défient l'analyse des données, du moins en apparence, pensez à examiner davantage vos informations à l'aide de techniques telles que la régression logistique binaire. Vous pouvez utiliser une approche semblable à celle que nous avons employée avec ces données issues de la dégustation de vin pour analyser des données marketing ou de ventes, pour mieux comprendre les préférences des clients et déterminer les facteurs importants, et ce, même si, comme les préférences de goûts, ces éléments semblent difficiles à mesurer.
Bruno Scibilia