Vous ne manquez jamais le bulletin météo, vous le consultez même sur votre téléphone portable et planifiez vos week-ends en fonction mais vous vous demandez s'il est réellement fiable ?
Quelle confiance pouvons-nous accorder aux prévisions sur 24 heures, sur 5 jours et sur 10 jours ?
Dans cet article, nous étudierons des températures et nous utiliserons divers outils statistiques pour déterminer la fiabilité des prévisions.
Collecte des données
Nous avons consulté l'un des principaux sites Internet consacrés à la météo et avons collecté les données météorologiques pour la ville de State College, dans l'état américain de Pennsylvanie où se situe le siège mondial de Minitab. Trente jours durant, nous avons recueilli d'une part les prévisions de températures maximales prédites pour les 24 heures à venir, à 5 jours et à 10 jours; et d'autre part, la température quotidienne maximale réellement mesurée. Nous avons converti les températures fournies en degrés Fahrenheit °F, en degrés Celsius ºC et enregistré ces relevés dans le logiciel Minitab Statistical Software.
A l'aide de la fonction Calc > Calculatrice, nous avons calculé la différence entre les 3 maximales prévues et la température réelle pour chaque jour.
Nous avons enregistré les prévisions sur 24 heures, sur 5 jours et sur 10 jours dans Minitab, puis nous avons calculé la différence entre les maximales prévues et réelles.
Prévisions : réalistes, souvent fausses ou au petit bonheur la chance ?
Quelle que soit l'analyse, la représentation graphique de vos données est toujours un bon début. Puisque ces données sont collectées au fil du temps, nous pouvons utiliser le diagramme de série chronologique pour créer un graphique des températures réelles et prévues pour chaque jour.
Le graphique ci-dessous indique que les prévisions sont plus fiables pour certains jours que pour d'autres. Il montre également les augmentations et les baisses de température observées à State College à la fin du printemps.
Nous pouvons utiliser un diagramme de série chronologique pour comparer les prévisions aux températures réelles pour chaque jour de l'étude.
Afin de comparer facilement le centre et la dispersion pour la différence entre la température réelle et les 3 prévisions, nous pouvons utiliser le diagramme des valeurs individuelles.
Le diagramme des valeurs individuelles indique que la prévision sur 10 jours affiche plus de variations que les deux autres prévisions.
Avec un écart type de 3,4 degrés, nous constatons à la lecture du graphique ci-dessous, que la prévision sur 10 jours a surestimé les maximales de 5 degrés au plus et les a sous-estimées de près de 10 degrés maximum. Les prévisions sur 5 jours et sur 24 heures varient dans une moindre mesure, avec un écart type respectif de 2,4 et 1,2 degrés.
Cette différence de variabilité entre les 3 prévisions est-elle significative d'un point de vue statistique ? Comment interpréter l'égalité éventuelle des variances ? Pour en savoir plus, faisons maintenant le test avec des variances égales.
Plusieurs fonctionnalités sont à notre disposition dans le logiciel de statistiques Minitab pour répondre à nos questions. Dans le cas présent, nous utiliserons l'Assistant > Tests d'hypothèse afin d'obtenir un rapport complet sur les résultats. Avec une valeur p de 0,000 (cette valeur n'est pas affichée mais provient de la fenêtre de Session du logiciel), nous pouvons conclure qu'il existe une différence statistiquement significative entre les variances. Plus précisément, la variance de la différence pour la prévision sur 24 heures est sensiblement inférieure aux variances des différences pour les prévisions sur 5 et 10 jours.
Conclusion : la prévision sur 24 heures est bien plus précise que les deux autres prévisions.
Utilisons maintenant l'Assistant > Tests d'hypothèse pour effectuer une analyse de la variance de Welch sur les variances inégales et évaluer la précision des prévisions. Avec une valeur alpha de 0,05, la valeur de p égale à 0,011 est significative. Par conséquent, les trois moyennes ne sont pas égales (voir la figure ci-dessous). Plus précisément, la surestimation moyenne de 0,4 degrés observée pour la prévision sur 24 heures est sensiblement supérieure à la sous-estimation de -1,7 degrés observée pour la prévision sur 10 jours.
Conclusion : les différences moyennes sur 24 heures et sur 5 jours semblent être aussi fiables l'une que l'autre, avec des intervalles de confiance comprenant la valeur 0.
La disparité moyenne de la prévision sur 24 heures est sensiblement inférieure à celle de la prévision sur 10 jours
Chemisette ou pull ?
Maintenant que nous avons effectué ces comparaisons et déterminé que la prévision sur 10 jours est bien moins précise, voyons si nous pouvons nous appuyer sur les prévisions sur 24 heures et sur 5 jours pour décider comment s'habiller.
Prévision sur 5 jours
Bien que la prévision sur 5 jours varie plus que celle sur 24 heures, nous nous entêtons et souhaitons anticiper la météo des jours suivants. Afin d'évaluer visuellement et statistiquement la précision avec laquelle prédire la température réelle à l'aide de la prévision sur 5 jours, nous pouvons effectuer une analyse de régression à l'aide de la fonction Stat > Régression > Droite d'ajustement.
Nous pouvons utiliser une droite d'ajustement afin d'étudier la relation entre la température réelle et la prévision sur 5 jours.
La valeur p de 0,000 (cette valeur n'est pas affichée mais provient de la fenêtre de Session du logiciel), démontre l'existence d'une relation linéaire significative entre la température réelle et la prévision sur 5 jours.
La valeur R carré nous indique que ce modèle représente 77 % de la variabilité observée pour la maximale réelle... C'est mieux qu'une boule de cristal.
Les graphiques des valeurs résiduelles ne sont pas inclusd ans cet article mais ils peuvent être consutlés dans le logiciel et permettent également de vérifier les hypothèses et de conclure que l'analyse est valable.
Prévision sur 24 heures
Effectuons maintenant une analyse similaire en ce qui concerne la prévision sur 24 heures. Le graphique ci-dessous et la valeur supérieure R carré indiquent que la prévision sur 24 heures est un meilleur prédicteur pour la maximale réelle du fait de son extrême fiabilité.
Dans la mesure où tous les points se trouvent proches de la ligne, le modèle de régression semble être le plus adapté.
Grâce aux intervalles de prévision, nous pouvons établir une plage de valeurs vraisemblables pour une prévision établie sur 24 heures. Par exemple, nous pouvons être sûrs à 95 % qu'une prévision sur 24 heures de 25°C aura des chances de correspondre à une température réelle comprise entre 22,3 et 26,9 °C.
Bien que la régression indique l'existence d'une relation linéaire, nous ne savons pas s'il s'agit d'une relation de 1 à 1. Autrement dit, la valeur p pourrait être significative car une prévision de 25°C peut effectivement tout aussi bien indiquer une maximale réelle de 25°C qu'une maximale de 12,5 °C (par exemple avec un coefficient de pente de 0,5).
Pour établir l'existence d'une relation de 1 à 1, nous pouvons calculer les intervalles de confiance en utilisant les résultats de la fonction > Stat > Régression > Régression générale.
Nous pouvons utiliser un intervalle de confiance pour évaluer les coefficients de l'ordonnée à l'origine et de la pente.
Dans la mesure où l'intervalle de confiance pour la constante (-0,76 ; 3,38) indiqué dans les résultats ci-dessus comprend la valeur 0 et l'intervalle de confiance du coefficient de pente (0,85 ; 1,01) comprend la valeur 1, nous pouvons conclure que la relation entre la prévision sur 24 heures et la température réelle est en fait une relation de 1 à 1.
Conclusion
Compte tenu de tous les facteurs susceptibles d'influencer le climat, la météorologie est sans conteste un processus complexe pouvant subir de nombreuses variations.
Cette étude nous a toutefois permis de discerner lesquelles des prévisions sur 24h, 5 jours et 10 jours sont les plus acceptables. Mieux vaut utiliser la prévision sur 24 heures pour planifier des événements en fonction de la météo et minimiser le risque de variation. Celle sur 5 jours est relativement fiable même s'il faut accepter une part d'incertitude et de risque. Enfin, la prévision sur 10 jours ne fait que démontrer ce que les météorologues savent déjà, à savoir que les conditions météo restent imprévisibles au delà de quelques jours. Elles sont tout de même communiquées car, bien que ces informations ne soient pas fiables, il est dans la nature humaine de vouloir connaître ce que le futur nous réserve.
Michelle Paret
Responsable produits, Minitab, LLC.
Eston Martz
Spécialiste senior service marketing, Minitab, LLC.
Minitab News
Recevez gratuitement notre lettre d'information électronique mensuelle pour connaître l'actualité de Minitab, consulter les didacticiels, lire des études de cas, obtenir des conseils statistiques, et recevoir d'autres informations utiles.
Pour s'abonner