Cet article communique la réponse apportée à l'une des questions que beaucoup se posent : «Le nombre de personnes interrogées est-il suffisant ?"
Les élections et les primaires approchent à grands pas, vous vous demandez peut-être si les estimations des sondages sont vraiment fiables. En d'autres mots, pouvons-nous vraiment prévoir avec une certaine confiance quel candidat va gagner, avant même le jour des élections ?
Supposons que, au second tour des élections, seuls deux candidats sont restés en lice – le candidat A et le candidat B. Si nous divisons la population des électeurs en deux groupes (ceux qui votent pour le candidat A et ceux qui votent pour candidat B), nous pourrons estimer la proportion de personnes ayant voté pour le candidat A (p) et ceux qui ont voté pour le candidat B (1 - p).
En l'absence de données historiques sur la popularité de chaque candidat, vous pourriez envisager le pire des cas, qui correspondrait dans ce contexte, à une course électorale très serrée où le candidat A obtiendrait juste un peu plus de 50% des voix (disons 51%). Nous considérons qu’il s’agit d’un scénario pessimiste, car la taille de l'échantillon nécessaire pour démontrer qu’un candidat a reçu la majorité des votes (au moins 50%) sera beaucoup plus grande si la différence entre les vraies proportions de votes pour les candidats A et B, est très faible. La taille nécessaire de l’échantillon pour s’assurer qu’un candidat aura vraiment la majorité, lorsque la proportion estimée est très proche de 50%, sera beaucoup plus grande que lorsque la proportion est très supérieure à 50%.
Vous pouvez calculer, avec Minitab, la taille de l'échantillon nécessaire pour générer un intervalle qui indique avec une certaine confiance que la proportion de votes reçus par le candidat A sera au moins de 0,5. Si la proportion réelle des voix allant au candidat A était vraiment de 0,51, alors la taille de l'échantillon dépendrait de la marge d'erreur de cet intervalle. La marge d'erreur est la différence entre la proportion estimée et la borne inférieure de l'intervalle de confiance. Dans ce scénario particulier, la marge d'erreur devrait être de 0,01 (0,51 – 0,50). Vous pouvez calculer cet intervalle avant même d'avoir recueilli des données !
Le sous-menu Stat > Puissance et taille de l'échantillon > Effectif de l’échantillon pour l’estimation du logiciel Minitab vous permet de calculer la taille de l'échantillon nécessaire pour générer un intervalle de confiance à 95% avec une marge d'erreur de 1%. Si la proportion prévue est de 0,51 avec une marge d'erreur de 0,01 (dans la boîte de dialogue, cliquez sur Options et sélectionnez uniquement la borne inférieure de l’intervalle confiance), la taille de l'échantillon nécessaire sera d'environ 7000.
Nous pouvons ensuite recueillir un échantillon aléatoire (représentatif) d'électeurs et prendre en considération leurs opinions. Si la proportion p était vraiment de 0,51 vous pouvez vous attendre à ce que la borne inférieure de l'intervalle de confiance ait une marge d'erreur de 0,01 exactement.
Supposons que sur 6864 électeurs, 3528 aient voté pour le Candidat A. La marge d'erreur de l’intervalle de confiance associé sera de 1% comme prévu (que l’on peut obtenir en soustrayant au 0,513986 de la proportion estimée, la borne inférieure de l’intervalle de confiance 0,503987).
Les hypothèses sont importantes pour un test statistique. Nous avons supposé que les électeurs ne peuvent choisir que entre deux alternatives, nous n’avons pas tenu compte des bulletins nuls et nous supposons que la population est suffisamment importante pour être considérée comme infinie (ce qui est une hypothèse raisonnable si la population en âge de voter se compte en millions).