Représentativité des données et intervalles de confiance lors de sondages

Représentativité des données et intervalles de confiance lors de sondages

Les élections présidentielles américaines de 2020 nous l’ont rappelé encore une fois, un sondage, et notamment un sondage politique, n’est jamais une science exacte. Car si de nombreux instituts ont projeté une issue favorable aux démocrates, la réalité a été toute autre, avec des résultats bien plus serrés.

Pourquoi ce schéma, révélé notamment en France en 2002, et qui s’était déjà produit en 2016 toujours aux États-Unis, semble perdurer et semble toujours aussi mal anticipé dans les sondages ? Penchons-nous sur les 2 principaux facteurs qui vont définir la qualité d’un sondage : la représentativité des données, et les intervalles de confiance.

Représentativité des données

Lors de la collecte des réponses d’une enquête d’opinion ou d’un sondage se pose généralement un problème majeur, celui de la représentativité des données récoltées. Pour contourner cela, il existe plusieurs solutions : le redressement des données a posteriori, ou alors des méthodes d’échantillonnage qui se font lors de la collecte.

Redressement, une méthode a posteriori

Le redressement des données a pour avantage de ne pas trop se soucier des catégories des répondants lors de la collecte (car pas utilisées ou pas disponibles), mais plutôt d’ajuster les résultats selon certaines variables lors de l’analyse des résultats. On donne alors des poids différents à chaque individu en fonction de ses caractéristiques personnelles selon différentes méthodes (par calage, par régression, par ratio, …).

Ce redressement n’est nécessaire que si les tests de représentativité des données (comparaison d’une statistique de test avec une statistique du Khi-2) nous indiquent que les données ne sont pas représentatives.

L’un des problèmes de cette méthode réside dans la collecte des réponses et le poids qui sera accordé à certains individus. Exemple suivant :

AgePourcentage populationNombre interrogéPourcentage interrogéPoids de redressement
20-30 ans40%10010%4,0
30-40 ans20%40040%0,50
40-50 ans15%30030%0,50
50-60 ans25%20020%1,25

On voit alors que le poids des 100 individus de 20-30 ans ayant répondu est de 4. Cela va engendrer le fait que ces 100 individus vont influer de manière très significative sur les résultats finaux, alors qu’ils ne représentent que 10% des personnes interrogées, ce qui va peut-être entraîner des écarts entre le résultat obtenu et le résultat réel assez important.

L’autre problème de la méthode de redressement réside lui dans les variables utilisées pour redresser, et plus précisément dans l’absence de certaines variables omises qui ont un impact sur les résultats. Dans le tableau précédent, le redressement par l’âge va par exemple entraîner des poids incohérents en termes d’autres variables omises (CSP, genre, ancienneté, région ou autre), ce qui va fausser également les résultats.

Échantillonnage, à anticiper au préalable

L’autre méthode permettant d’avoir des résultats les plus représentatifs possible est la méthode d’échantillonnage. Cette méthode consiste à interroger un échantillon-maître représentatif de la population que l’on souhaite interroger. Ici, la difficulté consiste à créer l’échantillon-maître en fonction des variables dont on dispose. En population finie, il existe plusieurs méthodes d’échantillonnage (aléatoire, tirage avec probabilités d’inclusion, quotas, strates, grappes, à plusieurs degrés, etc.).

Ici également, le principal problème réside plus dans l’omission de certaines variables que dans l’utilisation des variables d’échantillonnage. Avoir un échantillon complétement représentatif de la population à interroger est totalement utopiste tant le nombre de variables omises peut-être important lors de la création d’un échantillon. Le but est alors de minimiser la variance des résultats en utilisant une méthode adaptée à la population et au type d’enquête mené : tirage, quotas, strates avec différents types d’allocation (allocation proportionnelle, allocation de Neyman, allocation de compromis).

Ces deux méthodes ont pour avantage qu’elles sont sans biais, ce qui signifie qu’elles n’impactent pas l’estimateur de la moyenne des résultats. Cependant, que ce soit avec redressement ou échantillonnage, la variance des résultats peut être très grande en fonction de la méthode utilisée et des variables disponibles, ce qui va entraîner des intervalles de confiance importants. Loin d’être nécessaires dans toutes les enquêtes, (notamment si les tests de représentativité du Khi-2 indiquent que l’échantillon est représentatif) ces méthodes visant à améliorer la représentativité doivent donc être utilisées avec précaution et précision.

Intervalles de confiance

Dans le domaine des études de satisfaction et des sondages, bien souvent les résultats donnés sont des résultats estimés et non l’exacte représentation de la réalité. En effet, de l’essence même des sondages par exemple, seule une partie de la population cible est interrogée (pour des raisons de coût la plupart du temps), ce qui laisse une majeure partie de la population « oubliée ». Au-delà des problèmes de représentativité (échantillonnage ou redressement) qui peuvent exister, la perte d’information engendrée par l’oubli d’une grande majorité de la population dans les résultats peut faire découler des différences parfois notables entre les résultats du sondage et les véritables résultats.

Des différences entre ce qui est rapporté par les sondés et leurs véritables réponses (leur véritable vote par exemple) explique également une partie de cette volatilité des résultats. En effet, les intentions de vote exprimées par les personnes interrogées peuvent différer de leur vote final pour de multiples raisons. Une changement de dernière minute, une certaine gêne à s’exprimer pour un candidat controversé, la psychologie des répondants est mise à rude épreuve, et leur voix ne s’inscrit pas dans le marbre. Et si le cas des USA en 2020 est encore plus complexe dû au contexte, à la crise sanitaire, aux méthodes de vote et de comptabilisation des voix, la France a elle aussi connu son lot de surprise au moment du dépouillement final.

2002, un exemple dans les mémoires

L’exemple le plus marquant de ces dernières années reste bien évidemment les élections présidentielles de 2002, où J-M Le Pen, malgré des sondages plus défavorables que Lionel Jospin, a vu ces résultats inversés le jour de l’élection, provoquant l’étonnement et la stupeur d’une partie des Français. Cependant, à la lecture des sondages précédant l’élection, un œil avisé aurait pu se douter de ces résultats. Car si un sondage donne une estimation proche de la réalité, il donne aussi un intervalle de confiance dans lequel il est possible de voir apparaitre le véritable résultat. Et c’est cet intervalle de confiance que bon nombre de médias ont négligé à l’approche des élections de 2002, comme nous le montre le graphique ci-dessous, fait à travers les chiffres du CSA du 17-18 avril 2002. (source : http://www.france-politique.fr/sondages-electoraux-presidentielle-2002.htm)

En considérant une erreur de 3% maximum calculée selon des critères que nous allons détailler par la suite, nous voyons bien que les résultats possibles pour Le Pen et Jospin se chevauchent, et que donc la possibilité que le Front National dépasse le Parti Socialiste existe réellement, chose que les journalistes de l’époque ont ignoré, ou en tout cas minimisé. Car en effet, si la plupart des instituts de sondages se basent sur 1000 personnes pour représenter la totalité de la population française, ce raccourci, bien que nécessaire pour des raisons logistiques et financières évidentes, amène d’un point de vue statistique des approximations dans les résultats.

Comment réduire ces intervalles de confiance ?

Lors d’une enquête de satisfaction ou d’un sondage, le résultat estimé que l’on donne est toujours, aux redressements près, le chiffre brut donné par l’enquête elle-même. Si, pour une entreprise comprenant 500 collaborateurs, les 200 collaborateurs interrogés donnent un taux de satisfaction de 85%, nous estimerons donc à 85% le taux de satisfaction pour les 500 collaborateurs, car ce chiffre représentera le meilleur estimateur sans biais. Pour autant, ce résultat, bien qu’étant la meilleure estimation possible avec ce degré d’information, est sujet à des intervalles de confiance, qui donneront une fourchette pour laquelle il est acceptable d’estimer le véritable résultat sur les 500 collaborateurs.

Trois facteurs peuvent influencer la représentativité des résultats :

  • Le nombre de répondants (plus il sera grand et plus les résultats seront fiables)
  • Le taux de participation (un fort taux de participation entraînera également des résultats plus fiables)
  • Le pourcentage de satisfaction obtenu (plus le pourcentage sera dans les extrêmes, plus les résultats se rapprocheront de la vraie valeur de la satisfaction).

Dans le cas précédant, le chiffre de 85% de taux de satisfaction donnera une marge d’erreur de 3,8%, et donc un intervalle de confiance situé entre 81,2% et 88,8%, intervalle dans lequel se trouvera le véritable résultat pour les 500 employés (à 95% de probabilité selon la loi du Khi-2).

Le fait d’interroger une partie seulement de la population cible permet donc bien évidemment le plus souvent de faire des économies de temps et d’argent, mais les résultats qui découleront de ces enquêtes seront donnés avec des marges d’erreurs plus ou moins importantes selon les cas, qui pourront donner lieu à de mauvaises interprétations.

D’autres facteurs peuvent également influer sur la véracité des sondages, entre faux-vote, changements de dernière minute, mauvais échantillonnage, … Si le résultat des sondages est souvent proche de la réalité, il suffit parfois de quelques voix d’écart dans un sens ou dans l’autre pour faire basculer une élection, et seule la vérité des scrutins et le comptage exact fera foi.