Les sondages, c’est du sérieux ! Non mais...
Je ne me suis pas donné la peine de commenter les sondages qui semblaient indiquer que Marine Le Pen devancerait tous ses concurrents au premier tour de l’élection présidentielle. D’abord, parce que les sondages se trompent régulièrement, et qu’en 2002, PERSONNE n’avait prévu que son père passerait devant Lionel Jospin et nous vaudrait ainsi les présidences de Chirac et de Sarkozy, pour notre plus grand bonheur ; ensuite, parce qu’on néglige régulièrement de parler des marges d’erreur.
Il y a plusieurs façons de sonder le public.
Soit on le fait au hasard, en interpellant des passants dans la rue (je connais : mon quartier, les Halles de Paris, est propre à la chose), ou en téléphonant, toujours au hasard, à des abonnés au téléphone. Variante, depuis qu’Internet est popularisé, on envoie au plus grand nombre de personnes possible l’adresse d’un site où se trouve un questionnaire, et on les supplie de répondre en leur jurant que cela ne leur prendra que trois minutes. C’est rapide, pas trop cher, mais l’inconvénient, c’est le hasard : les candidats à la réponse (sincère ? Cela m’étonnerait ; personnellement, à tout sondage, je me fais une joie de proférer des inepties, puisque je m’entraîne ici quotidiennement), ces candidats, disais-je avant d’ouvrir une de ces paires de parenthèses qui font votre joie tout en éloignant les lecteurs qui ne savent pas lire, ne peuvent être sélectionnés, et la marge d’erreur est grande – voir la fin du présent article.
Soit on emploie la méthode des quotas : on sonde des personnes dont on connaît l’appartenance socio-économique ou même l’orientation politique, et le sondage est alors plus « ciblé », mais cela nécessite d’avoir des fichiers personnalisés, et cela coûte les yeux de la tête, car ces fichiers se vendent une fortune.
Revenons donc à la méthode du hasard. Dans ce cas, les lois sur les probabilités s’appliquent, et l’on sait que la marge d’erreur affectant le pourcentage des réponses varie avec le nombre de personnes sondées : plus les sondés sont nombreux, moins l’erreur est grande, on le comprend. J’ai déjà expliqué la formule permettant de calculer cette marge : on prend la racine carrée du nombre de personnes questionnées, et on inverse le résultat, qui donne ainsi la marge d’erreur en plus ou en moins affectant le résultat de chaque pourcentage. Par exemple, si on a interrogé 1000 personnes, ce qui est le cas le plus courant, la racine carrée de 1000, c’est 31,62 ; l’inverse de 31,62 vaut 0,0316, donc la marge d’erreur est de 3,16 % en plus ou en moins. De sorte qu’écrire « Marine Le Pen obtient 24 % des voix des personnes sondées », cela signifie en réalité qu’elle obtient entre 20,84 % et 27,16 % des intentions de vote. Cela signifie surtout qu’un écart de 2 % entre deux candidats n’a plus aucune signification ! (Pour avoir une erreur inférieure à 2 %, il faudrait au moins 2500 sondés)
Mais allez clamer ça sur les toits ! Qui achèterait les journaux publiant de telles approximations ? Les commentateurs politiques savent tout cela, mais le dire impliquerait qu’ils ne peuvent rien commenter du tout. Ils ne vont pas s’ôter eux-mêmes le pain de la bouche, non ?