Comment peut-on prédire une élection ?
Des élèves de l'école Télécom Paris Tech ont mis au point une méthode pour prédire le résultat du premier tour de la présidentielle. Explications.
PROPOS RECUEILLIS PAR JÉRÔME BÉGLÉ
Modifié le - Publié le | Le Point.fr
Depuis le début de l'année, des élèves de l'école Télécom Paris Tech mènent pour le compte du Point un projet ambitieux appelé Predict the President. À 5 jours du scrutin, ils fournissent des analyses de la campagne présidentielle à travers ses données afin de fournir des prédictions sur les résultats finaux. Ces 5 étudiants (Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes) ont récupéré les données numériques (Google et Twitter) et des données socio-économiques depuis 1981 (taux de chômage par département, densité de médecins...) et ils les ont rapprochés des résultats électoraux et des sondages d'opinion depuis 1981. En paramétrant des algorithmes, ils nous ont fourni une prédiction, sensiblement différente de celle des sondages classiques. Vous retrouverez ici leur méthodologie exacte et le raisonnement qui, pas à pas, les a menés à cette conclusion. Nous avons interrogé Mohamed Al Ani et Raphaël Vignes, du projet Predict the President pour connaître la fiabilité, les atouts, mais également les zones d'ombre de cette méthode révolutionnaire.
Le Point.fr : En quoi les sondages sont-ils devenus un instrument imparfait de mesure de l'opinion ?
Mohamed Al Ani et Raphaël Vignes : Comme nous avons pu le voir dans des enquêtes récentes, les instituts de sondage ont quelques failles dans leurs approches, les enquêtes téléphoniques sont délaissées pour des enquêtes internet rémunérées sans pouvoir vérifier l'identité de l'administré, tant et si bien que certains mentent pour être sûrs d'être interrogés et percevoir la rémunération (voir Envoyé spécial du 13 avril 2017 sur France2). En effet, selon la méthode des quotas il faut atteindre une certaine taille d'effectif dans chaque catégorie interrogée. Et certains profils sont plus rares que d'autres. En outre, les instituts de sondage ne déclarent pas les chiffres bruts qu'ils obtiennent ni leurs méthodes de redressement, technique qui consiste à corriger les résultats des enquêtes jugés non pertinents par les instituts. Une simple commission juridique s'assure que les redressements sont valides, mais n'a jamais prononcé la moindre sanction à leur encontre.
Il ne faut cependant pas condamner les sondages, la taille des effectifs (surtout dans certaines enquêtes, par exemple Cevipof-Sopra Steria avec des enquêtes à plus de 9 000 personnes) atténuent ces dérives et sauf sur quelques scrutins (1995 et 2002) ceux-ci se sont avérés proches du résultat final. Ils détiennent ainsi une information importante à prendre en considération.
Qu'apporte à l'analyse l'étude des buzz sur Twitter et sur Google ?
Ils permettent d'ajouter une composante de popularité des candidats et d'image publique qu'on ne prend pas en compte dans notre modèle de prédiction des blocs. La prédiction des blocs permet de donner une dynamique de vote gauche/droite/extrêmes en fonction de la géographie des départements et de leurs contextes économique, social et démographique. Ainsi, grâce à ces nouvelles données nous pouvons collecter une tendance personnalisée et instantanée de l'opinion des internautes et de la twittosphère. Nous avons là, la rencontre d'une femme ou d'un homme avec le peuple numérique.
Qui, selon vous, accédera au second tour de la présidentielle ?
Selon les hypothèses de nos prédictions, ce sera Marine Le Pen avec un score de 24,13 % et François Fillon avec un score de 21,77 %. Cependant, le score que nous avons prédit pour Emmanuel Macron reste très proche de celui de François Fillon : 20,32 %. La différence entre les deux reste dans nos marges d'erreur. Tous nos modèles de pondérations donnent cependant Marine Le Pen au second tour.
Pensez-vous qu'il soit désormais possible de « prédire » tous les types d'élection en France ?
La prédiction au sens mathématique du terme n'est possible que si l'on dispose de suffisamment de données d'entraînement (*) pour entraîner le modèle. Pour que la prédiction soit robuste, il faut disposer de suffisamment de données portant une information significative pour que le modèle s'ajuste bien aux données futures. Les données utilisées dans notre prédiction, issues de l'open data via les plateformes gouvernementales et l'Insee, sont à la maille du département : ainsi, on peut prédire le résultat de scrutins allant jusqu'à cette échelle. Pour les scrutins plus locaux, les données se font plus rares et sont dépendantes des avancées faites par les collectivités locales sur la démarche open data. On peut, à terme, imaginer que les modèles pourront prédire le résultat d'élections cantonales voir municipales, mais pour cela il faut que nous puissions identifier de manière certaine le territoire d'origine des tweets et de recherche sur Google.
Reconnaissez-vous à votre méthode des imperfections, des marges d'erreur ou un angle mort ?
C'est certain, notre méthode est expérimentale, comporte des biais et repose sur l'hypothèse que le comportement des électeurs du passé sera similaire à celui des électeurs du futur. On peut toutefois être optimiste sur les résultats à venir de cette démarche puisqu'il y a de nombreux exemples de prédictions justes (voir les travaux de Nate Silver aux USA sur les élections de 2008 et 2012), sans passer sous silence les échecs de la méthode (Trump, par exemple), l'enjeu est d'analyser pourquoi l'analyse a échoué et comment corriger le modèle. Les biais rencontrés sont dépendants des données : s'il s'agit de données de réseaux sociaux, alors celles-ci ne représentent qu'une catégorie de la population ; s'il s'agit de données socio-éco-démographiques, la discontinuité des données peut influer sur la marge d'erreur ; au contraire, pour les données de recherche Google il faut s'assurer de les traiter avec un recul suffisant pour ne pas seulement observer des épiphénomènes. En définitive, plus il y aura de données d'origines, d'échelles et de types différents, plus robustes seront les modèles.
(*) Données d'entraînement : ce sont des données du passé qui conduisent à un résultat déjà connu, et qu'on exploite dans un modèle. Ex : on peut considérer l'ensemble des données d'avant 2012 comme menant à l'élection de François Hollande : l'objectif du modèle serait alors d'apprendre les signes annonciateurs dans ces données, de simuler de nouveau cette élection, et de comparer avec le résultat réel pour tester sa validité.
Aucun commentaire:
Enregistrer un commentaire