CoronaCheck : démêler le vrai du faux sur l’épidémie de covid-19

Les rumeurs sur l’origine de l’épidémie de covid-19 ou l’annonce de remèdes miracles vont bon train. Certains se permettent aussi d’affirmer des chiffres pour le moins douteux. Paolo Papotti et son équipe à EURECOM proposent alors un outil algorithmique pour le grand public, capable d’identifier l’exactitude des chiffres. Au-delà de leur potentiel pour aider à informer sur l’épidémie, ces travaux démontrent l’enjeu et les limites actuelles des outils de fact-checking automatisés.

Nous traversons mondialement une crise sanitaire inédite qui s’accompagne malheureusement d’un pic d’informations erronées ou trompeuses. Surnommé par l’Organisation Mondiale de la Santé (OMS) une « Infodémie », le problème des « infox » n’est pas nouveau et se répand sur les réseaux sociaux autant qu’à travers les personnalités publiques. Nous voyons alors les conséquences que cela peut avoir sur la vision globale de cette épidémie. Notamment, lorsque des personnalités publiques comme le président des États-Unis utilisent des chiffres erronés pour sous-estimer l’impact de cette maladie, et justifier la continuité de l’activité du pays.

« En tant que chercheur en informatique sur le traitement des données et la qualité de l’information, nous pouvons agir en proposant un outil algorithmique aidant au travail de fact-checking » annonce Paolo Papotti, chercheur à EURECOM. Avec Mohammed Saeed, doctorant, et l’aide de Youssef Doubli, étudiant en master, il a développé un outil capable de vérifier ces informations à la suite d’un travail de recherche réalisé en amont avec le professeur Immanuel Trummer de l’Université de Cornell.

Originellement destiné au secteur de l’énergie, dans lequel les données changent constamment et nécessitent un long travail de vérification, cet outil appelé CoronaCheck, aujourd’hui disponible en français, a été adapté début mars pour répondre aux nécessités de l’actualité.

Ce travail de fact-checking est l’activité à part entière de nombreux journalistes : il faut vérifier à travers des sources fiables si les informations que nous entendons à droite et à gauche sont correctes. Et si ce sont des rumeurs, trouver des sources et explications pour rétablir la vérité. « Notre outil ne vise pas à remplacer le travail d’enquête de ces journalistes » précise Paolo Papotti, « mais une certaine portion de ces informations sont vérifiables par un algorithme. Notre but est alors d’apporter une aide aux modérateurs de réseaux sociaux et aux journalistes pour gérer l’abondance d’informations qui surgissent constamment en ligne ».

Des millions de messages sont échangés chaque jour à travers des réseaux comme Twitter ou Facebook et il n’est pas imaginable que ce travail soit effectué humainement. Avant de vérifier les informations, il faut déjà identifier les requêtes à risque. Un algorithme, cependant, pourrait être utilisé par ces réseaux pour analyser plusieurs données simultanément et cibler les fausses informations. C’est donc l’enjeu d’un programme de recherche financé par Google pour combattre la désinformation en ligne, dont fait partie le projet CoronaCheck. Le but est alors d’offrir au grand public un outil pour vérifier les chiffres liés à l’épidémie.

Un outil statistique

CoronaCheck est un outil statistique capable de comparer des données chiffrées avec les requêtes proposées. Le site fonctionne un peu comme un moteur de recherche : l’utilisateur rentre une requête, une affirmation, et CoronaCheck indique si elle est vraie ou fausse. Par exemple « il y a plus de cas de coronavirus en Italie qu’en France ». C’est un outil parlant en statistiques. Il peut traiter des phrases logiques utilisant des termes comme « inférieur » ou « constant », mais ne comprendra pas des requêtes du type « Donald Trump a le coronavirus ».

« Il nous semble important que l’utilisateur puisse comprendre la réponse de Coronacheck » ajoute Paolo Papotti. Si l’on reprend l’exemple précédent, le logiciel va non seulement répondre vrai ou faux à la question, mais va également donner les détails de sa réponse. Il précisera alors le nombre de cas dans chaque pays et la date à laquelle ces données sont correctes. « Dans le cas où la date n’est pas précisée, il prendra par défaut les résultats les plus récents, soit le mois de mars » indique le chercheur.

Il est donc essentiel de mettre à jour régulièrement les données. « Nous rentrons quotidiennement les nouvelles données recensées par la John Hopkins University » annonce-t-il. L’université collecte également des données auprès de plusieurs sources officielles comme l’OMS ou le Centre européen de prévention et de contrôle des maladies.

« Nous savons que cet outil n’est pas parfait » reconnaît Paolo Papotti. Le système fonctionne par machine learning, il faut donc entraîner le modèle. « Nous savons qu’il n’est pas exhaustif et qu’un utilisateur peut utiliser un mot inconnu pour le modèle ». Le retour d’expérience des utilisateurs est alors essentiel pour améliorer le système. Les remarques sont analysées pour intégrer au modèle des questions ou formulations de phrases qui n’auraient pas été prises en compte. Dans ce sens, il est aussi nécessaire de suivre les instructions du CoronaCheck et de parler un langage compréhensible par le système.

L’ambiguïté du langage

Il faut reconnaître que le langage peut être une barrière importante pour un outil de vérification automatique, car il est ambigu. Le « taux de décès » (« death rate ») illustre très bien cette ambiguïté. Pour le grand public il renvoie en général au taux de mortalité, c’est-à-dire au nombre de morts par rapport à la population sur une période définie. Cependant, le « taux de décès » peut aussi signifier le taux de létalité, qui est alors le nombre de morts par rapport au nombre de cas atteints par la maladie. Les résultats seront donc très différents en fonction de la signification du terme.

Ces différences d’interprétation sont toujours possibles dans le langage humain, mais elles ne doivent pas l’être dans ce travail de vérification. « Il faudrait alors que le système puisse proposer deux réponses, une pour chaque interprétation du taux de décès » précise Paolo Papotti. Cela fonctionnerait aussi dans les cas où un manque de rigueur peut induire un problème d’interprétation.

Si l’utilisateur rentre la requête « il y a plus de cas en Italie qu’aux États-Unis », cela peut être vrai pour février mais faux pour avril. « Dans l’optimal, il faudrait pouvoir évoluer vers un système donnant des réponses différentes, plus complexes que vrai ou faux » annonce Paolo Papotti. « Une direction que nous privilégions pour régler ce problème d’interprétation est d’aller plus loin qu’un outil statistique » ajoute-t-il.

L’équipe travaille sur un autre système qui pourrait répondre à des requêtes qui ne sont pas solvables avec des statistiques, par exemple « Donald Trump a le coronavirus ». Cela demande de développer un algorithme différent et leur objectif serait de combiner ces deux systèmes. « Il faudra ensuite trouver comment assigner une requête à l’un ou l’autre système, et combiner l’ensemble dans une interface unique, accessible et simple d’utilisation ».

Tiphaine Claveau pour I’MTech