Notes de conférence – Les algorithmes et la montée de la haine, du harcèlement et des discriminations en ligne

Notes de conférence – Les algorithmes et la montée de la haine, du harcèlement et des discriminations en ligne

Entre mars et juin 2024, l’association VoxPublic organise une série de webinaires de sensibilisation destinés aux acteurs de la société civile. Leur but est de mieux comprendre le rôle et les responsabilités des réseaux sociaux dans la propagation des contenus haineux, discriminatoires ou constitutifs de harcèlement. 

Pour ouvrir ce cycle de webinaires, une première conférence a eu lieu le 26 mars 2024 portant sur le thème « Les algorithmes et la montée de la haine, du harcèlement et des discriminations en ligne ». Au cours de ce webinaire, Madame Soizic Pénicaud, chercheuse indépendante et consultante dans le domaine des politiques publiques appliquées au numérique, ainsi que Madame Buse Raziye Çetin, chercheuse en intelligence artificielle pour AI Forensics, ont pu présenter leurs travaux. 

« Sous le capot des réseaux sociaux » 

Dans un premier temps, Madame Soizic Pénicaud a effectué une présentation intitulée « Sous le capot des réseaux sociaux ». En préambule, elle a évoqué les comportements discriminatoires sur les réseaux sociaux ainsi que leurs conséquences. Par exemple, les algorithmes de Facebook auraient favorisé la propagation de contenus haineux ciblant les Rohingyas. Dans ce contexte, l’intervenante a tenté de déterminer la responsabilité des plateformes dans l’amplification de la haine en ligne, notamment en étudiant leurs politiques de modération. Tout d’abord, il a été établi que les plateformes en ligne sont entrées dans l’ère de la modération industrielle, c’est-à dire qu’elles opèrent une automatisation et une standardisation de leurs processus de modération. Cela s’explique par le fait que le volume de contenus postés sur les réseaux sociaux a augmenté de manière exponentielle et que les modérateurs humains ne parviennent pas à tout traiter. En outre, l’intervenante a rappelé que chaque plateforme dispose de règles de la communauté décrivant les politiques de modération et les types de contenu interdits. Généralement, la modération des contenus est divisée en deux étapes : avant la publication, le contenu est soumis à un premier filtre automatique visant à détecter l’éventuelle violation des règles de la communauté. En cas de doute, un modérateur humain est sollicité. Ensuite, après la publication, les utilisateurs peuvent signaler aux plateformes en ligne les contenus violant les règles de la communauté. Lorsqu’un contenu enfreignant ces règles est repéré, une mesure est prise par un algorithme ou un modérateur humain : le contenu peut être déprécié ou supprimé et le compte qui l’a posté peut être banni ou subir une réduction de sa visibilité. 

Après avoir détaillé les procédures de modération des contenus, Madame Soizic Pénicaud s’est ensuite penchée sur les algorithmes de modération. Ces derniers sont des programmes informatiques entraînés sur des larges bases de données de contenus contraires aux règles de la communauté. Grâce à cet entraînement, les algorithmes vont inférer des critères pour « prédire » si un contenu enfreint ou non les règles. Or, ces algorithmes sont élaborés par des humains puis entraînés sur des bases de données créées par d’autres humains ; ainsi les biais ou les représentations des personnes qui conçoivent ces algorithmes et de celles qui modèrent directement les contenus affectent les décisions de modération. Par exemple, il apparaît que les algorithmes de modération de Meta présentaient des taux d’erreur élevés pour les contenus en arabe palestinien, probablement parce que ses bases de données d’entraînement n’incluaient pas ce dialecte. L’intervenante a par la suite proposé quelques interprétations des raisons poussant les réseaux sociaux à conserver ces processus de modération pourtant imparfaits et biaisés. Ce choix relève certainement de décisions politiques : par exemple, les ressources attribuées à la modération des langues sont octroyées de manière très inégalitaire par les plateformes. Ainsi, Facebook a été poursuivi pour sa modération insuffisante des contenus en Éthiopie dans le cadre du génocide en cours. Par ailleurs, les réseaux sociaux modèrent leurs contenus principalement en raison d’obligations légales et pour satisfaire leurs annonceurs publicitaires, ce qui peut également expliquer les défaillances de leurs mécanismes de modération. En effet, ces derniers sont d’abord conçus pour maximiser les profits et réduire les risques de poursuites judiciaires, même si cela se fait au détriment de l’expérience des utilisateurs. 

« Les algorithmes et la montée de la haine en ligne » 

Dans un deuxième temps, Madame Buse Raziye Çetin a analysé l’impact des algorithmes sur la montée de la haine en ligne. Pour ce faire, elle a présenté deux enquêtes réalisées par AI Forensics.  

La première enquête décrivait le rôle joué par les algorithmes de recommandation de TikTok et de YouTube lors des élections présidentielles françaises de 2022. L’objectif de cette enquête était d’observer, au cours des quatre mois précédant le second tour de l’élection présidentielle française, les variations de la viralité des contenus politiques sur ces plateformes. Afin d’étudier le fonctionnement des algorithmes de YouTube et de TikTok, les équipes d’AI Forensics ont choisi dix termes neutres (par exemple « élections ») et ont relevé les contenus mis en avant lorsque ces mots-clés étaient recherchés. Plusieurs constats sont ressortis de cette étude. Le premier concerne la nature des résultats : si 83 % des contenus suggérés par YouTube proviennent d’acteurs institutionnels (chaînes de télévision et stations de radio), TikTok suggère quasiment exclusivement du contenu produit par ses utilisateurs. En outre, la représentation des candidats à l’élection dans les résultats de recherche a été très volatile sur TikTok. En d’autres termes, le nombre de suggestions associées à chaque candidat a beaucoup varié au fil du temps ; ainsi, des candidats ont pu bénéficier de pics de popularité très éphémères. De surcroît, l’algorithme de TikTok a mis en avant les contenus de certains candidats de manière disproportionnée, tandis que celui de YouTube traitait les candidats de manière plus uniforme. Par ailleurs, il ressort de cette étude que la popularité sur les plateformes n’est pas corrélée aux résultats électoraux. Les candidats polarisants semblent favorisés par les algorithmes, à l’image d’Éric Zemmour, le deuxième candidat le plus mis en avant sur YouTube qui a obtenu seulement 7% des suffrages lors du premier tour de l’élection présidentielle. 

Madame Buse Raziye Çetin a ensuite abordé une autre enquête d’AI Forensics traitant de la fiabilité de l’IA (intelligence artificielle) générative dans le contexte des élections fédérales suisses et régionales allemandes de 2023. Cette étude a porté sur Bing Chat (désormais appelé Microsoft Copilot), l’outil d’IA conversationnel de Microsoft intégré au moteur de recherche Bing. Pour tester l’efficacité de l’outil, les équipes d’AI Forensics lui ont posé des questions basiques concernant les candidats, leurs programmes ou les modalités de vote en Suisse et en Allemagne. Les réponses fournies par Bing Chat ont ensuite été analysées : 30 % d’entre elles étaient correctes, 31 % étaient fausses et 39 % étaient évasives. Cette répartition pose une première difficulté parce que les réponses évasives ne sont pas uniformément réparties selon les sujets abordés ; par exemple, Bing Chat se montre plus évasif lorsque des polémiques concernant des candidats sont évoquées. De plus, le système d’IA cite parfois des sources fiables mais les résume de manière erronée. L’étude a aussi permis de constater que Bing Chat est significativement moins performant lorsque la langue n’est pas l’anglais ; ainsi, le système d’IA a donné 58 % de réponses évasives aux questions posées en français contre seulement 33 % pour les questions en anglais. Pour finir, les équipes d’AI Forensics ont détecté un dysfonctionnement systémique de Bing Chat. Le taux d’erreur pour une même question est plus ou moins constant au fil du temps : la même requête génère la même réponse erronée au fil de plusieurs mois. 

Échanges avec le public 

À la fin du webinaire, le public a eu l’opportunité de poser des questions aux intervenantes. Ces dernières ont d’abord été interrogées sur les arguments utilisés par les plateformes pour nier leur responsabilité dans la diffusion de la haine en ligne. Madame Soizic Pénicaud a avancé que les plateformes ont de plus en plus de difficultés à échapper à leurs obligations, notamment en raison du DSA (Digital Services Act, ou Règlement pour les services numériques) qui encadre leurs activités au niveau européen. Elle a aussi assuré qu’il faudra évaluer l’efficacité de ce règlement sur le long-terme et que, pour l’instant, les très grandes plateformes en ligne n’ont pas radicalement modifié leurs politiques de modération. Une autre question a porté sur l’article 40 du DSA, lequel permet aux chercheurs d’accéder aux données des plateformes. Madame Buse Raziye Çetin a noté qu’AI Forensics est surtout concerné par le paragraphe 12 de cet article qui donne aux chercheurs un accès aux données publiquement disponibles. En effet, les équipes d’AI Forensics ont pour habitude de récupérer les données directement en faisant du data scraping, ainsi cette disposition pourrait faciliter leur travail. Ensuite, Madame Soizic Pénicaud a partagé ses questionnements sur la capacité d’action des acteurs de la société civile dans le cadre de l’article 40 du DSA et sur la possibilité pour ces acteurs d’exploiter les données afin de mettre les plateformes face à leurs responsabilités. 

Pour conclure, Madame Soizic Pénicaud a affirmé qu’il est crucial d’envisager des modèles alternatifs aux grandes plateformes actuelles dans lesquels toutes les fonctionnalités ne seraient plus contrôlées par une entité. C’est par exemple le cas des systèmes de recommandation communautaires paramétrables par les utilisateurs. Madame Buse Raziye Çetin a, quant à elle, souligné le rôle essentiel de la société civile qui sensibilise la population aux enjeux liés aux plateformes tout en formulant des recommandations pour les législateurs reposant sur cette expérience.