Les publications de 2016 sur les réseaux sociaux: une mine d’or pour l’IA

L’intelligence artificielle (IA) pourra remercier les personnes qui ont suivi la récente tendance consistant à publier des photos ou des vidéos de 2016 sur les réseaux sociaux, selon des experts.

Le volume élevé d’images est une mine d’or pour quiconque a besoin de données pour entraîner des modèles d’IA, et leur étiquetage clair facilite encore davantage l’apprentissage de la technologie sur la façon dont les personnes, les lieux et les choses changent au fil du temps.

«Ces ensembles de données sont extrêmement rares, très coûteux à reproduire et très difficiles à collecter en raison de contraintes éthiques et de toutes sortes d’autres facteurs. Pour moi, cela a donc sonné une cloche», rapporte Sarah Saska, cheffe de direction du cabinet de conseil Feminuity, à propos de sa réaction face aux publications des internautes sur l’année 2016.

Il est difficile de déterminer l’origine de la tendance à publier du contenu datant d’il y a dix ans, mais depuis début janvier, les gens publient que «2026 est le nouveau 2016». Cela se traduit par de nombreuses publications mettant en avant des références nostalgiques, telles que les jeans skinny, le filtre «tête de chien» de Snapchat, autrefois très populaire, et la chanson «One Dance» de Drake.

Les participants, qu’il s’agisse d’utilisateurs lambda ou de célébrités, ont pour la plupart considéré cette tendance comme un divertissement inoffensif, mais certains experts en technologie y voient un rappel du fait qu’une fois que quelque chose est publié en ligne, on ne peut plus contrôler la manière dont il sera utilisé.

«Quelque chose qui est anodin aujourd’hui pourrait devenir très sensible dans quelques années, car nous ne disposons pas nécessairement d’un moyen parfait pour anticiper les technologies qui seront disponibles et leurs applications», explique Nicolas Papernot, professeur agrégé en génie informatique et sciences informatiques à l’Université de Toronto.

Ce que la plupart des personnes qui ont publié des messages sur 2016 n’ont pas réalisé, c’est que ces photos et ces vidéos sont idéales pour les entreprises d’IA, qui doivent généralement acheter ou collecter des données, ou, dans ce cas, des images, pour entraîner les modèles qui sous-tendent leurs logiciels, explique-t-il.

C’est une opération coûteuse, car chaque image ou vidéo doit être étiquetée, généralement par un être humain, qui peut identifier correctement ce qu’elle représente et quand elle a été prise.

Cependant, cette tâche fastidieuse devient beaucoup plus efficace et abordable lorsque les gens publient leurs images en ligne, les étiquetant automatiquement et confirmant ainsi leur authenticité, ajoute-t-il.

Et la valeur ne fait que croître lorsque les gens publient leur image de 2016 à côté d’une image de cette année, car cela permet d’enseigner à un modèle d’IA comment les choses changent sur une longue période.

«Il y a une décennie de vieillissement biologique réel, et pas seulement des changements esthétiques, qui se reflète en quelque sorte dans les photos», précise Mme Saska.

Une fois que les modèles utilisent les photos pour apprendre comment notre identité persiste ou quels aspects de celle-ci changent au fil du temps, ils deviennent plus efficaces pour nous reconnaître des années plus tard, même si notre apparence a changé.

Des risques

«Cela aide également à faire correspondre d’anciennes photos de personnes à de toutes nouvelles images de vidéosurveillance», prévient-elle.

«Cela peut aider à identifier les personnes malgré des changements, tels que la coiffure, la prise de poids, les vêtements ou même la chirurgie esthétique, et ils peuvent relier nos images historiques à des documents actuels, tels que des pièces d’identité ou des documents administratifs.»

Comme l’origine de cette tendance n’est pas claire, il est possible qu’elle ait commencé de manière naturelle, sans intention de former des modèles d’intelligence artificielle.

Les experts interrogés pour cet article ont toutefois tous reconnu la valeur de ces données pour les entreprises d’IA une fois qu’elles sont rendues publiques.

En les combinant avec des données ou des systèmes de localisation et de suivi, elles pourraient même prédire nos mouvements, ce qui rendrait plus difficile le maintien de notre anonymat, avance Mme Saska.

Ou encore, en les entrant dans un logiciel de génération d’images ou de vidéos, les personnes pourraient être victimes d’une vidéo hypertruquée, prévient Samantha Bradshaw, chercheuse au Centre pour l’innovation dans la gouvernance internationale.

Les hypertrucages sont des images ou des vidéos manipulées numériquement qui montrent une personne faisant ou disant quelque chose qu’elle n’a pas fait ou dit.

Certaines personnes peuvent penser qu’elles ne sont pas des personnalités publiques et qu’elles courent donc moins de risques que quelqu’un utilise leurs données à des fins autres que celles qu’elles avaient prévues, mais Mme Bradshaw invite à y réfléchir à deux fois.

«Plus ils disposent de données individuelles, plus leurs modèles prédictifs peuvent s’améliorer. Vos données individuelles ont donc vraiment de l’importance en fin de compte, même si vous pouvez vous sentir petit et insignifiant», explique-t-elle.

«Cela fait partie du fonctionnement d’un système plus vaste, qui doit être aussi performant que possible.»

Comme les plateformes de réseaux sociaux offrent rarement aux utilisateurs la possibilité de refuser que leurs données soient utilisées pour entraîner l’IA, elle indique que la meilleure chose à faire est de réfléchir plus attentivement à ce que l’on publie et, dans la mesure du possible, de limiter la visibilité de son compte afin que ses données ne puissent pas être facilement récupérées par des entreprises extérieures.

Les publications de 2016 sur les réseaux sociaux: une mine d’or pour l’IA

Explications.

Des risques

Tara Deschamps