«Médias et intelligence artificielle: défendre les droits, affirmer les valeurs»

Jean-Frédéric Farny est directeur général de Aday, plateforme de valorisation des médias, depuis 2016, et président de Imatag, solution de tatouage des contenus numériques, depuis 2020.

Si les données constituent le combustible de l’intelligence artificielle (IA), celles issues des médias, presse, radio et TV, en fournissent incontestablement la matière la plus raffinée, la plus récente. Peu de contenus offrent autant de garanties sur leurs qualités d’écriture, de vérification et de justesse des informations. Une véritable mine dans laquelle on ne saurait aller piocher innocemment.

Une fois passée la période actuelle, mêlant enthousiasme, crainte et sidération, voire fascination, de l’émergence des solutions d’IA génératives, telles que ChatGPT3 puis 4 d’OpenAI, Bard de Alphabet/Google ou encore Llama de Meta/Facebook, il faudra bien s’attacher à trier le bon grain de l’ivraie. Les désormais célèbres modèles massifs de langage puisent dans les mêmes bassins d’entraînement dans lesquels ont été aspirées l’ensemble des données mondiales disponibles par le biais d’un aspirateur à données, CommonCrawl, ou directement sur Wikipedia, des livres complets, des transcriptions parlementaires, des articles de journaux, des notices de produits, des présentations d’entreprises, etc. Pour les modèles informatiques, tout se vaut.

Dans ce vaste océan, la langue française pèse un peu moins de 4 % de l’ensemble et les articles issus des médias pour moins de 3 % de ce sous-ensemble. Cette infime partie vaut pourtant de l’or.

Modèle hybride. Le réflexe des médias historiques consistant à se prémunir est compréhensible. La première approche consiste à protéger cette valeur en demandant aux géants d’Internet de ne pas s’en servir sans autorisation préalable. La suite logique de la démarche serait de bloquer les robots, opération coûteuse et très incertaine. En renonçant à un modèle hybride, les médias, dont une partie des contenus reste en accès gratuit, prendraient le risque d’affecter ainsi leurs audiences.

Avec l’émergence de solutions d’intelligence artificielle générative, les médias se retrouvent confrontés, une nouvelle fois, à des enjeux inédits. L’automatisation de la rédaction de contenus, leur personnalisation selon le profil de leurs lecteurs ou de leurs spectateurs, leurs transcriptions, de texte en voix et inversement, et la création de contenus originaux représentent autant de défis éthiques et juridiques en termes de respect de la vie privée, de droits d’auteur, de transparence et de responsabilité.

D’ores et déjà, des solutions de modération de contenus, de détection des fake news, d‘analyse des audiences, de robots conversationnels, de recherche se déploient et apporteront de nouveaux services à des médias soucieux d’affirmer la primauté de leurs marques et le label de qualité associé.

Les solutions d’intelligence artificielle ne relèvent pas de la propriété intellectuelle sur les contenus qu’elles produisent étant donné que seule la protection des « droits des auteurs sur toutes les œuvres de l’esprit, quels qu’en soient le genre, la forme d’expression, le mérite ou la destination » sont protégés selon le Code de la propriété intellectuelle

Au défi de la propriété intellectuelle. Par leur nature d’outil informatique, les solutions d’intelligence artificielle ne relèvent pas de la propriété intellectuelle sur les contenus qu’elles produisent étant donné que seule la protection des « droits des auteurs sur toutes les œuvres de l’esprit, quels qu’en soient le genre, la forme d’expression, le mérite ou la destination » sont protégés selon le Code de la propriété intellectuelle.

En tout état de cause, les solutions ne sauraient être qualifiées d’auteur et leurs productions d’« œuvres de l’esprit ». Il n’en reste pas moins qu’elles recourent à des contenus protégés par des droits d’auteur dont la reproduction, même partielle, sans le consentement de son auteur est illicite.

Au défi de la protection des données personnelles. En France, la Commission nationale de l’informatique et des libertés (CNIL) a été saisie de plusieurs plaintes, après que son équivalent italien a suspendu l’usage de ChatGPT au printemps 2023. Si OpenAI, l’entreprise qui développe la solution, affirme respecter la vie privée de ses utilisateurs, sa politique de confidentialité ne mentionne pas les dispositions protégeant les données personnelles, notamment le droit à la limitation du traitement, le droit à la portabilité des données et le droit d’opposition, ouvrant un doute sur sa conformité. En outre, il conviendra d’envisager les enjeux juridiques du point de vue de la contrefaçon, du parasitisme et de l’utilisation des marques.

Conjuguer les enjeux. Dans la course aux intelligences artificielles, les producteurs de contenus ont un rôle stratégique à jouer en imaginant et en construisant de nouveaux modèles. Ceux-ci pourraient être composés d’un registre universel des contenus (articles, dépêches, photos, vidéos, sons) produits par des acteurs reconnus que sont les médias, toutes familles confondues. Les contenus devraient être protégés par un dispositif de marquage inaltérable et indétectable permettant de garantir leur unicité et leur antériorité.

Le marquage des contenus est la seule méthode de protection et d’identification des contenus (textes, photos, vidéos) qui soit pleinement efficace

Organisés de la sorte, les producteurs de contenus auront la garantie que leurs contenus ne seront pas disséminés. Ils pourront ainsi revendiquer ce qu’ils considèrent être la juste valeur de leur contribution et auront l’assurance de participer à des modèles dont les usages seront en conformité avec leurs droits.

Marquer les contenus. Le marquage des contenus est la seule méthode de protection et d’identification des contenus (textes, photos, vidéos) qui soit pleinement efficace.

De telles technologies sont aujourd’hui parfaitement maîtrisées sur notre continent, si attaché à la liberté et au respect des droits, permettant notamment l’identification des reproductions et modifications, parcellaires ou intégrales, de toute publication.

A contrario, si l’ambition de marquer toute production générée par intelligence artificielle apparaît comme une solution efficace et tentante, elle trouvera sa limite dans sa capacité à s’imposer. En effet, les organisations occultes, secrètes ou parallèles, telles que Wagner par exemple, ne marqueront pas leur production de photos ou de textes générés avec leurs propres intelligences artificielles. Au mieux, si l’on peut dire, elles tenteront de falsifier leurs métadonnées pour usurper l’identité de marques médias ou d’organisations étatiques.

Il est donc stratégiquement plus raisonnable et efficace de constituer un premier niveau de marquage des contenus originaux (non générés) par leurs producteurs. Cela bloquerait toute usurpation et garantirait leur origine et leur parcours de diffusion. Dès lors ; il serait alors impossible de prétendre qu’une photo a été diffusée par tel journal ou produite par telle agence si elle ne possède pas les marquages adéquats.

Si pour les images le marquage peut être dissimulé dans les pixels en le rendant indétectable et infalsifiable, les textes eux n’ont pas cette caractéristique et le marquage est visible et donc altérable. La solution se trouve dans la capacité du registre à réattribuer à chaque contenu son origine.

Si l’Europe n’est pas à la pointe de l’innovation technologique, elle a pour elle d’être un grenier de la culture du monde dans lequel on ne saurait se servir impunément. C’est donc un enjeu de souveraineté et de conquête, pour l’affirmation de nos valeurs, que d’investir dans des solutions innovantes permettant à nos médias de conserver leur rang.

«Médias et intelligence artificielle: défendre les droits, affirmer les valeurs» – par Jean-Frédéric Farny