Les médias accusent Perplexity de plagiat et de scraping Web contraire à l'éthique

À l’ère de l’IA générative, où les chatbots peuvent fournir des réponses détaillées à des questions basées sur du contenu extrait d’Internet, la frontière entre l’utilisation équitable et le plagiat, et entre le scraping Web de routine et le résumé contraire à l’éthique, est mince.

Perplexity AI est une startup qui combine un moteur de recherche avec un vaste modèle de langage qui génère des réponses détaillées, plutôt que de simples liens. Contrairement à ChatGPT d'OpenAI et Claude d'Anthropic, Perplexity n'entraîne pas ses propres modèles d'IA fondamentaux, mais utilise plutôt des modèles ouverts ou disponibles dans le commerce pour prendre les informations qu'elle recueille sur Internet et les traduire en réponses.

Mais une série d'accusations en juin suggère que l'approche de la startup frise l'éthique. Forbes a dénoncé Perplexity pour avoir prétendument plagié l'un de ses articles de presse dans la version bêta de la fonctionnalité Perplexity Pages de la startup. Et Wired a accusé Perplexity d'avoir illégalement supprimé son site Web, ainsi que d'autres sites.

Perplexity, qui travaillait en avril pour lever 250 millions de dollars pour une valorisation de près de 3 milliards de dollars, maintient qu'elle n'a rien fait de mal. L'entreprise soutenue par Nvidia et Jeff Bezos affirme avoir respecté les demandes des éditeurs de ne pas supprimer de contenu et qu'elle opère dans les limites des lois sur le droit d'auteur.

La situation est compliquée. Au cœur de cette problématique se trouvent deux concepts. Le premier est le protocole d'exclusion des robots, une norme utilisée par les sites Web pour indiquer qu'ils ne veulent pas que leur contenu soit consulté ou utilisé par des robots d'indexation. Le second est l'utilisation équitable dans le droit d'auteur, qui établit le cadre juridique permettant l'utilisation de matériel protégé par le droit d'auteur sans autorisation ni paiement dans certaines circonstances.

Récupération clandestine de contenu Web

Robot d'exploration Internet malveillant
Crédits image : Getty Images

L'article du 19 juin de Wired affirme que Perplexity a ignoré le protocole d'exclusion des robots pour fouiller en secret des zones de sites Web auxquelles les éditeurs ne veulent pas que les robots accèdent. Wired a rapporté avoir observé une machine liée à Perplexity faire cela sur son propre site d'actualités, ainsi que sur d'autres publications de sa société mère, Condé Nast.

Le rapport note que le développeur Robb Knight a mené une expérience similaire et est arrivé à la même conclusion.

Les journalistes de Wired et Knight ont testé leurs soupçons en demandant à Perplexity de résumer une série d’URL, puis en observant du côté du serveur comment une adresse IP associée à Perplexity visitait ces sites. Perplexity a ensuite « résumé » le texte de ces URL – bien que dans le cas d’un site Web factice au contenu limité que Wired avait créé à cet effet, il ait renvoyé le texte de la page mot pour mot.

C’est ici qu’entrent en jeu les nuances du protocole d’exclusion des robots.

Le scraping Web est techniquement Lorsque des logiciels automatisés appelés robots d'exploration parcourent le Web pour indexer et collecter des informations sur les sites Web. Les moteurs de recherche comme Google le font pour que les pages Web puissent être incluses dans les résultats de recherche. D'autres entreprises et chercheurs utilisent des robots d'exploration pour collecter des données sur Internet à des fins d'analyse de marché, de recherche universitaire et, comme nous l'avons appris, de formation de modèles d'apprentissage automatique.

Les scrapers Web conformes à ce protocole rechercheront d'abord le fichier « robots.txt » dans le code source d'un site pour voir ce qui est autorisé et ce qui ne l'est pas. Aujourd'hui, ce qui n'est généralement pas autorisé est de scraper le site d'un éditeur pour créer des ensembles de données de formation massifs pour l'IA. Les moteurs de recherche et les entreprises d'IA, dont Perplexity, ont déclaré qu'ils se conformaient au protocole, mais ils n'y sont pas légalement obligés.

Dmitry Shevelenko, directeur commercial de Perplexity, a expliqué à TechCrunch que résumer une URL n'est pas la même chose que l'exploration. « L'exploration consiste simplement à aspirer des informations et à les ajouter à votre index », a déclaré Shevelenko. Il a noté que l'adresse IP de Perplexity pourrait apparaître comme un visiteur d'un site Web qui est « autrement interdit par le fichier robots.txt » uniquement lorsqu'un utilisateur met une URL dans sa requête, ce qui « ne correspond pas à la définition de l'exploration ».

« Nous répondons simplement à une demande directe et spécifique d'un utilisateur souhaitant accéder à cette URL », a déclaré Shevelenko.

En d'autres termes, si un utilisateur fournit manuellement une URL à une IA, Perplexity affirme que son IA n'agit pas comme un robot d'exploration Web mais plutôt comme un outil pour aider l'utilisateur à récupérer et à traiter les informations demandées.

Mais pour Wired et de nombreux autres éditeurs, c'est une distinction sans différence, car visiter une URL et extraire les informations de celle-ci pour résumer le texte ressemble beaucoup à du scraping si cela est fait des milliers de fois par jour.

(Wired a également rapporté qu'Amazon Web Services, l'un des fournisseurs de services cloud de Perplexity, enquête sur la startup pour avoir ignoré le protocole robots.txt pour récupérer les pages Web que les utilisateurs ont citées dans leur message. AWS a déclaré à TechCrunch que le rapport de Wired était inexact et qu'il avait indiqué au média qu'il traitait leur demande de renseignements médiatiques comme il le fait pour tout autre rapport alléguant un abus du service.)

Plagiat ou usage équitable ?

capture d'écran de Perplexity Pages
Forbes a accusé Perplexity d'avoir plagié son scoop sur l'ancien PDG de Google Eric Schmidt développant des drones de combat alimentés par l'IA.
Crédits image : Perplexité / Capture d'écran

Wired et Forbes ont également accusé Perplexity de plagiat. Ironiquement, Wired affirme que Perplexity a plagié l'article même qui accusait la start-up d'avoir subtilisé en catimini son contenu Web.

Selon les journalistes de Wired, le chatbot Perplexity « a produit un texte de six paragraphes et 287 mots résumant fidèlement les conclusions de l’article et les preuves utilisées pour les atteindre ». Une phrase reproduit exactement une phrase de l’article original ; Wired affirme qu’il s’agit d’un plagiat. Les directives du Poynter Institute indiquent qu’il peut s’agir d’un plagiat si l’auteur (ou l’IA) a utilisé sept mots consécutifs de l’article source original.

Forbes a également accusé Perplexity de plagiat. Le site d'information a publié début juin un rapport d'enquête sur la manière dont la nouvelle entreprise du PDG de Google, Eric Schmidt, recrute massivement et teste des drones à intelligence artificielle avec des applications militaires. Le lendemain, le rédacteur en chef de Forbes, John Paczkowski, a publié sur X un article indiquant que Perplexity avait republié le scoop dans le cadre de sa fonctionnalité bêta, Perplexity Pages.

Perplexity Pages, qui n'est disponible pour l'instant que pour certains abonnés de Perplexity, est un nouvel outil qui promet d'aider les utilisateurs à transformer leurs recherches en « contenu complet et visuellement époustouflant », selon Perplexity. Des exemples de ce type de contenu sur le site proviennent des employés de la startup et comprennent des articles tels que « Un guide pour débutants en batterie » ou « Steve Jobs : PDG visionnaire ».

« Il s’agit d’une copie conforme de la plupart de nos articles », a écrit Paczkowski. « Il nous cite, ainsi que quelques-uns de ceux qui nous ont reblogues, comme sources de la manière la plus facilement ignorée possible. »

Forbes a indiqué que de nombreux articles sélectionnés par l'équipe de Perplexity sont « remarquablement similaires aux articles originaux de plusieurs publications, dont Forbes, CNBC et Bloomberg ». Forbes a déclaré que les articles ont été consultés des dizaines de milliers de fois et ne mentionnaient aucune des publications par leur nom dans le texte de l'article. Au lieu de cela, les articles de Perplexity incluaient des attributions sous la forme de « petits logos faciles à manquer qui renvoient vers eux ».

Par ailleurs, Forbes a déclaré que le post sur Schmidt contenait « une formulation presque identique » à celle du scoop de Forbes. L'agrégation comprenait également une image créée par l'équipe de conception de Forbes qui semblait avoir été légèrement modifiée par Perplexity.

Le PDG de Perplexity, Aravind Srinivas, a répondu à Forbes à l'époque en affirmant que la startup citerait ses sources de manière plus visible à l'avenir – une solution qui n'est pas infaillible, car les citations elles-mêmes sont confrontées à des difficultés techniques. ChatGPT et d'autres modèles ont des liens hallucinés, et comme Perplexity utilise des modèles OpenAI, il est susceptible d'être sujet à de telles hallucinations. En fait, Wired a rapporté avoir observé Perplexity halluciner des articles entiers.

Outre le fait de souligner les « aspérités » de Perplexity, Srinivas et l'entreprise ont largement revendiqué le droit de Perplexity à utiliser ce type de contenu pour des résumés.

C’est ici que les nuances de l’utilisation équitable entrent en jeu. Le plagiat, bien que mal vu, n’est pas techniquement illégal.

Selon le Bureau américain des droits d'auteur, il est légal d'utiliser des parties limitées d'une œuvre, y compris des citations, à des fins de commentaire, de critique, de reportage d'actualité et de rapports universitaires. Les entreprises d'intelligence artificielle comme Perplexity estiment que fournir un résumé d'un article est dans les limites de l'utilisation équitable.

« Personne n’a le monopole des faits », a déclaré Shevelenko. « Une fois que les faits sont connus, tout le monde peut les utiliser. »

Shevelenko a comparé les résumés de Perplexity à la façon dont les journalistes utilisent souvent des informations provenant d'autres sources d'information pour étayer leurs propres reportages.

Mark McKenna, professeur de droit à l'Institut de technologie, de droit et de politique de l'UCLA, a déclaré à TechCrunch que la situation n'était pas facile à démêler. Dans un cas d'utilisation équitable, les tribunaux évalueraient si le résumé reprend une grande partie de l'expression de l'article original, ou seulement les idées. Ils pourraient également examiner si la lecture du résumé pourrait remplacer la lecture de l'article.

« Il n’y a pas de lignes claires », a déclaré McKenna. « Donc [Perplexity] « Dire de manière factuelle ce que dit un article ou ce qu’il rapporte reviendrait à utiliser des aspects non protégés par le droit d’auteur de l’œuvre. Il ne s’agirait que de faits et d’idées. Mais plus le résumé inclut l’expression et le texte réels, plus cela commence à ressembler à une reproduction, plutôt qu’à un simple résumé. »

Malheureusement pour les éditeurs, à moins que Perplexity n’utilise des expressions complètes (et apparemment, dans certains cas, c’est le cas), ses résumés pourraient ne pas être considérés comme une violation de l’usage équitable.

Comment Perplexity cherche à se protéger

Les entreprises d’intelligence artificielle comme OpenAI ont signé des accords avec un certain nombre d’éditeurs de presse pour accéder à leur contenu actuel et archivé sur lequel former leurs algorithmes. En échange, OpenAI promet de faire apparaître des articles de presse de ces éditeurs en réponse aux requêtes des utilisateurs dans ChatGPT. (Mais même cela comporte quelques problèmes qui doivent être résolus, comme l’a signalé Nieman Lab la semaine dernière.)

Perplexity a attendu jusqu’à présent pour annoncer sa propre série de contrats publicitaires, attendant peut-être que les accusations portées contre elle cessent. Mais l’entreprise avance à grands pas dans une série d’accords de partage des revenus publicitaires avec des éditeurs.

L'idée est que Perplexity commencera à inclure des publicités aux côtés des réponses aux requêtes, et les éditeurs qui ont du contenu cité dans une réponse recevront une part des revenus publicitaires correspondants. Shevelenko a déclaré que Perplexity travaille également à permettre aux éditeurs d'accéder à sa technologie afin qu'ils puissent créer des expériences de questions-réponses et alimenter des éléments tels que des questions connexes de manière native dans leurs sites et produits.

Mais s'agit-il simplement d'une feuille de vigne pour le vol systémique de propriété intellectuelle ? Perplexity n'est pas le seul chatbot qui menace de résumer le contenu de manière si complète que les lecteurs ne voient pas la nécessité de cliquer pour accéder au contenu source original.

Et si les scrapers d'IA comme celui-ci continuent de récupérer le travail des éditeurs et de le réutiliser pour leurs propres activités, ces derniers auront plus de mal à gagner de l'argent grâce à la publicité. Cela signifie qu'à terme, il y aura moins de contenu à scrapper. Lorsqu'il n'y aura plus de contenu à scrapper, les systèmes d'IA générative se tourneront alors vers l'entraînement sur des données synthétiques, ce qui pourrait conduire à une boucle de rétroaction infernale de contenu potentiellement biaisé et inexact.

A lire également