Les entreprises d’IA bravent les protocoles anti-scraping pour alimenter leurs technologies

Malgré l’existence de protocoles destinés à bloquer l’extraction de contenu par les robots, plusieurs entreprises d’IA continuent de passer outre ces instructions pour alimenter leurs technologies. C’est ce que révèle une enquête du media Reuters, qui fait écho aux récentes accusations portées contre Perplexity, un moteur de recherche IA gratuit.

Logo de Perplexity AI

Cette pratique soulève de nombreuses questions quant au respect de la propriété intellectuelle et à la relation entre les éditeurs de contenu et les acteurs de l’IA.

Perplexity dans la tourmente…

Ces derniers jours, Perplexity a été pointé du doigt par plusieurs médias. Forbes l’a accusé d’avoir volé et republié l’un de ses articles sur de multiples plateformes. De son côté, Wired a révélé que l’entreprise ignorait le protocole d’exclusion des robots (robots.txt) pour extraire du contenu de son site et d’autres publications de Condé Nast. Le site technologique The Shortcut a aussi accusé Perplexity d’avoir scrapé ses articles.

Un souci qui ne concerne pas que Perplexity

Il faut savoir que selon Reuters, Perplexity n’est pas la seule entreprise d’IA à contourner les fichiers robots.txt pour scraper des sites web. Dans une lettre adressée aux éditeurs, la startup TollBit a averti que “des agents IA de plusieurs sources (pas seulement une entreprise) choisissent de contourner le protocole robots.txt pour récupérer du contenu sur les sites“. À titre indicatif, TollBit est une société qui met en relation des éditeurs avec des entreprises d’IA pour négocier des accords de licence.

OpenAI et Anthropic également pointés du doigt !

Bien que la lettre de TollBit ne nomme aucune entreprise, Business Insider affirme avoir appris qu’OpenAI et Anthropic, les créateurs des chatbots ChatGPT et Claude, contournent également les instructions “do not crawl” des fichiers robots.txt. Pourtant, ces deux entreprises avaient précédemment déclaré respecter ces consignes

Une pratique légale mais éthiquement discutable

Lors de son enquête, Wired a découvert qu’une machine sur un serveur Amazoncertainement exploitée par Perplexitycontournait les instructions robots.txt de son site web. Interrogé par Fast Company, le PDG de Perplexity, Aravind Srinivas, a défendu les pratiques de son entreprise, soulignant que le protocole d’exclusion des robotsn’est pas un cadre juridique“. Il a également suggéré que les éditeurs et les entreprises comme la sienne devraient établir un nouveau type de relation.

Des résultats parfois inexacts malgré tout ! 

Pour confirmer si Perplexity scrapait son contenu, Wired a fourni à l’outil de l’entreprise des titres de ses articles ou de courtes descriptions. L’outil a généré des résultats qui paraphrasaient de près les articles “avec une attribution minimale“, et a même parfois produit des résumés inexacts. Srinivas a répondu à cela en déclarant : “Nous n’avons jamais dit que nous n’avons jamais halluciné“.

Vers une nouvelle relation entre éditeurs et entreprises d’IA ?

Cette affaire révèle un peu plus les défis auxquels sont confrontés les éditeurs face à l’essor de l’IA. Si le protocole d’exclusion des robots n’a pas de valeur juridique contraignante, son non-respect par les entreprises d’IA donne lieu à se poser des questions éthiques. Comme le suggère Srinivas, il est peut-être temps pour les éditeurs et les acteurs de l’IA d’établir un nouveau type de relation. Et cela, afin de concilier les besoins en données des uns et le respect de la propriété intellectuelle des autres.

…. to be continued
Read the Original Article
Copyright for syndicated content belongs to the linked Source : FredZone – https://www.fredzone.org/entreprises-ia-bravent-protocoles-anti-scraping-alimenter-leurs-technologies/

Exit mobile version