You are currently viewing Droits d’auteur : Les IA enfreignent les règles

Droits d’auteur : Les IA enfreignent les règles

Un rapport du New York Times révèle comment les géants de la tech se sont efforcés de récolter des masses de données d’entrainement de leur modèles d’IA sans respecter les droits d’auteur.

Une course effrénée aux données pour faire progresser l’IA

Les données sont devenues le carburant indispensable pour faire avancer l’intelligence artificielle. Plus les données ingérées par les modèles d’IA sont volumineuses et de qualité, plus ces derniers deviennent performants pour générer du texte, des images, des sons et des vidéos ressemblant à des créations humaines.
Mais les géants de la tech comme OpenAI, Google et Meta sont confrontés à une pénurie potentielle de données exploitables. Ils ont déjà épuisé une grande partie des contenus de qualité disponibles sur Internet. Il s’agit des livres, articles et contenus soigneusement rédigés et édités par des professionnels.
Selon des analystes, les entreprises pourraient avoir consommé toutes les données de qualité sur le web dès 2026. Elles utilisent les données plus vite qu’elles ne sont produites. Pour pallier ce manque, elles sont prêtes à tout. Ainsi, elles vont jusqu’à ignorer leurs propres politiques, modifier leurs règles et envisager de contourner le droit d’auteur.

OpenAI a transcrit plus d’un million d’heures de vidéos YouTube sans autorisation

Fin 2021, OpenAI a fait face à un problème d’approvisionnement en données textuelles de qualité en anglais pour entraîner GPT-4, son modèle de langage le plus avancé. La startup a alors développé Whisper, un outil de reconnaissance vocale capable de transcrire l’audio des vidéos YouTube en texte.
Certains employés d’OpenAI, dont le président Greg Brockman qui a personnellement collecté des vidéos, savaient que cette pratique allait à l’encontre des règles de YouTube. La plateforme interdit en effet l’utilisation de ses vidéos pour des applications indépendantes. Mais OpenAI a estimé qu’il s’agissait d’un usage loyal (“fair use”).
Au final, OpenAI a transcrit plus d’un million d’heures de vidéos YouTube, violant potentiellement les droits d’auteur des créateurs. Les textes obtenus ont ensuite été injectés dans GPT-4 pour l’entraîner.

Google a aussi utilisé des vidéos YouTube et élargi ses conditions d’utilisation

Google, propriétaire de YouTube, était au courant des agissements d’OpenAI. Cependant, la société n’a pas agi car elle utilisait également des transcriptions de vidéos YouTube pour entraîner ses propres modèles d’IA, au risque de violer les droits d’auteur des créateurs. L’entreprise affirme cependant le faire dans le cadre d’accords spécifiques avec chaque créateur concerné.
L’an dernier, Google a aussi élargi ses conditions d’utilisation, en partie pour pouvoir exploiter les contenus publics de Google Docs, les avis sur Google Maps et d’autres données en ligne pour plus de produits d’IA. Ce changement a été poussé intentionnellement un week-end de fête nationale pour passer inaperçu selon des membres de l’équipe vie privée de Google.

Meta a envisagé d’acheter un éditeur et d’utiliser des contenus protégés

Meta (Facebook) a également été confronté à des problèmes de disponibilité de données d’entraînement. Après avoir épuisé presque tous les livres, essais, poèmes et articles de presse en anglais sur Internet, l’entreprise a notamment envisagé deux options. La première consiste à payer des licences pour des livres, d’acheter carrément un grand éditeur comme Simon & Schuster. La seconde est d’utiliser des contenus protégés par le droit d’auteur sans autorisation, quitte à faire face à des poursuites. Négocier des licences avec les ayants droit prendrait trop de temps selon Meta.

Des solutions alternatives controversées

Pour pallier le manque de données, les entreprises d’IA envisagent de générer leurs propres données synthétiques à l’aide de leurs modèles. Mais les experts mettent en garde contre les risques “d’une consanguinité numérique” qui pourrait faire s’effondrer les modèles.
L’autre option consiste à utiliser toutes les données disponibles, avec ou sans autorisation. Cette solution exposerait les entreprises à de nombreux procès de la part des ayants droit. Le New York Times exige ainsi qu’OpenAI supprime tous ses contenus de ses données d’entraînement.
Cette course aux données soulève de nombreuses questions éthiques et juridiques sur les pratiques des géants de la tech dans le développement de l’IA. Un encadrement semble nécessaire pour protéger les droits des créateurs et éviter les dérives. Les entreprises devront trouver un équilibre entre leurs besoins en données et le respect de la propriété intellectuelle. C’est un préalable si elles veulent poursuivre sereinement leurs avancées en intelligence artificielle.

Source : New York Times

Laisser un commentaire