Une plainte déposée par des écrivains américains met en lumière les zones grises de l’entraînement des modèles de langage développés par NVidia : il les aurait entrainé sur l’une des plus grosse bibliothèques pirates en ligne.
Selon des documents judiciaires révélés par TorrentFreak le 20 janvier 2026, plusieurs auteurs américains accusent l’entreprise d’avoir sciemment utilisé des œuvres protégées pour développer ses modèles d’IA.
NVidia aurait pillé Anna’s Archive
Au cœur de l’affaire se trouve Anna’s Archive, la plateforme clandestine donnant accès à des millions de livres piratés dont on vous parlait ici. D’après la plainte, des employés de Nvidia auraient négocié un accès privilégié à cette bibliothèque numérique, représentant environ 500 téraoctets de données textuelles.
Les éléments les plus compromettants concernent la nature délibérée de cette démarche. Les administrateurs d’Anna’s Archive auraient explicitement informé Nvidia du caractère illicite de leur catalogue. Malgré cet avertissement, la plainte affirme que l’entreprise aurait donné son feu vert pour procéder aux téléchargements massifs, moyennant un paiement potentiel de plusieurs dizaines de milliers de dollars.
Quatre modèles IA entrainés sur des données pirates
La plainte cite nommément plusieurs modèles développés par Nvidia qui auraient bénéficié de ces données :
- NeMo
- Megatron
- Retro-48B
- et InstructRetro
Ces architectures, utilisées notamment dans la recherche académique et les solutions professionnelles, constituent une partie importante de l’offre IA du fabricant de puces.
À ce stade, aucune qualification juridique définitive n’a été établie concernant l’entraînement de ces modèles, mais leur mention explicite dans les documents judiciaires indique qu’ils sont au centre des investigations.
Un débat juridique crucial pour toute l’industrie
Au-delà du cas Nvidia, cette affaire soulève une question fondamentale pour l’ensemble du secteur de l’IA générative : jusqu’où s’étend le principe de « fair use » dans le droit américain ?
Les entreprises technologiques ont longtemps défendu l’idée que l’entraînement automatisé de modèles constitue un usage transformatif des œuvres, protégé par cette doctrine. Mais si les tribunaux établissent qu’il y a eu recherche délibérée de contenus piratés, avec pleine connaissance de leur statut illégal, cet argument s’effondre.
Nvidia n’a fait aucun commentaire…
L’entreprise n’a pour l’instant pas reconnu les faits et n’a publié aucune réponse détaillée sur le fond du dossier. Le PDG Jensen Huang, bien que non personnellement visé par la plainte, est cité indirectement à travers les décisions de management évoquées dans les documents.
L’affaire est actuellement en phase d’instruction devant une juridiction fédérale américaine. Aucune décision n’a encore été rendue, mais l’issue de ce procès pourrait créer un précédent majeur, influençant durablement les pratiques de toute l’industrie de l’intelligence artificielle.
