Collecte des données IA et (dés)information
Collecte des données et (dés)information : l'enjeux juridiques du web scraping et les risques liés à l'entraînement des IA.
L'IA DANS NOTRE SOCIÉTÉ
C.Becouze
8/8/20243 min read


Au travers de cet article, nous allons faire une analyse juridique des enjeux liés à la collecte de données par les robots sur le web. En effet, le web scraping permet d’accéder à des contenus protégés par le droit d’auteur sans autorisation. De ce fait, les individus et les entreprises qui publient des informations en ligne peuvent ne pas être avertis que leurs données sont récoltées et utilisées pour entraîner des IA.
Ainsi, il s’agit de préoccupations pertinentes dans le contexte actuel dû au développement des IA et à la collecte de données sur Internet, car les créateurs de contenu ne sont ni rémunérés ni reconnus pour leur travail.
La violation des droits d’auteur
La reproduction non autorisée
La Directive 2001/29/CE de l’Union européenne (UE) sur le droit d’auteur dans la société de l’information protège explicitement les droits des auteurs sur leurs œuvres numériques. De ce fait, la copie ainsi que la distribution de contenus protégés par des robots sans l’autorisation des titulaires de droits constitue une violation directe du droit d’auteur.
L’utilisation commerciale
Si les données récoltées sans consentement sont utilisées pour des applications commerciales, comme par exemple l’entraînement de modèles d’IA vendus ou utilisés pour des services payants, cela aggrave la violation du droit d’auteur. En effet, le titulaire des droits pourra revendiquer une compensation financière (comme auteur), ainsi qu’un dédommagement pour l’utilisation non autorisée de son œuvre. Par ailleurs, l’affaire New York Times vs OpenAI est un parfait exemple (vous pouvez cliquez ici pour en savoir davantage).
Il faut bien comprendre qu’en Europe, le consentement est un principe fondamental dans le traitement des données personnelles, notamment en vertu du Règlement Général sur la Protection des Données (RGPD). De ce fait, il conviendra d’analyser les conséquences en cas d’absence de consentement.
La collecte et le traitement des données personnelles
La collecte de données personnelles sans consentement explicite des tiers est strictement interdite par le RGPD. En effet, les entreprises doivent informer les utilisateurs de la manière dont leurs données seront utilisées, afin d’obtenir leur consentement explicite.
Ainsi, les personnes ont le droit de savoir :
Quelles données sont collectées à leur sujet.
Demander l’effacement de ces données, donc exercer leur droit à l’oubli.
Cette brève vient d’aborder la collecte de données provenant de sources qu’on peut considérer comme fiables. Néanmoins, il existe des sources qu’on peut considérer comme non fiables sur Internet. Il existe donc un risque de propagation de fausses informations. De ce fait, il y a aussi des risques juridiques liés à l’entraînement des IA avec de fausses informations, qu’il conviendra également d’analyser.
Attention à la propagation de fausses informations
La diffamation et calomnie
Ainsi, si une IA produit ou diffuse des informations diffamatoires basées sur des données incorrectes, cela peut engendrer des actions en justice pour diffamation publique. De ce fait, les plateformes peuvent être tenues responsables de la diffusion de telles informations.
La responsabilité des producteurs de contenu
C’est dans ce contexte de récupération de données que les créateurs et les opérateurs de systèmes d’IA peuvent être tenus responsables si leur produit cause des dommages à autrui en diffusant des informations erronées. Il est même possible d’envisager des poursuites pour négligence, en l’absence de mesures adéquates pour vérifier la véracité des données récoltées (légalement ou non).
Mieux encadrer la diffusion de l’information sur le web
Par conséquent, pour répondre à ces nouveaux défis, de nouvelles mesures réglementaires et technologiques peuvent être envisagées. En effet, il est nécessaire de renforcer le cadre numérique européen (vous pouvez cliquez ici pour consulter notre legal design pour en savoir davantage). Par ailleurs, des accords de licence entre les détenteurs de droits d’auteur et les entreprises utilisant des robots pour collecter des données pourraient fournir une solution légale pour l’utilisation des contenus protégés. Par exemple, le détenteur s’assure de l’exactitude des informations mises à disposition, et l’entreprise s’assure de rémunérer le détenteur et de préciser qu’il est l’auteur. Enfin, les algorithmes de fact-checking, ainsi que les bases de données de sources fiables (gouvernement, universités, revues scientifiques, etc.) peuvent aider à réduire le risque de propagation de fausses informations.
Copyright © 2024 Legalturing. Tous droits réservés.
Inspiration
Rendre le droit accessible à tout le monde.
Copyright © 2024 - 2025 legalturing. Tous droits réservés.
Nos réseaux sociaux
Nos vidéos
FAQ & nous contacter