L'IA dévore vos données : elle sait ce que vous recherchez, faites ou téléchargez, et les utilise

L'IA dévore vos données : elle sait ce que vous recherchez, faites ou téléchargez, et les utilise

 

Les entreprises utilisent le besoin d’amélioration comme prétexte pour collecter et utiliser des informations sur les activités personnelles afin de former leurs modèles et de les vendre à des « prestataires de services ».

Les participants au dernier Mobile World Congress testent des appareils dotés d'applications d'intelligence artificielle.
L'intelligence artificielle (IA) est une véritable goinfre de données. Son efficacité repose sur les données, mais la rareté de ces ressources dans les proportions nécessaires constitue un problème majeur, notamment pour les agents d'IA, ces chatbots capables d'agir au nom de l'utilisateur et d'effectuer des achats, de répondre aux e-mails ou de gérer les factures et les agendas, parmi des dizaines d'autres possibilités. Pour ce faire, ils doivent connaître l'interlocuteur, son historique et violer sa vie privée, même avec son autorisation. Les grandes entreprises technologiques étudient déjà comment résoudre ce problème sur plusieurs fronts. Mais en attendant, l'accès aux données, selon Hervé Lambert, responsable des opérations du service client chez Panda Security , présente un risque de « manipulation commerciale, d'exclusion, voire d'extorsion ».

L'accès aux informations privées a été confirmé par des chercheurs de l'University College London (UCL) et de l'Université méditerranéenne de Reggio de Calabre dans une étude présentée lors du symposium sur la sécurité USENIX à Seattle, Washington. Selon cette étude, les extensions de navigateur utilisant l'IA se livrent à des pratiques généralisées de suivi, de profilage et de personnalisation qui soulèvent de graves préoccupations en matière de confidentialité.

Lors de tests utilisant un profil utilisateur inventé par les chercheurs, les assistants IA ont transmis à leurs serveurs le contenu de leurs recherches, notamment des données bancaires et médicales, ainsi que l'adresse IP de l'utilisateur. Tous ont démontré leur capacité à déduire des attributs tels que l'âge, le sexe, les revenus et les centres d'intérêt des utilisateurs, et ont utilisé ces informations pour personnaliser les réponses, même entre différentes sessions de navigation. Un seul assistant, Perplexity, n'a montré aucun signe de profilage ou de personnalisation.

Les assistants de navigation IA fonctionnent avec un accès sans précédent au comportement en ligne des utilisateurs dans des domaines de leur vie en ligne qui devraient rester privés.

Anna Maria Mandalari, chercheuse en ingénierie et électronique à l'University College London

« Bien que de nombreuses personnes sachent que les moteurs de recherche et les plateformes de réseaux sociaux collectent des informations les concernant à des fins publicitaires ciblées, ces assistants de navigation IA disposent d'un accès sans précédent au comportement en ligne des utilisateurs dans des domaines de leur vie qui devraient rester privés. Bien qu'ils soient pratiques, nos conclusions montrent qu'ils le font souvent au détriment de la vie privée des utilisateurs, sans transparence ni consentement, et parfois en violation de la législation sur la protection de la vie privée ou des conditions d'utilisation de l'entreprise. Cette collecte et ce partage d'informations ne sont pas anodins : sauf vente ou partage de données avec des tiers, dans un monde où les piratages massifs sont fréquents, il est impossible de savoir ce qu'il advient de vos données de navigation une fois collectées », explique Anna Maria Mandalari, auteure principale de l'étude du département d'ingénierie et d'électronique de l'UCL.

Hervé Lambert partage les conclusions de l'étude. « Les entreprises technologiques collectent les données des utilisateurs, y compris les données personnelles, pour former et améliorer les modèles intelligents et d'apprentissage automatique. Cela leur permet d'offrir, pour le dire poliment, des services plus personnalisés. Mais le développement de leurs nouvelles technologies soulève évidemment d'innombrables questions et préoccupations concernant la confidentialité et le consentement des utilisateurs. En fin de compte, nous ignorons comment les entreprises et leurs systèmes intelligents utilisent nos données personnelles. »

Parmi les dangers potentiels que ce spécialiste de la sécurité voit figurent les risques de manipulation commerciale ou géopolitique, d’exclusion, d’extorsion et de vol d’identité.

Et tout cela avec le consentement, conscient ou non, des utilisateurs. « Les plateformes », ajoute Lambert, « mettent à jour leurs politiques de confidentialité, et c'est un peu suspect. En réalité, ces mises à jour – et c'est important – incluent des clauses qui les autorisent à utiliser les données. » Mais dans la grande majorité des cas, les consommateurs acceptent les conditions sans les lire, sans réfléchir, pour assurer la continuité du service ou par pure paresse.

Les plateformes mettent à jour leurs politiques de confidentialité, ce qui est quelque peu suspect. En réalité, ces mises à jour – et c'est important – incluent des clauses qui les autorisent à utiliser les données.

Hervé Lambert, Responsable des opérations du service client chez Panda Security

Google fait partie des entreprises qui viennent de modifier leur politique de confidentialité afin, comme elle l'a annoncé à ses utilisateurs, d'« améliorer ses services ». Dans ses informations, elle reconnaît l'utilisation des interactions avec ses applications d'IA via Gemini et lance une nouvelle fonctionnalité pour empêcher cela. Appelée « Conversation temporaire » , elle permet aux utilisateurs de supprimer leurs requêtes récentes et d'empêcher l'entreprise de les utiliser pour « personnaliser » leurs futures requêtes ou « former des modèles ».

Les utilisateurs doivent se protéger proactivement en utilisant les fonctionnalités « Enregistrer l'activité » et « Gérer et supprimer » . Dans le cas contraire, leurs vidéos seront partagées avec l'entreprise. « Une partie des téléchargements envoyés à partir du 2 septembre, tels que les fichiers, les vidéos, les écrans que vous demandez et les photos partagées avec Gemini, sera également utilisée pour améliorer les services Google pour tous les utilisateurs », prévient la multinationale. Elle utilisera également les données audio collectées par l'IA et les données des enregistrements Gemini Live.

Une partie des téléchargements soumis à partir du 2 septembre, tels que les fichiers, les vidéos, les écrans que vous demandez et les photos partagées avec Gemini, seront également utilisés pour améliorer les services Google pour tous les utilisateurs.

Google

« Comme auparavant, lorsque Google utilise votre activité pour améliorer ses services (y compris l'entraînement de modèles d'IA générative), il s'appuie sur des examinateurs humains. Afin de protéger votre vie privée, nous dissocions les conversations de votre compte avant de les envoyer à des prestataires de services », explique l'entreprise dans un communiqué, admettant que, bien qu'elle les dissocie du compte de l'utilisateur, elle utilise et a utilisé des données personnelles (« Comme auparavant ») et les vend ou les partage (« les envoie à des prestataires de services »).

Marc Rivero, chercheur en chef en sécurité chez Kaspersky , reconnaît les risques posés par la divulgation d'informations indiquant l'utilisation des données WhatsApp par l'IA : « Cela soulève de graves préoccupations en matière de confidentialité. Les applications de messagerie privée constituent l'un des environnements numériques les plus sensibles pour les utilisateurs, contenant des conversations intimes, des données personnelles et même des informations confidentielles. Permettre à un outil d'IA d'accéder automatiquement à ces messages sans consentement clair et explicite sape la confiance des utilisateurs. »

Il ajoute : « Du point de vue de la cybersécurité, c’est également inquiétant. Les cybercriminels exploitent de plus en plus l’IA pour étendre leurs attaques d’ingénierie sociale et collecter des données personnelles. Si les attaquants trouvent un moyen d’exploiter ce type d’interactions, nous pourrions assister à une nouvelle émergence de fraudes, d’usurpations d’identité et d’autres activités criminelles. »

Permettre à un outil d’IA d’accéder automatiquement à ces messages sans consentement clair et explicite porte atteinte à la confiance des utilisateurs.

Marc Rivero, chercheur en chef en sécurité chez Kaspersky

WhatsApp nuance cette facilité d'accès en insistant sur le fait que « les messages personnels avec les amis et la famille sont inaccessibles ». Son IA est entraînée par interaction directe avec son compte et, selon l'entreprise, « pour démarrer une conversation, vous devez effectuer une action, comme ouvrir une discussion ou envoyer un message à l'IA ». « Seuls vous ou un participant du groupe pouvez la démarrer ; ni Meta ni WhatsApp ne le peuvent. Discuter avec une IA fournie par Meta ne relie pas les informations personnelles de votre compte WhatsApp à Facebook, Instagram ou toute autre application fournie par Meta », ajoute l'entreprise. Elle émet toutefois un avertissement : « Ce que vous envoyez à Meta peut être utilisé pour vous fournir des réponses précises. Par conséquent, n'envoyez pas à Meta des informations que vous ne souhaitez pas qu'il connaisse. »

Les services de stockage et de transfert de fichiers ont également été critiqués. Le cas le plus récent concerne la modification des conditions d'utilisation de l'application populaire Wetransfer , interprétée comme une demande d'autorisation illimitée des utilisateurs pour améliorer les futurs systèmes d'intelligence artificielle. Face aux inquiétudes des consommateurs quant à la libre disposition potentielle de leurs documents et créations, l'entreprise a été contrainte de revoir la formulation de la clause et d'ajouter un avertissement, « pour être plus clair » : « OUI – votre contenu vous appartient toujours ; OUI – vous nous autorisez à exploiter et à améliorer le service de manière appropriée ; OUI – nos conditions sont conformes aux lois sur la confidentialité, notamment au RGPD [norma de privacidad y protección de datos] ; NON – nous n'utilisons pas votre contenu pour entraîner des modèles d'IA ; et NON – nous ne vendons pas votre contenu à des tiers. »

Face à la prolifération des appareils intelligents, qui vont bien au-delà des conversations basées sur l'IA, Eusebio Nieva, directeur technique de Check Point Software pour l'Espagne et le Portugal, plaide en faveur d'une réglementation garantissant la transparence et le consentement explicite, de normes de sécurité pour les appareils, ainsi que d'interdictions et de restrictions pour les fournisseurs à haut risque, comme le prévoit la norme européenne. « Les incidents de violation de la vie privée soulignent la nécessité pour les consommateurs, les régulateurs et les entreprises de collaborer pour garantir la sécurité », affirme Nieva.

Lambert partage cet avis et appelle les utilisateurs et les entreprises à la responsabilité dans un nouveau contexte global. Il rejette également l'idée que la réglementation préventive constitue un frein au développement : « Protéger nos utilisateurs ne signifie pas ralentir ; cela signifie que, dès le début d'un projet, nous incluons la protection de la vie privée et de l'empreinte numérique, et ainsi nous serons plus efficaces et efficients dans la protection de nos ressources les plus précieuses : nos utilisateurs. »

Alternatives étudiées par les entreprises technologiques

Les entreprises technologiques sont conscientes des problèmes générés par l’utilisation des données personnelles, non seulement en raison des conflits éthiques et juridiques entourant la vie privée, mais surtout parce que les limitations d’accès à celles-ci, affirment-elles, entravent également le développement de leurs systèmes.

Le fondateur de Meta, Mark Zuckerberg, a concentré son Superintelligence Lab sur « l’IA auto-améliorante », des systèmes capables d’augmenter les performances de l’intelligence artificielle grâce aux avancées dans le matériel (en particulier les processeurs), la programmation (y compris l’auto-programmation) et la formation de l’IA aux grands modèles de langage (LLM) sur lesquels elle est basée.

« Je pense que c'est la voie la plus rapide vers une IA puissante. C'est probablement la chose la plus importante à laquelle nous devrions réfléchir », déclare Jeff Clune, professeur d'informatique à l'Université de la Colombie-Britannique et conseiller de recherche principal chez Google DeepMind, à Grace Huckins lors de la MIT Technology Review .

Preuve de cette « perfectionnement » : les capacités de programmation des ordinateurs, grâce à des outils comme Claude Code et Cursor. « Le plus important, c'est l'assistance au codage », souligne Tom Davidson, chercheur principal à Forethought, une organisation de recherche en IA à but non lucratif du MIT. À cela s'ajoutent les améliorations apportées aux processeurs et au matériel, qui, à leur tour, bénéficient des capacités de l'IA pour proposer des développements plus efficaces.

Mais le goulot d'étranglement que constitue le manque de données pour l'entraînement de l'IA semble avoir trouvé une autre solution : la machine génère elle-même des données synthétiques pour s'entraîner et entraîner les autres. « On n'est plus limité par les données, car le modèle peut générer arbitrairement de plus en plus d'expériences », explique Azalia Mirhoseini, professeure adjointe d'informatique à l'université de Stanford et chercheuse principale chez Google DeepMind, à MIT Huckins.

Et pas seulement des expériences basées sur des données synthétiques, mais aussi des outils et des suggestions pour adapter le comportement aux besoins de l'utilisateur. La startup Sakana AI a créé un système appelé Darwin Gödel Machine, où un agent IA adapte son code pour améliorer ses performances dans les tâches auxquelles il est confronté.

Toutes ces avancées vers une IA qui surpasse l'intelligence humaine en surmontant des obstacles tels que les limitations des données comportent également des risques. Chris Painter, directeur des politiques de l'organisation de recherche en IA à but non lucratif METR, prévient que si l'IA accélère le développement de ses propres capacités, elle pourrait également être utilisée pour le piratage informatique, la conception d'armes et la manipulation humaine.

À cet égard, la nouvelle édition de l'étude State of Cybersecurity Resilience 2025 d'Accenture reflète qu'« une grande majorité des organisations espagnoles (95 %) ne sont pas suffisamment préparées pour protéger leurs systèmes et processus alimentés par cette technologie ».

Selon ce rapport, plus des trois quarts (84 %) des organisations à l’échelle nationale (77 % à l’échelle mondiale) ne disposent pas des pratiques essentielles de sécurité et d’IA nécessaires pour protéger les modèles commerciaux critiques, le trafic de données et l’infrastructure cloud.

« La montée des tensions géopolitiques, la volatilité économique et la complexité croissante des environnements opérationnels, conjuguées aux attaques utilisant l'IA, rendent les organisations plus vulnérables aux cybermenaces. La cybersécurité ne peut plus être une solution de dernier recours. Elle doit être intégrée dès la conception à chaque initiative basée sur l'IA », a déclaré Agustín Muñoz-Grandes, directeur d'Accenture Security en Espagne et au Portugal.

Raúl Limón , El Pais, Espagne