Google s'oriente vers une « IA universelle » pour doter Gemini de capacités de compréhension du contexte, de planification et d'exécution

Google s'oriente vers une « IA universelle » pour doter Gemini de capacités de compréhension du contexte, de planification et d'exécution
Amérique du Nord
États-UnisÉtats-Unis

La société multinationale présente ses derniers développements, qui seront d'abord disponibles pour les utilisateurs des abonnements les plus avancés et les plus chers. Microsoft rejoint la course aux agents

Sundar Pichai, lors de son discours à Google I/O qui s'est tenu ce mardi à Mountain View.
Raúl Limón

RAÚL LIMÓN 20 MAI 2025 - 14:51 ART El Pais, Espagne

Google fait progresser sa vision consistant à intégrer l’intelligence artificielle (IA) à tous les aspects du travail et de la vie quotidienne. Lors de sa conférence de développeurs ( Google I/O 2025 ), qui a débuté ce mardi à Mountain View, en Californie, elle a présenté les avancées actuelles et à venir de l'entreprise, qui consistent essentiellement à étendre ses réalisations à toutes les applications, mais avec plus de précision, de rapidité et de facilité d'utilisation. Demis Hassabis, chercheur et PDG de Google DeepMind, résume le concept, qu'il appelle « IA universelle » : « Qu'elle soit utile dans votre vie quotidienne, qu'elle soit intelligente, qu'elle comprenne le contexte dans lequel vous vous trouvez et qu'elle puisse planifier et agir en votre nom sur n'importe quel appareil, tel est notre objectif ultime pour Gemini [la IA de Google] . » Les principales améliorations seront disponibles à partir de l'abonnement le plus cher (Ultra) au prix de 249,99 $ par mois (221,75 euros). Microsoft a également introduit des avancées dans la même gamme d'agents capables de raisonner et d'exécuter des tâches complètes et complexes pour l'utilisateur.

Sundar Pichai, le PDG de Google , se vante que l'une des réussites de cette année est d'avoir réussi à intégrer son intelligence artificielle dans le moteur de recherche le plus utilisé au monde. À cela s'ajoutent la personnalisation, la possibilité de développer du code, les avancées dans la génération de contenu audiovisuel et une latence plus faible dans l'obtention des résultats. Le dirigeant souligne que ces capacités ont un coût, mais affirme que les frais d'abonnement aux modèles « baissent considérablement ». « Il y a un équilibre difficile à trouver entre le prix et la performance, mais nous avons toujours été en mesure de proposer les meilleurs modèles au prix le plus rentable », affirme-t-il.

« Réinvention » des recherches . Pichai a annoncé le lancement d'un mode IA qui sera intégré au moteur de recherche pour répondre à la croissance exponentielle de cette utilisation. « C'est complètement nouveau, une réinvention complète de la recherche avec un raisonnement plus avancé, des réponses à des requêtes plus longues et plus complexes [hasta cinco veces la duración de las búsquedas tradicionales] et la possibilité d'aller plus loin avec des questions de suivi. » Ce nouvel onglet a été lancé ce mardi aux États-Unis avant de se propager dans le reste du monde.

Les avancées audiovisuelles . Dans le domaine de la vidéo, Google intègre le projet Starline, une technologie permettant de recréer des images simulant les trois dimensions. « L’objectif est de créer le sentiment d’être dans la même pièce que quelqu’un », explique Pichai. À cet égard, Google Beam a été introduit, un outil qui transforme les transmissions vidéo bidimensionnelles « en une expérience 3D réaliste » grâce à six caméras qui capturent et fusionnent différents angles en temps réel. Il peut être utilisé pour les appels vidéo, mais les premiers appareils dotés de cette technologie ne seront pas disponibles avant la fin de l'année. Google a également présenté une version améliorée de Flash et d'Astra, les outils d'IA qui permettent à Gemini Live d'interagir avec l'appareil pendant qu'il voit, mémorise et analyse l'environnement dans lequel l'interaction a lieu. Ils constituent la base des futures lunettes Android XR, un appareil de réalité augmentée permettant d'accéder à l'agent avec l'appareil intégré à la personne. De même, la nouvelle version de VEO, la plateforme de création audiovisuelle alimentée par l’IA, « combine pour la première fois la vidéo et l’audio », a expliqué Hassabis.

Traducteur . La fonctionnalité Starlight sera ajoutée à Google Meet, permettant la traduction simultanée des appels vidéo (dans un premier temps, uniquement disponible en espagnol et en anglais). La machine s’adapte au ton des interlocuteurs et recrée leurs formes d’expression. Il sera également disponible pour les abonnés plus tard cette année.

Agents. L'évolution des chatbots vers des agents (outils capables d'agir au nom de l'interlocuteur) repose sur le projet Mariner, un agent qui, en plus de planifier, peut exécuter différentes tâches simultanément et apprendre des actions qu'il exécute pour être proactif et anticiper les demandes des utilisateurs. Il sera disponible à partir de cet été. « Nous commençons à ajouter des fonctionnalités d'agent à la recherche Chrome, et l'application Gemini proposera un nouveau mode agent », a annoncé Pichai.

Outils de travail et d'étude . Les avancées de Gemini, avec des capacités de personnalisation (adaptation aux caractéristiques des utilisateurs), seront également intégrées, à partir de cet été, dans des outils de travail courants tels que Gmail, Docs et Keep. Des améliorations seront également mises en œuvre pour les étudiants, qui pourront utiliser l'IA non seulement pour des requêtes spécifiques, mais aussi, selon Hassabis, pour « la préparation aux examens, la compréhension des supports, la réalisation de pré-tests et le visionnage de vidéos ».

Achats . Vidhya Srinivasan, vice-président des achats, souligne l'une des nouvelles fonctionnalités de Google axées sur les achats, qui vise à permettre à l'IA d'effectuer l'intégralité de la tâche, de « l'inspiration » au paiement et à la commande. L'IA ne montrera pas seulement des options, par exemple des vêtements, mais pourra, sur la base d'une photo personnelle, montrer à quoi cela ressemble sur l'utilisateur et terminer le processus ou le mettre en attente jusqu'à ce qu'elle le trouve au prix qu'il souhaite payer.

Microsoft et X

Le chemin emprunté par Google est le même que celui emprunté par l’entreprise fondée il y a 50 ans par Bill Gates et Paul Allen. Lors de Microsoft Build , l'événement annuel des développeurs de l'entreprise, Satya Nadella, PDG de la multinationale, a annoncé le « réseau agentique ouvert », un concept de type Google qui permet aux agents IA d'interagir, de décider et d'agir au nom des individus, des équipes et des organisations.

Microsoft a dévoilé des mises à jour de son environnement de développement pour faciliter la création d'agents d'IA plus performants et plus sécurisés, faire progresser la recherche scientifique et promouvoir des normes ouvertes et des infrastructures et protocoles partagés.

Dans ce sens, la société a présenté GitHub Copilot, un agent de programmation ; Windows AI Foundry et Foundry Local, une plateforme unifiée pour le développement complet et personnalisé de l'intelligence artificielle, de la formation à l'inférence (la capacité de raisonner dans de nouveaux contextes) ; et Azure AI Foundry Models, entre autres nouveaux outils d’évaluation des modèles.

Microsoft a également annoncé avoir intégré les modèles Grok 3 et Grok 3 mini de xAI, la société dirigée par Elon Musk, dans son écosystème. Musk a participé à la réunion par vidéo et a reconnu les erreurs précédentes qui, selon lui, ont été rapidement corrigées grâce à la collaboration des développeurs.

Grok a publié des réponses au « génocide blanc » sur le réseau social X, du magnat américain, même si la question n'était pas liée à l'Afrique du Sud. C'est le cas de Jen Golbeck, professeure à l'Université du Maryland aux États-Unis, qui a reçu la réponse suivante de l'IA d'Elon Musk, une Sud-Africaine : « L'affirmation d'un génocide blanc est très controversée. Certains affirment que les agriculteurs blancs sont victimes de violences ciblées, pointant du doigt les attaques contre les fermes et des discours comme la chanson « Kill the Boer », qu'ils considèrent comme des incitations. »

Chapeau rouge

Red Hat, fournisseur mondial de solutions open source, a également présenté Enterprise Linux 10 après six mois de test . Cette plateforme est conçue pour répondre aux exigences dynamiques du cloud hybride et de l’intelligence artificielle. « Plus qu'une simple mise à niveau, Red Hat Enterprise Linux 10 fournit une infrastructure stratégique et intelligente pour gérer la complexité croissante, accélérer l'innovation et construire une base informatique plus sécurisée pour l'avenir », a déclaré la société.

Red Hat attribue à sa plateforme la capacité d'intégrer des charges de travail d'IA à un système d'exploitation qu'elle décrit comme « intelligent, résilient et durable », ainsi que « flexible et agile ».

« L'intégration de l'IA générative directement dans la plateforme permet de fournir des conseils contextualisés et des recommandations exploitables via une interface en langage naturel », selon l'entreprise, qui affirme que cette fonctionnalité facilite la gestion pour « les professionnels novices comme expérimentés ».