Découvrez les agents d’intelligence artificielle et leur fonctionnement dans la nouvelle ère numérique

Accueil · Blog IA · Concepts de base · Découvrez les agents d’intelligence artificielle et leur fonctionnement dans la nouvelle ère numérique

L’intelligence artificielle évolue à grands pas, et il ne s’agit plus seulement de chatbots qui répondent à des questions. Depuis l’arrivée de ChatGPT fin 2022, l’attention s’est tournée vers les agents d’IA pilotés par des actions. Contrairement aux chatbots qui traitent des informations et répondent en langage naturel, ces agents sont capables d’exécuter des tâches complexes de manière autonome. Explorons en profondeur ce que sont les agents d’IA, comment ils fonctionnent et quels sont leurs différents types. Commençons par un tableau récapitulatif avec toutes ces informations, puis passons aux choses sérieuses :

AspectDescription
Différence avec les chatbotsContrairement aux chatbots (par exemple, ChatGPT, Gemini), qui se limitent à traiter et répondre à des informations dans leur environnement, les agents d’IA peuvent invoquer des outils, mémoriser des données à court/long terme et effectuer plusieurs étapes pour accomplir des tâches.
Technologies clésBasés sur de grands modèles de langage (LLMs) ajustés pour l’action, apprentissage par renforcement et modèles de langage visuel ; intègrent des outils externes (APIs, fonctions, GUIs).
Types d’agents1. Réflexifs simples : logique conditionnelle sans mémoire.
2. Réflexifs basés sur modèle : mémoire interne et règles fixes.
3. Basés sur objectifs : planifient pour atteindre des objectifs spécifiques.
4. Basés sur utilité : optimisent une fonction de récompense.
5. Apprentis : s’améliorent avec l’expérience.
Exemples notablesOperator (OpenAI) : navigue et opère des GUIs sur le web pour acheter, réserver et remplir des formulaires (nécessite une supervision humaine).
Deep Research (OpenAI/Gemini) : génère des rapports détaillés avec des citations.
Computer Use (Anthropic) : contrôle un ordinateur via la vision de l’écran.
Manus (Chine).

Qu’est-ce que les Agents d’IA ?

Le terme ‘agent d’IA’ fait référence à un système logiciel qui utilise l’intelligence artificielle pour planifier, raisonner, prendre des décisions et effectuer plusieurs actions afin d’atteindre des objectifs de manière autonome. Contrairement aux chatbots, qui traitent des informations dans un environnement fermé, les agents d’IA interagissent avec des systèmes externes pour accomplir leurs tâches.

Tout comme les chatbots, les agents d’IA fonctionnent avec des grands modèles de langage (LLMs), mais sont ajustés pour être pilotés par des actions. Dans le monde actuel de l’IA, de nombreuses entreprises utilisent l’apprentissage par renforcement et un raisonnement avancé sur des modèles de langage visuel pour développer ces agents. De plus, ils intègrent des outils externes tels que des APIs, des fonctions et des bases de données pour accomplir une variété de tâches.

Essentiellement, les agents d’IA sont plus qu’un modèle ; ils constituent un système d’IA qui permet l’interaction avec des outils, une mémoire à court et long terme, et la connexion avec des systèmes tiers pour réaliser des tâches spécifiques. Un exemple notable est l’agent Operator d’OpenAI, conçu pour interagir avec des interfaces graphiques sur le web.

Cet agent peut naviguer sur Internet, passer des commandes de nourriture, remplir des formulaires et réserver des vols, parmi de nombreuses autres actions. Bien qu’il utilise la capacité de vision de GPT-4 pour analyser des écrans et déterminer où cliquer, il n’est pas complètement autonome et nécessite parfois une supervision humaine pour accomplir des tâches.

Types d’Agents d’IA

Selon Stuart Russell et Peter Norvig dans leur livre ‘Artificial Intelligence: A Modern Approach’, les agents d’IA se classifient en cinq types : agents de réflexion simples, agents de réflexion basés sur des modèles, agents basés sur des objectifs, agents basés sur l’utilité et agents d’apprentissage.

Les agents de réflexion simples fonctionnent avec une logique conditionnelle et sont la forme la plus basique. Ils n’apprennent pas et ne conservent pas de mémoire des motifs. D’autre part, les agents de réflexion basés sur des modèles ont une mémoire et construisent une compréhension de base du monde à partir de leurs actions. Par exemple, un robot aspirateur ajuste son comportement pour éviter les obstacles au fur et à mesure qu’il les détecte.

Les agents basés sur des objectifs ne sont pas limités par des règles et doivent atteindre des objectifs spécifiques, planifiant et raisonnant pour trouver la meilleure façon de les accomplir. Un bon exemple serait une IA qui joue aux échecs, considérant tous les coups possibles pour obtenir une victoire.

Les agents basés sur l’utilité maximisent la « satisfaction » ou « bonheur » par le biais d’une fonction de récompense. Enfin, les agents d’apprentissage ont des capacités similaires à d’autres agents, mais peuvent acquérir de nouvelles connaissances d’un environnement inconnu et s’améliorer avec le temps.

Exemples d’Agents d’IA

Un pionnier dans ce domaine est l’agent Operator d’OpenAI, qui peut effectuer des tâches sur le web via un navigateur dans le cloud. Il peut commander de la nourriture, trouver des hôtels et acheter des billets pour des concerts. Actuellement, il est en prévisualisation de recherche et n’est disponible que pour les abonnés de ChatGPT Pro, qui coûte 200 $ par mois.

En plus d’Operator, OpenAI a lancé l’agent Deep Research, qui approfondit n’importe quel sujet et génère des rapports complets, y compris des citations pour vérifier les informations. On trouve également l’agent Deep Research de Gemini, qui offre des services similaires gratuitement.

D’autre part, Anthropic a introduit l’agent Computer Use, qui peut opérer un ordinateur en analysant visuellement l’écran. Bien qu’il soit un peu lent, il remplit sa fonction. La norme MCP d’Anthropic est adoptée par des entreprises comme Google et Microsoft pour connecter des agents d’IA avec des modèles d’IA.

Récemment, l’agent Manus de Chine est devenu viral, capable de naviguer sur le web, d’exécuter du code et d’interagir avec un ordinateur dans le cloud. Malgré sa démonstration impressionnante, il fonctionne avec le modèle Claude 3.5 d’Anthropic.

Enfin, Google développe le Project Mariner, un agent qui effectuera des tâches dans le navigateur Chrome, similaire à Operator, actuellement en test avec des utilisateurs sélectionnés.

Bien que nous soyons aux premiers jours de l’ère des agents d’IA, il est évident que l’avenir se dirige vers des applications pilotées par des actions. Nous n’avons pas encore atteint un niveau où les modèles d’IA peuvent réaliser des tâches critiques de manière complètement autonome, et les entreprises d’IA intègrent une supervision humaine comme partie du processus.

DÉCOUVREZ EN PLUS SUR LE SUJET

Laisser le premier commentaire