Depuis plus d’un an, le terme nativement multimodal a résonné dans le monde de l’intelligence artificielle, mais peu ont réussi à tirer pleinement parti de ces capacités. Maintenant, Google a fait son coup avec le lancement de son modèle le plus récent, Gemini 2.0 Flash Experimental, qui permet non seulement de générer des images, mais aussi de les éditer de manière native. Allez, il a donné un petit coup de pouce à Photoshop 🤏🏼…
Pourquoi la génération d’images est-elle si importante ? Bien que la génération d’images par IA soit disponible via des chatbots comme ChatGPT, ceux-ci dépendent souvent de modèles spécialisés comme Dall-E 3 ou Imagen 3, qui sont des extensions du modèle principal et non pas une partie intégrante de celui-ci. En revanche, des modèles comme Gemini sont nativement multimodaux, ce qui signifie qu’ils peuvent comprendre et créer à la fois du texte et des images de manière intrinsèque.
Génération d’Images Natives avec Gemini 2.0 Flash Experimental
Actuellement, cette fonction de génération d’images natives n’est pas disponible pour tous les utilisateurs. Le modèle Gemini 2.0 Flash Experimental peut être testé gratuitement sur le AI Studio de Google et sera bientôt disponible pour un public plus large. Après avoir expérimenté avec ce modèle, je peux dire que l’expérience a été vraiment surprenante.
J’ai commencé par demander à Gemini de créer un guide visuel sur comment faire des macaronis à la bolognaise. Les résultats étaient surprenants, montrant une cohérence remarquable entre les images générées, de la poêle aux ingrédients. Chaque image maintient la même résolution de 1024 x 680, ce qui facilite la création de guides visuels sur n’importe quel sujet.

Ensuite, j’ai demandé à Gemini de générer une pièce vide, et je lui ai demandé des modifications sur la décoration et l’utilité de la pièce. La continuité qu’il a maintenue était incroyable.

Édition d’Images Natives avec Gemini 2.0 Flash Experimental
Pour démontrer la fonction d’édition d’images, j’ai téléchargé une photo de mon garage et lui ai demandé de changer ma voiture pour une Tesla blanche, et le résultat était impressionnant. Enfin, je lui ai demandé d’ajouter des tables avec des ordinateurs, et ainsi il m’a montré le potentiel de l’édition d’images grâce à la capacité multimodale native de Gemini. Ce n’étaient pas parfaites, mais elles étaient très bonnes. De plus, j’ai demandé à Gemini de coloriser une vieille photo en noir et blanc, et le résultat a dépassé mes attentes, avec une qualité visuelle optimale et sans erreurs visibles.
Les possibilités avec Gemini sont vastes et passionnantes. Google a fait un travail admirable en intégrant la génération et l’édition d’images de manière native. Avec le récent lancement de Veo 2 pour la génération de vidéos et Imagen 3 pour la génération d’images spécialisées, il semble que Google ait dépassé OpenAI sur plusieurs aspects, pas seulement en génération de texte. Il sera intéressant de voir comment OpenAI répond à cette avancée avec son ChatGPT.