La course Ă la suprĂ©matie en intelligence artificielle est plus excitante que jamais. Alors que nous attendions des gĂ©ants comme Google et Anthropic, xAI d’Elon Musk a fait irruption sur la scĂšne avec son modĂšle Grok 3. Ce nouveau joueur a prouvĂ© qu’il Ă©tait un concurrent redoutable pour OpenAI, obtenant des rĂ©sultats impressionnants lors des tests de performance.
Dans une analyse rĂ©cente, les modĂšles de raisonnement et de base de Grok 3 ont Ă©tĂ© testĂ©s avec une sĂ©rie de questions complexes, et les rĂ©sultats ont Ă©tĂ© surprenants. Le modĂšle de raisonnement a Ă©tĂ© confrontĂ© Ă la cĂ©lĂšbre question sur le mot âStrawberryâ et, aprĂšs une brĂšve pĂ©riode de rĂ©flexion, a correctement identifiĂ© qu’il y a trois lettres ârâ. Il a poursuivi avec une autre question sur âLollapaloozaâ, oĂč il a Ă©galement rĂ©ussi Ă compter les lettres âlâ.
Raisonnement et Performance
La capacitĂ© de raisonnement de Grok 3 a Ă©tĂ© mise Ă l’Ă©preuve avec une question qui a dĂ©sorientĂ© d’autres modĂšles.
Le chirurgien, qui est le pÚre de l'enfant, dit : "Je ne peux pas opérer cet enfant, c'est mon fils !" Qui est le chirurgien de l'enfant ?
Tandis que OpenAI et d’autres ont Ă©chouĂ© Ă identifier que le chirurgien Ă©tait le pĂšre de l’enfant, Grok 3 non seulement a eu raison, mais a Ă©galement rĂ©flĂ©chi : âIl se peut que ce soit une Ă©nigme mal formulĂ©eâ. Ce niveau de raisonnement critique le place dans une ligue Ă part aux cĂŽtĂ©s de modĂšles comme Gemini 2.0.
Mais tout n’a pas Ă©tĂ© parfait. En lui demandant de gĂ©nĂ©rer un programme Python pour simuler une balle rebondissant Ă l’intĂ©rieur d’un hexagone, Grok 3 a Ă©tĂ© en deçà de ses performances. Curieusement, le modĂšle de base a rĂ©ussi Ă gĂ©nĂ©rer un code fonctionnel dĂšs sa premiĂšre tentative, ce qui suggĂšre que le modĂšle de raisonnement a pu suranalyser la tĂąche.
DeepSearch et Capacités de Recherche
De plus, xAI a lancĂ© un nouvel agent d’intelligence artificielle appelĂ© DeepSearch, qui utilise le modĂšle Grok 3 pour enquĂȘter et gĂ©nĂ©rer des rapports. Lors d’un test, l’agent a Ă©tĂ© capable d’accĂ©der Ă plusieurs sources et de gĂ©nĂ©rer un rapport de 1300 mots en quelques minutes. Cependant, il a omis des informations pertinentes sur le sujet, ce qui met en Ă©vidence certaines limites de sa capacitĂ© de recherche. Il doit encore amĂ©liorer cette fonction.
Neutralité Politique et Sécurité
MalgrĂ© les prĂ©occupations initiales concernant un Ă©ventuel biais politique, mon expĂ©rience avec Grok 3 a montrĂ© qu’il maintient une position neutre. MĂȘme lorsqu’on le pousse Ă prendre position, le modĂšle se limite Ă prĂ©senter les faits et laisse l’interprĂ©tation Ă l’utilisateur. De plus, il a considĂ©rablement amĂ©liorĂ© sa sĂ©curitĂ©, refusant d’aider dans des tĂąches nuisibles ou trompeuses.