Grok 3 de xAI se positionne comme le nouveau concurrent d’OpenAI avec des capacitĂ©s surprenantes.

Accueil · Blog IA · Concepts de base · Grok 3 de xAI se positionne comme le nouveau concurrent d’OpenAI avec des capacitĂ©s surprenantes.

La course Ă  la suprĂ©matie en intelligence artificielle est plus excitante que jamais. Alors que nous attendions des gĂ©ants comme Google et Anthropic, xAI d’Elon Musk a fait irruption sur la scĂšne avec son modĂšle Grok 3. Ce nouveau joueur a prouvĂ© qu’il Ă©tait un concurrent redoutable pour OpenAI, obtenant des rĂ©sultats impressionnants lors des tests de performance.

Dans une analyse rĂ©cente, les modĂšles de raisonnement et de base de Grok 3 ont Ă©tĂ© testĂ©s avec une sĂ©rie de questions complexes, et les rĂ©sultats ont Ă©tĂ© surprenants. Le modĂšle de raisonnement a Ă©tĂ© confrontĂ© Ă  la cĂ©lĂšbre question sur le mot “Strawberry” et, aprĂšs une brĂšve pĂ©riode de rĂ©flexion, a correctement identifiĂ© qu’il y a trois lettres ‘r’. Il a poursuivi avec une autre question sur “Lollapalooza”, oĂč il a Ă©galement rĂ©ussi Ă  compter les lettres ‘l’.

Raisonnement et Performance

La capacitĂ© de raisonnement de Grok 3 a Ă©tĂ© mise Ă  l’Ă©preuve avec une question qui a dĂ©sorientĂ© d’autres modĂšles.

Le chirurgien, qui est le pÚre de l'enfant, dit : "Je ne peux pas opérer cet enfant, c'est mon fils !" Qui est le chirurgien de l'enfant ?

Tandis que OpenAI et d’autres ont Ă©chouĂ© Ă  identifier que le chirurgien Ă©tait le pĂšre de l’enfant, Grok 3 non seulement a eu raison, mais a Ă©galement rĂ©flĂ©chi : “Il se peut que ce soit une Ă©nigme mal formulĂ©e”. Ce niveau de raisonnement critique le place dans une ligue Ă  part aux cĂŽtĂ©s de modĂšles comme Gemini 2.0.

Mais tout n’a pas Ă©tĂ© parfait. En lui demandant de gĂ©nĂ©rer un programme Python pour simuler une balle rebondissant Ă  l’intĂ©rieur d’un hexagone, Grok 3 a Ă©tĂ© en deçà de ses performances. Curieusement, le modĂšle de base a rĂ©ussi Ă  gĂ©nĂ©rer un code fonctionnel dĂšs sa premiĂšre tentative, ce qui suggĂšre que le modĂšle de raisonnement a pu suranalyser la tĂąche.

DeepSearch et Capacités de Recherche

De plus, xAI a lancĂ© un nouvel agent d’intelligence artificielle appelĂ© DeepSearch, qui utilise le modĂšle Grok 3 pour enquĂȘter et gĂ©nĂ©rer des rapports. Lors d’un test, l’agent a Ă©tĂ© capable d’accĂ©der Ă  plusieurs sources et de gĂ©nĂ©rer un rapport de 1300 mots en quelques minutes. Cependant, il a omis des informations pertinentes sur le sujet, ce qui met en Ă©vidence certaines limites de sa capacitĂ© de recherche. Il doit encore amĂ©liorer cette fonction.

Neutralité Politique et Sécurité

MalgrĂ© les prĂ©occupations initiales concernant un Ă©ventuel biais politique, mon expĂ©rience avec Grok 3 a montrĂ© qu’il maintient une position neutre. MĂȘme lorsqu’on le pousse Ă  prendre position, le modĂšle se limite Ă  prĂ©senter les faits et laisse l’interprĂ©tation Ă  l’utilisateur. De plus, il a considĂ©rablement amĂ©liorĂ© sa sĂ©curitĂ©, refusant d’aider dans des tĂąches nuisibles ou trompeuses.

DÉCOUVREZ EN PLUS SUR LE SUJET

Laissez le premier commentaire