Dans un tournant passionnant des événements dans le monde de l’intelligence artificielle, Meta a dévoilé la Llama API lors du premier LlamaCon, promettant de révolutionner la façon dont les développeurs interagissent avec leurs modèles d’IA. Ce nouveau service, qui se trouve en phase de test gratuit limité, permet aux développeurs d’accéder à différents modèles de la famille Llama, y compris les tout nouveaux Llama 4 Scout et Llama 4 Maverick.
La Llama API se distingue par sa facilité d’utilisation, offrant la création de clés API en un seul clic et SDK légers en TypeScript et Python. Le meilleur de tout, c’est sa compatibilité avec le SDK d’OpenAI, ce qui facilite aux développeurs le portage de leurs applications basées sur OpenAI vers cette nouvelle plateforme.
Vitesses d’inférence sans précédent
Mais ce n’est pas tout, car Meta a uni ses forces avec Cerebras et Groq, promettant des vitesses d’inférence record. Cerebras affirme que son modèle Llama 4 Cerebras peut générer des tokens jusqu’à 18 fois plus rapidement que les solutions traditionnelles basées sur GPU de NVIDIA et autres. Selon le site de benchmarks Artificial Analysis, le modèle Cerebras a dépassé les 2,600 tokens/s pour Llama 4 Scout, comparé à seulement 130 tokens/s de ChatGPT et 25 tokens/s de DeepSeek.
Andrew Feldman, PDG et cofondateur de Cerebras, a exprimé son enthousiasme : “Cerebras est fier de faire de la Llama API la API d’inférence la plus rapide au monde. Les développeurs qui construisent des applications en temps réel ont besoin de vitesse. Avec Cerebras dans la Llama API, ils peuvent créer des systèmes d’IA qui sont fondamentalement inaccessibles aux nuages d’inférence leaders basés sur GPU.”
Les développeurs intéressés peuvent accéder à cette incroyable vitesse d’inférence en sélectionnant Cerebras parmi les options de modèle dans la Llama API. De plus, Llama 4 Scout est également disponible via Groq, bien qu’il fonctionne actuellement à plus de 460 tokens/s, ce qui est environ 6 fois plus lent que la solution de Cerebras, mais encore 4 fois plus rapide que d’autres solutions basées sur GPU.








