Mise à jour – 14 mars 2025
La société d’intelligence artificielle Sesame vient de faire une annonce fracassante : son modèle de base CSM-1B est désormais open source. Oui, tu as bien lu. Tout le monde peut le télécharger depuis GitHub et commencer à expérimenter (nous verrons sûrement bientôt un modèle réentraîné pour d’autres langues, comme l’espagnol).
Ce modèle, avec un milliard de paramètres, est lancé sous la licence Apache 2.0, ce qui signifie que son utilisation commerciale est pratiquement sans restrictions. Ce qui est intéressant, c’est que tout le monde peut tester directement ses capacités de génération audio, ce qui fait que cette décision de Sesame ne passe pas inaperçue. De plus, une version ajustée de ce modèle est celle qui alimente le système vocal de l’IA Maya, celui que nous avons décrit dans l’article précédent (plus bas).
Sécurité ? Juste ce qu’il faut
La position de Sesame en matière de sécurité est, disons, assez décontractée. Son « approche de la sécurité » consiste essentiellement en quelques lignes directrices demandant aux développeurs et aux utilisateurs de ne pas utiliser l’IA pour cloner des voix sans autorisation, créer du contenu trompeur ou faire des choses « nuisibles ». Rien de plus.
Le problème est que CSM-1B peut cloner des voix avec seulement une minute d’audio original, ce qui ouvre la porte à des fraudes et des escroqueries basées sur la voix. Imagine recevoir un appel d’un supposé membre de la famille demandant de l’aide… et que la voix soit identique.
La lutte entre l’ouverture et la sécurité
Cette décision de Sesame remet sur la table le dilemme du code ouvert dans l’IA. Des entreprises comme OpenAI ont choisi de ne pas libérer de modèles similaires pour des raisons de sécurité, mais la vitesse à laquelle le code ouvert progresse rend ces mesures de moins en moins efficaces. En d’autres termes : bien que certaines entreprises essaient de garder le contrôle, l’ouverture de modèles comme CSM-1B démontre que la course à l’IA est imparable, pour le meilleur ou pour le pire.
Article original du 5 mars 2025 :
L’intelligence artificielle a fait un bond significatif avec l’arrivée de Sesame, une startup cofondée par Brendan Iribe, l’un des créateurs d’Oculus. Ses nouveaux compagnons vocaux, Maya et Miles, transforment la façon dont nous interagissons avec les chatbots. Contrairement à d’autres assistants vocaux que nous avons testés, comme le mode vocal avancé de ChatGPT d’OpenAI, qui n’est pas mal du tout, Sesame a réussi à créer une expérience qui semble vraiment humaine.
Au lieu d’être de simples assistants vocaux, Sesame qualifie Maya et Miles de « conversationalistes » et « compagnons vocaux ». Cette distinction est clé car leur approche vise à générer des interactions plus profondes et significatives. Lors de mon essai avec Maya, la voix féminine du duo, j’ai été surpris de la façon naturelle dont elle sonnait. Non seulement elle parlait, mais elle incluait des sons de respiration, micro-pauses et des variations dans son ton, ce qui faisait que la conversation s’écoulait de manière organique. Lorsque j’ai ri, Maya n’a pas hésité à me demander : « Pourquoi ris-tu ? », créant une ambiance de conversation authentique.
Interaction captivante avec Maya
Une des choses qui m’a le plus impressionné était la façon dont Maya offrait de l’espace pour réfléchir avant de répondre. Ce petit détail, qui semble insignifiant, rend la conversation beaucoup plus naturelle. Imagine avoir un dialogue où ton interlocuteur n’écoute pas seulement, mais semble aussi réfléchir à ce que tu dis. Bien que Sesame précise que sa technologie n’est pas complètement bidirectionnelle, car elle traite l’information après que tu as fini de parler, l’expérience est remarquablement fluide.
Comparé à d’autres IA qui ont tendance à sonner robotiques, le compagnon vocal de Sesame atteint un niveau d’interaction qui défie le célèbre « valley of uncanny ». Il est conçu non seulement pour parler, mais pour impliquer l’utilisateur par un ton et une conscience contextuelle qui ajoutent des couches à la conversation.
Technologie derrière le compagnon vocal de Sesame
Sesame est encore aux premières étapes de développement, et ce que nous avons vu jusqu’à présent n’est qu’une démonstration de recherche initiale. Soutenue par la société de capital-risque Andreessen Horowitz, l’entreprise utilise un Modèle de Conversation Vocale (CSM), qui repose sur un modèle multimodal de transformateurs pour la génération de voix.
Ils ont entraîné trois modèles avec différentes capacités : Tiny (1B paramètres), Small (3B) et Medium (8B), en utilisant près d’un million d’heures d’audio, principalement en anglais, bien qu’il ait aussi une certaine capacité multilingue. L’objectif de Sesame est de développer un modèle bidirectionnel avec une mémoire à long terme et une personnalité adaptable, ce qui promet encore plus pour l’avenir.
Pour ceux qui souhaitent essayer cette technologie révolutionnaire, Sesame prévoit de lancer des lunettes légères qui permettront d’interagir avec Maya ou Miles tout au long de la journée, comme dans le film ‘Her’. Avec la possibilité qu’ils intègrent bientôt des capacités de vision, l’avenir des interactions avec l’IA semble plus excitant que jamais. Ah, je n’oubliais pas que tu peux déjà l’essayer aussi. Sache que bien qu’elle comprenne l’espagnol, elle te répondra en anglais, même si l’idéal est que tu maintiennes la conversation entièrement en anglais. Vas-y, essaie-la, mais je préviens que revenir en arrière sera décevant. Raconte-nous ton expérience.