Imaginez un monde où les intelligences artificielles peuvent naviguer sur le web avec la même facilité que nous. Cela pourrait devenir réalité grâce à une nouvelle norme appelée llms.txt, proposée par le vétéran de l’IA Jeremy Howard. Cette norme est conçue pour aider les systèmes d’IA à trouver et traiter l’information de manière plus efficace.
Pourquoi est-ce pertinent ? La plupart des pages web actuelles sont conçues pour les humains, ce qui peut compliquer le travail des modèles de langage, car ils ont souvent des difficultés à gérer de grands volumes de texte. Le llms.txt se présente comme une solution à cette difficulté, permettant aux modèles d’accéder à du contenu de manière plus ciblée et conviviale.
Rendre le web plus accessible pour les LLM
Le format du llms.txt est simple et efficace. Chaque fichier commence par le nom du projet et un bref résumé, suivi de détails supplémentaires et de liens vers d’autres documents au format Markdown.
Cette structure est pensée pour améliorer la lecture et la compréhension des sites web par les systèmes d’IA.
De plus, Howard suggère que les propriétaires de sites web offrent des versions Markdown de leurs pages HTML, en ajoutant simplement .md à leurs URLs. Des projets comme FastHTML mettent déjà en œuvre cette approche en générant automatiquement des versions Markdown de leurs documents.
Cette initiative pourrait être particulièrement bénéfique pour les développeurs et les bibliothèques de code, car elle faciliterait la compréhension d’informations structurées par les IA. L’entreprise d’IA Anthropic a également téléchargé son propre llms.txt pour sa documentation, soulignant l’importance de cette norme.
Collaboration avec les normes web existantes
Le llms.txt n’arrive pas pour remplacer, mais pour coexister avec des outils web déjà connus, comme robots.txt et sitemap.xml. Alors que ces normes aident les moteurs de recherche à explorer les pages, le llms.txt se concentre sur l’aide aux IA pour identifier et comprendre le contenu le plus pertinent d’un site, y compris des liens vers des ressources supplémentaires.
La clé du succès de cette nouvelle norme réside dans son adoption par les développeurs web. Si suffisamment de sites commencent à utiliser llms.txt, nous pourrions assister à un changement radical dans la manière dont les IA lisent et comprennent le contenu en ligne.
Cependant, des questions essentielles sur l’avenir du web se posent également. Qui est responsable lorsque une IA réécrit le contenu d’un site ? Comment le droit d’auteur des propriétaires est-il protégé ? Ces interrogations attendent encore des réponses claires de la part des laboratoires d’IA.