Les fichiers PDF sont comme des coffres-forts numériques contenant des informations cruciales, mais extraire ces données a été un véritable casse-tête pour les experts en données et les entreprises. Bien que ces documents numériques soient essentiels pour stocker des recherches scientifiques jusqu’aux dossiers gouvernementaux, leur format rigide attrape fréquemment les données, compliquant leur lecture et leur analyse par des machines.
Derek Willis, un enseignant en journalisme de données à l’Université du Maryland, souligne qu’une partie du problème réside dans le fait que les PDF ont été conçus à une époque où le design d’impression dominait le logiciel de publication. Beaucoup de ces documents sont, en essence, des images d’informations, ce qui signifie que un logiciel de Reconnaissance Optique de Caractères (OCR) est nécessaire pour convertir ces images en données, surtout si l’original est ancien ou comprend de l’écriture manuscrite.
Un aperçu de l’histoire de l’OCR
La technologie de reconnaissance optique de caractères existe depuis les années 70 et a été popularisée par Ray Kurzweil, qui a développé des systèmes commerciaux facilitant la lecture de textes pour les personnes aveugles. Bien que l’OCR traditionnel soit efficace avec des documents clairs et simples, il échoue souvent face à des polices inhabituelles, des colonnes multiples, des tableaux ou des numérisations de basse qualité.
Malgré ses limitations, l’OCR traditionnel reste courant dans de nombreux flux de travail en raison de sa fiabilité. Cependant, avec l’essor des modèles de langage de grande taille (LLMs), les entreprises recherchent de nouvelles façons d’aborder la lecture de documents.
L’arrivée des modèles de langage dans l’OCR
Contrairement aux méthodes OCR traditionnelles, les LLMs multimodaux sont conçus pour analyser le texte et les images, traitant les documents de manière plus intégrale. Par exemple, ChatGPT peut lire un fichier PDF téléchargé sur son interface, abordant à la fois le contenu textuel et les éléments visuels simultanément.
Willis a observé que les LLMs qui excellent dans ces tâches se comportent souvent de manière plus similaire à celle d’un être humain. Bien que certains systèmes OCR traditionnels, comme Amazon Textract, soient efficaces, les LLMs offrent un avantage en considérant un contexte plus large lors de l’interprétation de motifs inhabituels dans les documents.
Nouvelles initiatives en OCR basé sur LLM
Avec la demande croissante de solutions de traitement de documents, de nouvelles entreprises émergent sur le marché. Mistral, une société française, a lancé Mistral OCR, une API spécialisée dans le traitement de documents.
Willis souligne que Google est actuellement en tête du domaine avec son modèle Gemini 2.0, qui a prouvé qu’il pouvait gérer des documents compliqués avec un nombre minimum d’erreurs, grâce à sa capacité à traiter des documents longs et à son traitement robuste du contenu manuscrit.
Défis de l’OCR basé sur LLM
Malgré les promesses des LLMs, ils présentent de nouveaux problèmes dans le traitement des documents. Ces modèles peuvent générer des confusions ou des “hallucinations”, où ils produisent des informations plausibles mais incorrectes. Willis avertit que les LLMs omettent parfois des lignes dans des documents plus volumineux, une erreur peu probable dans les systèmes OCR traditionnels.
L’interprétation incorrecte des tableaux, en particulier dans des documents financiers ou médicaux, peut avoir des conséquences graves, ce qui signifie qu’une supervision humaine attentive est souvent nécessaire. Les outils OCR basés sur LLM doivent être utilisés avec précaution, car une confiance aveugle en leur précision peut entraîner des erreurs coûteuses.
Malgré les avancées, il n’existe toujours pas de solution OCR parfaite. La course pour libérer des données des PDF continue, avec des entreprises comme Google explorant des produits d’intelligence artificielle générative qui sont conscients du contexte. À mesure que ces technologies s’améliorent, elles pourraient débloquer un vaste potentiel de connaissances qui restent piégées dans des formats numériques, ouvrant de nouvelles opportunités pour l’analyse des données.