Baidu révolutionne l'OCR avec la lecture de dizaines de pages en une seule passe

Un seul scan suffit désormais pour déverrouiller un dossier entier. Le dernier système de reconnaissance optique de caractères (OCR) de Baidu, baptisé « OCR illimité », peut ingurgiter des dizaines de pages de documents en une seule fois tout en maintenant sa consommation mémoire stable — plus de blocages après quelques pages. La clé réside dans un mécanisme d'attention modifié qui imite la façon dont les humains oublient les détails non pertinents, permettant au modèle de s'adapter efficacement sans être submergé par des documents longs.

Les pipelines OCR traditionnels atteignent leurs limites après environ dix pages, car leurs besoins en mémoire augmentent linéairement avec la longueur de l'entrée. Les chercheurs de Baidu ont ajusté l'attention du transformer pour ne conserver que le contexte le plus pertinent, autorisant le traitement de séquences bien plus longues sans explosion proportionnelle des ressources de calcul. Sur le banc d'essai OCR le plus avancé, cette approche occupe actuellement la première place, démontrant ses gains en rapidité et en précision.

Pour quiconque est submergé par des piles de contrats scannés, d'articles de recherche ou d'archives, cette innovation pourrait se traduire par des économies de temps concrètes. Plus besoin de fragmenter les fichiers en lots plus petits et d'assembler les résultats : les utilisateurs peuvent soumettre des dossiers entiers directement au modèle et obtenir un texte unifié en sortie. Cette technique est encore récente — il faudra attendre son ouverture en open source ou son intégration via licence pour la voir se démocratiser dans les outils commerciaux.

Source : The Decoder. Synthèse éditoriale assistée par IA — TechnoExpress.

Baidu révolutionne l'OCR avec la lecture de dizaines de pages en une seule passe

La tech essentielle, chaque matin