Jeudi, le développeur du modèle de grande langue (LLM) français Mistral a lancé une nouvelle API pour les développeurs qui gèrent des documents PDF complexes. Mistral OCR est une API de reconnaissance de caractères optiques (OCR) qui peut transformer n’importe quel PDF en fichier texte pour faciliter l’ingestion de modèles d’IA.
Les LLM, qui sous-tendent le chat de Genai Tools de Genai Likeai, fonctionnent particulièrement bien avec du texte brut. Ainsi, les entreprises qui souhaitent créer leur propre flux de travail d’IA savent qu’il est devenu extrêmement important de stocker et d’indexer les données dans un format propre afin que ces données puissent être réutilisées pour un traitement.
Contrairement à la plupart des API OCR, Mistral OCR est une API multimodale, ce qui signifie qu’il peut détecter quand il y a des illustrations et des photos entrelacées avec des blocs de texte. L’API OCR crée des boîtes de délimitation autour de ces éléments graphiques et les inclut dans la sortie.
Mistral OCR ne fait pas non plus uniquement sur un grand mur de texte; La sortie est formatée dans Markdown, une syntaxe de formatage que les développeurs utilisent pour ajouter des liens, des en-têtes et d’autres éléments de formatage à un fichier texte brut.
Les LLM comptent le ciel sur Markdown pour leurs ensembles de données de formation. De même, lorsque vous utilisez un assistant d’aide, comme le chat Le Chat de Mistral ou le chatppt d’Openai, ils génèrent souvent une marque pour créer des listes de balles, ajouter des liens ou mettre des éléments en gras. Les applications assistantes formatent de manière transparente la sortie Markdown en une sortie de texte riche. C’est pourquoi le texte brut – et Markdown – sont devenus plus importants ces dernières années car Genai a explosé.
«Au fil des ans, les organisations ont accumulé de nombreux documents, souvent dans des formats PDF ou diapositives, qui sont inaccessibles aux LLM, un système de chiffon particulier. Avec Mistral OCR, nos clients peuvent désormais convertir des documents riches et complexes en contenu lisible dans toutes les langues », a déclaré le co-fondateur de Mistral et directeur des sciences Guillaume Lample.
« Il s’agit d’une étape cruciale vers l’adoption généralisée des assistants de l’IA dans les entreprises qui doivent simplifier l’accès à leur vaste documentation interne », a-t-il ajouté.
Mistral OCR est disponible sur la propre plate-forme API de Mistral ou via ses partenaires cloud (AWS, Azure, Google Cloud Vertex, etc.). Et pour les entreprises travaillant avec des données classifiées ou sensibles, le déploiement de Mistral Offrants sur site.
Selon la société d’IA basée à Paris, Mistral OCR fonctionne mieux que les API de Google, Microsoft et Openai. La société a testé son modèle OCR avec un complexe qui comprend des expressions mathématiques (formatage de latex), des mises en page avancées ou des tables. Il est également censé mieux performer avec des documents non anglais.

Étant donné que Mistral OCR fait une chose et une seule chose, l’entreprise pense que c’est aussi plus rapide qui se trouve. Ce n’est pas une surprise si vous le comparez avec un LLM multimodal comme GPT-4O, qui a également des capacités d’OCR (parmi les autres fonctionnalités de Mary).
Mistral utilise également Mistral OCR pour son propre assistant AI Le Cat. Lorsqu’un utilisateur télécharge un fichier PDF, l’entreprise utilise l’OCR en arrière-plan pour comprendre ce qu’il y a dans le document avant de traiter le texte.
Les entreprises et les développeurs utiliseront très probablement Mistral OCR avec un système de génération RAG (AKA RETRIEVAL-AUGHATED) pour utiliser les documents multimodaux comme entrée dans un LLM. Et il existe de nombreuses utilisations potentielles. Par exemple, nous pourrions envisager des cabinets d’avocats qui l’utilisent pour les aider rapidement à traverser d’énormes volumes de documents.
Le chiffon est une technique qui est utilisée pour récupérer les données et les utiliser comme contexte avec un modèle d’IA génératif.

