Notebookcheck Logo

Mistral OCR convierte con precisión documentos complejos en archivos editables con IA

Mistral OCR utiliza la IA para convertir con precisión documentos impresos y PDF en archivos editables. (Fuente de la imagen: Mistral)
Mistral OCR utiliza la IA para convertir con precisión documentos impresos y PDF en archivos editables. (Fuente de la imagen: Mistral)
Mistral ha presentado su API de reconocimiento óptico de caracteres para que las empresas puedan convertir grandes cantidades de documentos en archivos digitales editables de forma rápida y precisa.

Mistral ha lanzado un nuevo producto llamado Mistral OCR, una API de reconocimiento óptico de caracteres impulsada por IA y diseñada para convertir documentos impresos en archivos digitales.

Existen millones de documentos impresos y archivos PDF no editables, incluidos antiguos registros de nacimiento y libros. El software de reconocimiento óptico de caracteres convierte el texto y el diseño de estos materiales originales en archivos digitales editables. Aunque los programas de OCR convierten fácilmente y con precisión los documentos de texto sin formato, suelen tener problemas con las tablas y gráficos complejos, así como con los idiomas extranjeros.

Mistral OCR se ha creado específicamente pensando en la conversión de documentos complejos y multilingües. La precisión de Mistral en la conversión de texto en 11 idiomas oscila entre un mínimo del 97,00% y un máximo del 99,54%, mejor que el rendimiento de las ofertas de OCR AI de Microsoft y Google. Su precisión también es superior a la de los competidores probados para las conversiones de documentos complejos, como los que implican matemáticas o tablas.

Actualmente, la API de OCR de Mistral está limitada a documentos cargados de menos de 50 MB de tamaño y menos de 1.000 páginas de longitud. Los documentos impresos deben digitalizarse primero con escáneres como éste de Amazon, mientras que los archivos PDF, las imágenes y los sitios web pueden procesarse directamente.

El OCR de Mistral obtiene mejores resultados que sus competidores en documentos complejos. (Fuente de la imagen: Mistral)
El OCR de Mistral obtiene mejores resultados que sus competidores en documentos complejos. (Fuente de la imagen: Mistral)
Mistral OCR gestiona la conversión de texto en una docena de idiomas mejor que sus competidores. (Fuente de la imagen: Mistral)
Mistral OCR gestiona la conversión de texto en una docena de idiomas mejor que sus competidores. (Fuente de la imagen: Mistral)
Sólo se necesitan unas pocas líneas de código Python para utilizar la API OCR de Mistral. (Fuente de la imagen: Mistral)
Sólo se necesitan unas pocas líneas de código Python para utilizar la API OCR de Mistral. (Fuente de la imagen: Mistral)
 

Mistral OCR

Presentamos la mejor API de comprensión de documentos del mundo.

Investigación

6 de marzo de 2025

Equipo Mistral AI

A lo largo de la historia, los avances en la abstracción y recuperación de la información han impulsado el progreso humano. De los jeroglíficos a los papiros, de la imprenta a la digitalización, cada salto ha hecho que el conocimiento humano sea más accesible y procesable, impulsando una mayor innovación.

Hoy nos encontramos en el precipicio del próximo gran salto: desbloquear la inteligencia colectiva de toda la información digitalizada. Aproximadamente el 90% de los datos organizativos del mundo se almacenan en forma de documentos y, para aprovechar este potencial, presentamos Mistral OCR.

Mistral OCR es una API de reconocimiento óptico de caracteres que establece un nuevo estándar en la comprensión de documentos. A diferencia de otros modelos, Mistral OCR comprende cada elemento de los documentos -medios, texto, tablas, ecuaciones- con una precisión y una cognición sin precedentes. Toma imágenes y PDF como entrada y extrae el contenido de forma ordenada intercalando texto e imágenes.

Como resultado, Mistral OCR es un modelo ideal para utilizar en combinación con un sistema RAG que tome como entrada documentos multimodales (como diapositivas o PDF complejos).

Hemos convertido a Mistral OCR en el modelo por defecto para la comprensión de documentos entre millones de usuarios de Le Chat, y estamos lanzando la API mistral-ocr-latest a 1000 páginas / $ (y aproximadamente el doble de páginas por dólar con inferencia por lotes). La API está disponible desde hoy en nuestra suite para desarrolladores la Plateforme, y próximamente para nuestros socios de inferencia y en la nube, así como en las instalaciones.

Aspectos destacados

Comprensión de vanguardia de documentos complejos

Multilingüe y multimodal de forma nativa

Puntos de referencia de primer nivel

El más rápido de su categoría

Doc-as-prompt, salida estructurada

Selectivamente disponible para autoalojamiento para organizaciones que manejan información altamente sensible o clasificada

Sumerjámonos en cada uno de ellos

Comprensión de vanguardia de documentos complejos

Mistral OCR destaca en la comprensión de elementos complejos de documentos, incluidas imágenes intercaladas, expresiones matemáticas, tablas y diseños avanzados como el formato LaTeX. El modelo permite una comprensión más profunda de documentos ricos, como artículos científicos con cuadros, gráficos, ecuaciones y figuras.

A continuación se muestra un ejemplo del modelo extrayendo texto e imágenes de un PDF determinado en un archivo markdown. Puede acceder al cuaderno aquí.

A continuación tenemos comparaciones lado a lado de PDFs y sus respectivos resultados de OCR. Pase el cursor por encima para alternar entre la entrada y la salida.

Tablas + Figuras

3 Ejemplo

Resultado OCR

3 OCR

Matemáticas

4 Ejemplo

Resultado OCR

4 Ocr

Hindi

5 Ejemplo

Resultado OCR

Ocr hindi

Documento

6 Ejemplo

Resultado OCR

6 Ocr

Árabe

7 Ejemplo

Resultado OCR

OCR árabe

Puntos de referencia de primer nivel

Mistral OCR ha superado sistemáticamente a otros modelos líderes de OCR en rigurosas pruebas de referencia. A continuación se ilustra su precisión superior en múltiples aspectos del análisis de documentos. Extraemos imágenes incrustadas de los documentos junto con el texto. Los otros LLM comparados a continuación no tienen esa capacidad. Para que la comparación sea justa, los evaluamos en nuestro conjunto de pruebas interno de "sólo texto" que contiene varios documentos de publicaciones, y PDF de la web; a continuación:

Modelo Global Matemático Multilingüe Escaneado Tablas

Google Document AI 83,42 80,29 86,42 92,77 78,16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89,92 88,48 86,33 96,15 89,71

Gemini-2.0-Flash-001 88,69 84,18 85,80 95,11 91,46

GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70

Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12

Nativamente multilingüe

Desde la fundación de Mistral, hemos aspirado a servir al mundo con nuestros modelos y, en consecuencia, nos hemos esforzado por disponer de capacidades multilingües en toda nuestra oferta. Mistral OCR lleva esto a un nuevo nivel, siendo capaz de analizar, comprender y transcribir miles de escrituras, fuentes e idiomas en todos los continentes. Esta versatilidad es crucial tanto para las organizaciones globales que manejan documentos de diversos orígenes lingüísticos, como para las empresas hiperlocales que sirven a nichos de mercado.

Modelo Fuzzy Match en la generación

Google-Document-AI 95,88

Gemini-2.0-Flash-001 96.53

Azure OCR 97,31

Mistral OCR 2503 99,02

Benchmarks por idioma:

Idioma Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97,35 95,56 96,58 99,09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91.40 90.89 91.85 97.11

pt 97,96 96,24 97,25 99,42

de 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

tr 95.91 93.85 94.66 97.00

uk 97.81 96.24 96.70 99.29

it 98.31 97.69 97.68 99.42

ro 96,45 95,14 95,88 98,79

El más rápido de su categoría

Al ser más ligero que la mayoría de los modelos de la categoría, Mistral OCR rinde significativamente más rápido que sus compañeros, procesando hasta 2000 páginas por minuto en un solo nodo. La capacidad de procesar rápidamente los documentos garantiza un aprendizaje y una mejora continuos incluso en entornos de alto rendimiento.

Doc-as-prompt, salida estructurada

Mistral OCR también introduce el uso de documentos como indicaciones, lo que permite obtener instrucciones más potentes y precisas. Esta capacidad permite a los usuarios extraer información específica de los documentos y formatearla en salidas estructuradas, como JSON. Los usuarios pueden encadenar las salidas extraídas en llamadas a funciones posteriores y crear agentes. Consulte este cuaderno de ejemplo.

Disponible para autoalojamiento selectivo

Para las organizaciones con estrictos requisitos de privacidad de datos, Mistral OCR ofrece una opción de autoalojamiento. Esto garantiza que la información sensible o clasificada permanezca segura dentro de su propia infraestructura, proporcionando el cumplimiento de las normas reglamentarias y de seguridad. Si desea explorar la autoimplantación con nosotros, háganoslo saber.

Casos de uso

Estamos capacitando a nuestros clientes beta para que eleven sus conocimientos organizativos transformando sus amplios depósitos de documentos en acciones y soluciones. Algunos de los casos de uso clave en los que nuestra tecnología está teniendo un impacto significativo incluyen:

Digitalización de la investigación científica: Las principales instituciones de investigación han estado experimentando con Mistral OCR para convertir documentos y revistas científicas en formatos preparados para la IA, haciéndolos accesibles a los motores de inteligencia descendente. Esto ha facilitado una colaboración mensurablemente más rápida y ha acelerado los flujos de trabajo científicos.

Preservación del patrimonio histórico y cultural: Las organizaciones y entidades sin ánimo de lucro que custodian el patrimonio han estado utilizando Mistral OCR para digitalizar documentos y artefactos históricos, garantizando su conservación y haciéndolos accesibles a un público más amplio.

Agilización del servicio de atención al cliente: Los departamentos de atención al cliente están explorando Mistral OCR para transformar la documentación y los manuales en conocimiento indexado, reduciendo los tiempos de respuesta y mejorando la satisfacción del cliente.

Hacer que la literatura de diseño, educación, jurídica, etc. esté Preparada para la IA: Mistral OCR también ha ayudado a las empresas a convertir la literatura técnica, los dibujos de ingeniería, los apuntes de clase, las presentaciones, los expedientes normativos y mucho más en formatos indexados y listos para responder, desbloqueando la inteligencia y la productividad en millones de documentos.

Pruébelo hoy mismo

Las funciones de OCR de Mistral se pueden probar gratuitamente en le Chat. Para probar la API, diríjase a la Plateforme. Nos encantaría recibir sus comentarios; espere que el modelo siga mejorando aún más en las próximas semanas. Como parte de nuestros programas de compromiso estratégico, también ofreceremos el despliegue in situ de forma selectiva.

Please share our article, every link counts!
Mail Logo
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2025 03 > Mistral OCR convierte con precisión documentos complejos en archivos editables con IA
David Chien, 2025-03-11 (Update: 2025-03-11)