Notebookcheck Logo

Whisper-Medusa es el nuevo modelo de IA de reconocimiento del habla de código abierto de aiOla, que afirma ser un 50% más rápido que Whisper de OpenAI

aiOla es una empresa con sede en Israel que utiliza soluciones basadas en la IA para digitalizar los flujos de trabajo basados en papel. (Fuente de la imagen: aiOla)
aiOla es una empresa con sede en Israel que utiliza soluciones basadas en la IA para digitalizar los flujos de trabajo basados en papel. (Fuente de la imagen: aiOla)
aiOla ha lanzado Whisper-Medusa, un modelo de IA de código abierto diseñado para mejorar el reconocimiento automático del habla. Combinando Whisper de OpenAI con la tecnología de aiOla, Whisper-Medusa afirma funcionar un 50% más rápido que el propio Whisper. Este modelo es compatible con más de 100 idiomas y transforma los datos del habla no estructurados en información procesable, mostrándose prometedor en el futuro en sectores como la aviación, la logística y la sanidad.

aiOla es una empresa con sede en Israel fundada en 2019 que se especializa en soluciones impulsadas por IA para digitalizar los flujos de trabajo basados en papel. La empresa presentó recientemente Whisper-Medusa, un modelo de IA de código abierto que es una combinación de Whisper de OpenAI y la tecnología de aiOla. Afirma que funciona más de un 50% más rápido manteniendo una gran precisión. Esta velocidad se consigue gracias a un método único de predicción de fichas, que predice diez fichas a la vez en lugar de una, como se ve en OpenAIde OpenAI.

Whisper-Medusa se desarrolló utilizando supervisión débil. Este proceso implica utilizar Whisper para transcribir conjuntos de datos de audio, que luego sirven como etiquetas para entrenar los módulos de predicción de tokens de Medusa.

Whisper-Medusa podría convertirse en un gran activo para las empresas que aún dependen de los flujos de trabajo basados en papel en el funcionamiento diario. La tecnología de aiOla, a través de su sistema backend "aiOla Jargonic", puede ayudar a los trabajadores de primera línea de diversas industrias. Por ejemplo, en la industria de fabricación de alimentos, aiOla agilizó el control de calidad transformando las listas de comprobación manuales en flujos de trabajo digitales. La empresa afirma que todo el proceso es "tan fácil como subir una foto o un archivo de sus procesos existentes".

Compatible con más de 100 idiomas y varios acentos, Whisper-Medusa también podría ser útil en sectores como la aviación, la fabricación de alimentos, la logística y la sanidad. Al convertir los datos de voz no estructurados en información procesable, las empresas pueden reducir sus costes y mejorar la asignación de recursos.

Los interesados pueden encontrar los archivos de código abierto en Hugging Face y GitHub.

el Whisper-Medusa de aiOla afirma ser un 50% más rápido que el Whisper de OpenAI. (Fuente de la imagen: aiOla)
el Whisper-Medusa de aiOla afirma ser un 50% más rápido que el Whisper de OpenAI. (Fuente de la imagen: aiOla)

Fuente(s)

Please share our article, every link counts!
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2024 08 > Whisper-Medusa es el nuevo modelo de IA de reconocimiento del habla de código abierto de aiOla, que afirma ser un 50% más rápido que Whisper de OpenAI
Anubhav Sharma, 2024-08- 4 (Update: 2024-08- 4)