Los protagonistas del reciente evento DevDay de OpenAI fueron el lanzamiento de GPT-4 Turbo y de los GPTs personalizados (y su correspondiente 'store'). Estas fueron las novedades que acapararon el interés mediático y la atención del usuario… pero había un 'tapado', una nueva IA a la que sólo ahora, días después, estamos valorando en su justa medida.
Os hablamos de la IA de trascripción de audio a texto Whisper V3, una IA open source (al contrario que ChatGPT o DALL·E), por lo que ya está disponible para su uso online gratuito a través de plataformas como Hugging Face o Replicate. Y es de esperar que, en breve, cuente con varios clientes de escritorio (como Buzz, que funciona con Whisper V2).
Un antes y un después
Hasta hace cosa de un año, la transcripción de audio a texto siempre resultó un desafío para la mayoría de los usuarios, pues las herramientas gratuitas a las que podían disponer acostumbraban a cometer numerosos errores. Whisper V2 fue la primera herramienta gratuita que convenció a muchos usuarios…
…pero con Whisper V3 ya tenemos la sensación de que es el equivalente en su campo a ChatGPT —excepto por la parte de ser 100% gratuito—, una IA que los desarrolladores de software van a empezar a breve a implementar en sus propias aplicaciones.
Además, su versatilidad lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el campo de la asistencia por voz.
![Whisper1](https://i.blogs.es/84ab58/whisper1/450_1000.webp)
¿Qué nos ofrece Whisper V3?
Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Si lo comparamos con su versión anterior, Whisper V3 ha logrado reducir los errores entre un 10 y un 20%. En el caso del idioma español, su tasa de error se encuentra por debajo del 5%, lo que lo convierte en uno de los idiomas mejor comprendidos por este modelo.
Una de las características más destacadas de Whisper V3 es su capacidad multitarea: puede utilizarse para reconocer y traducir múltiples idiomas. Además, este modelo es capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación, lo que lo convierte en una herramienta enormemente versátil.
Además, OpenAI ha puesto a disposición de los usuarios modelos de Whisper V3 de distintos tamaños (y, por ello, de distintos niveles de rendimiento), desde una versión minúscula con menos de 1 GB de VRAM hasta el modelo large, entrenado con 1.550 millones de parámetros y con requisitos de unos 10 GB de VRAM. Esto permite que Whisper V3 se adapte a diferentes aplicaciones y necesidades, brindando flexibilidad a los usuarios.
Imagen | Marcos Merino mediante IA
Ver 1 comentarios