Apple lanza su propia inteligencia artificial para editar imágenes con texto: se llama MGIE, es open source y ya puedes probarla

Apple lanza su propia inteligencia artificial para editar imágenes con texto: se llama MGIE, es open source y ya puedes probarla

Cupertino prometió novedades en inteligencia artificial en 2024 y esta es su primera y prometedora incursión

2 comentarios Facebook Twitter Flipboard E-mail
Apple

La batalla de la inteligencia artificial está servida: está OpenAI con su ChatGPT con GPT-5 en el horno, Microsoft cuenta con su Copilot con GPT-4, Google hace lo propio con Gemini pero, ¿y Apple? Cupertino llega tarde a la mesa, pero eso no solo no es una sorpresa, sino que tampoco tiene por qué ser un hándicap, habida cuenta de su impronta en segmentos como el smartphone. Esta semana Apple ha dado a conocer MGIE, su primer modelo de inteligencia artificial.

En pleno furor de la inteligencia artificial, Apple siempre se ha mostrado cauta y con pies de plomo sobre sus planes. No solo eso, sino que mientras otras big tech pisaban el acelerador para presentar sus herramientas de IA tras la llegada de ChatGPT, el equipo de Tim Cook mantenía silencio. No obstante, se sabe que en Cupertino existe un chatbot del estilo Apple GPT y se esperan importantes anuncios relativos a la inteligencia artificial para finales de 2024. Pero este MGIE es un comienzo de lo más prometedor.

Qué es MGIE y cómo funciona

Las presentaciones. Hace unos días, un equipo conformado por personal de Apple y la Universidad de California de Santa Bárbara han lanzado el editor de imágenes guiado de código abierto MMLM o MGIE, un modelo multimodal con inteligencia artificial capaz de editar imágenes al estilo Photoshop, solo que en este caso mediante comandos de texto simples y la IA.

Vaya por delante que ya existen editores de imágenes con IA, pero como explica el paper, "las instrucciones humanas a veces son demasiado breves para que los métodos actuales las capten y sigan". Como resultado, esos retoques acaban siendo mediocres o peor de lo esperado. MGIE se vale de un enfoque distinto, con modelos de lenguaje multimodal de gran tamaño para comprender las indicaciones y al mismo tiempo, hay un entrenamiento de imágenes. Vamos, que aprender de MLLM ayuda a MGIE a entender mejor las órdenes del lenguaje natural sin descripciones especialmente densas y detalladas.

En algunos ejemplos listados en el paper, vemos como tomando como base una pizza con pepperoni y tras añadir el comando de "hacer esto más saludable", entiende que "esto" es la pizza y que sea más saludable lo interpreta como incorporar verduras. El output es una pizza de pepperoni con algunos vegetales por encima. También puedes pedirle que edite una parte de la imagen, por ejemplo eliminando a la mujer del fondo o retocando el fondo de la pantalla de un ordenador.

A modo de resumen: pese a estar en la primera fase de MGIE, este es capaz de cambiar ajustes relativos al color, contraste, manipulación de objetos o borrado o, de forma más general, mejorar la calidad global de una imagen.

Cómo puedes probar MGIE gratis y sin esperas

Aunque el código abierto de proyecto MGIE está disponible en GitHub, si quieres probar el modelo puedes hacerlo sin necesidad de instalar nada y desde cualquier dispositivo (sea de Apple o no), ya que se vale del navegador. Solo tienes que ir a esta página.

Captura De Pantalla 2024 02 10 A Las 10 35 35

Llama la atención la simplicidad de la interfaz, algo que agiliza considerablemente los primeros pasos: solo es necesario cargar una imagen o arrastrarla al gran recuadro de la izquierda para después añadir la instrucción de texto en el cajetín de 'Instruction'.

Captura De Pantalla 2024 02 10 A Las 10 45 14

Finalmente, hay que tocar sobre 'Enviar' y poco más: el resultado comenzará a generarse y mostrarse en el recuadro de la derecha. Eso sí, ármate de paciencia porque el servidor está limitado, lo que implica que si hay muchas solicitudes en cola, tocará esperar.

Portada | Eva Rodriguez de Luis con Microsoft Designer

En Genbeta | Apple decepciona en inteligencia artificial, pero puede ser la gran tapada: los motivos para pensar que tiene un as bajo la manga

Inicio