Otra función consiste en editar una imagen a partir de una indicación con un texto, como “modificar el color del cielo” de una foto o “ponerle bigote” al cuadro de Johannes Vermeer de “La joven de la perla”. Además, permite pedir a la IA que describa una foto con palabras.
Desde que la IA adquirió popularidad a finales del año pasado, varias empresas han lanzado este tipo de herramientas y Meta anota que CM3leon es mejor que algunas de ellas.
“Al comparar el rendimiento en el punto de referencia de generación de imágenes más utilizado (Zero-shot MS-COCO), CM3Leon logra una puntuación FID (Distancia de inicio de Fréchet) de 4.88, estableciendo un nuevo estado del arte en la generación de texto a imagen y superando al modelo de Google de texto a imagen´(Parti)”, anota la compañía en el comunicado.
No obstante, Meta no menciona ni a Midjourney ni a Dall-e de OpenAI, las herramientas más populares para este tipo de tareas hasta el momento.
Introducing CM3leon, a first-of-its-kind multimodal model that achieves state-of-the-art performance for text-to-image generation with 5x the compute efficiency of competitive models.
More details ➡️ https://t.co/VR12zkmLDs pic.twitter.com/jUnG7G1Fxf
— Meta AI (@MetaAI) July 14, 2023
Cómo se desempeña CM3leon en todas las tareas
De acuerdo con Meta, con las capacidades de CM3leon, las herramientas pueden producir imágenes más coherentes que siguen mejor las indicaciones de entrada.
“Muchos modelos de generación de imágenes luchan con la capacidad de recuperar formas globales y detalles locales. CM3leon tiene un fuerte desempeño en esta área. Aquí hay un vistazo a las capacidades de CM3leon en una variedad de tareas, todas realizadas con un solo modelo”, indicó Meta en un comunicado.
Generación y edición de imágenes guiadas por texto
Según meta, la generación de imágenes puede ser un desafío cuando se trata de objetos complejos o cuando la solicitud incluye muchas restricciones que deben incluirse en la salida.
“La edición de imágenes guiada por texto (por ejemplo, “cambiar el color del cielo a azul brillante”) es un desafío porque requiere que el modelo comprenda simultáneamente las instrucciones textuales y el contenido visual”, añadió Meta.
Según la compañía, CM3leon sobresale en todos los casos, como lo muestra en los ejemplos siguientes.
Texto a imagen
Dado un texto de indicación con una estructura potencialmente muy compositiva, genere una imagen coherente que siga a la indicación.
Por ejemplo, se crearon las siguientes cuatro imágenes para las indicaciones:
- Un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara.
- Una foto de primer plano de una mano humana, modelo de mano. Alta calidad.
- El personaje principal de un mapache en un anime que se prepara para una batalla épica con una espada samurái. Postura de batalla. Fantasía, Ilustración.
- Una señal de alto en estilo Fantasía con el texto “1991”.