Meta, la empresa dueña de Facebook, Instagram y WhatsApp, ha presentado a CM3leon, una potente herramienta de Inteligencia Artificial (IA) capaz de generar imágenes a partir de texto y viceversa. Esta innovadora solución permite describir fotografías mediante palabras y crear imágenes a partir de descripciones textuales.
¿Cómo funciona ‘CM3leon’?
Según el comunicado de la empresa, CM3leon ofrece ejemplos concretos de su funcionamiento. Por ejemplo, al ingresar el texto “un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara”, la herramienta genera automáticamente una imagen que cumple con dicha descripción.
A partir de un texto el usuario podrá obtener una representación visual de este. Sin embargo, la descripción que demos debe de ser sumamente detallada y con las composiciones exactas para obtener los resultados esperados.
Además de la generación de imágenes a partir de texto, CM3leon también proporciona la capacidad de editar imágenes utilizando indicaciones en forma de texto. Por ejemplo, se puede solicitar que se modifique el color del cielo en una foto o que se añada un bigote al famoso cuadro “La joven de la perla” de Johannes Vermeer. Asimismo, la herramienta permite obtener descripciones verbales de imágenes mediante la IA.
La edición de imágenes es guiada por una estructura que implica comprender no solo las indicaciones textuales, sino también la información del diseño que requiere. De este modo, la herramienta le brinda las ediciones visualmente coherentes.
También este modelo de IA, puede generar subtítulos, descripciones largas y cortas, según las indicaciones del usuario. Asimismo, podrás darle instrucciones a la IA sobre la generación de subtítulos de imágenes y respuestas a preguntas visuales.
Meta destaca con la funcionalidad de CM3leon
En los últimos meses, diversas empresas han lanzado herramientas similares basadas en IA, pero Meta destaca que CM3leon supera a algunas de ellas. Según la empresa, en una comparativa utilizando el punto de referencia estándar para la generación de imágenes (Zero-shot MS-COCO), CM3leon obtiene una puntuación FID (Distancia de inicio de Fréchet) de 4,88, estableciendo un nuevo récord en la generación de imágenes a partir de texto y superando al modelo de Google, llamado Parti.
Con el lanzamiento de CM3leon, Meta demuestra su liderazgo en el campo de la IA generativa y presenta una herramienta prometedora que podría tener un impacto significativo en la creación y edición de imágenes basadas en texto.