Google ha realizado una serie de anuncios durante su conferencia Google I/O, que tuvo lugar este martes 14 de mayo. Entre ellos, Imagen 3: la última evolución de su modelo de generación de imágenes. Mejor en interpretación y más preciso, puede producir imágenes aún más realistas.
TE PUEDE INTERESAR: La IA Gemini llega a todos los servicios de Google: Gmail, Google Docs y Search
Después de Imagen, llegó Imagen 2, y ahora Imagen 3: Google continúa iterando su modelo de generación de imágenes. De hecho, la empresa oficializó la tercera versión de Imagen durante su conferencia Google I/O en vivo desde San Francisco el 14 de mayo. Entre los anuncios, Google presentó, por ejemplo, Ask Photos, una funcionalidad de Google Photos que utiliza Gemini.
¿Cuáles son los avances aportados por Imagen 3?
Google presenta Imagen 3 como su modelo de generación de imágenes a partir de texto más potente, tanto en términos de calidad como de nivel de detalle. La promesa: imágenes fotorrealistas/realistas y, sobre todo, «menos artefactos visuales molestos» en comparación con Imagen 2. Otro progreso muy importante es la generación de texto. De hecho, los generadores de imágenes son conceptualmente incapaces de entender que una letra es una letra, por lo que representar palabras es muy complicado. Google anuncia haber mejorado enormemente las capacidades de dibujo de texto de su modelo.
La empresa explica estos avances por el hecho de que Imagen 3 es mejor en la interpretación del lenguaje y «comprende» más la intención detrás de un prompt, especialmente porque toma más en cuenta los detalles en los mensajes más largos.
Al igual que Imagen 2, Imagen 3 solo está disponible en inglés. Una IA disponible para ciertos creadores en ImageFX, una de las herramientas experimentales de IA disponibles en el AI Test Kitchen de Google. Google especifica que Imagen 3 estará próximamente disponible en Vertex AI, su solución para Google Cloud.
¿Qué usos e integraciones tiene este nuevo generador de imágenes?
Existen generadores de imágenes, incluso gratuitos, en varios lugares, aunque no todos están integrados en las aplicaciones que utilizamos. El más avanzado es, sin duda, Microsoft, con su Copilot. En cuanto a Google, Imagen 2 solo puede ser usado en ImageFX, una herramienta experimental disponible (de manera limitada) en su AI Test Kitchen.
Entre los usos imaginados por Google, está la posibilidad de «generar mensajes de cumpleaños personalizados, diapositivas de título en presentaciones», entre otros. Y en cuanto a las integraciones, Gemini permite desde hace unos meses generar imágenes, lo que ha tenido consecuencias en términos de diversidad. Además, se sabe que Google trabaja en integrar un generador de imágenes en Google Messages, a través de su chatbot Gemini.