Google está listo para relanzar su herramienta de generación de imágenes con inteligencia artificial, conocida como Gemini, después de una pausa prolongada debido a controversias. Tras incidentes como la creación de imágenes inexactas y culturalmente insensibles, como un monarca inglés de piel negra o nazis asiáticos, la tecnológica decidió retirar temporalmente su IA generativa en febrero. Ahora, con meses de ajustes y pruebas, Gemini regresa con promesas de generar imágenes fotorrealistas basadas en instrucciones de texto, pero con salvaguardas mejoradas para evitar errores pasados.
Imagen 3: La Nueva Era de la Generación de Imágenes
Google ha anunciado una actualización significativa para sus modelos de lenguaje, incluyendo la reintroducción de la generación de imágenes a través de Imagen 3. Presentado inicialmente durante la conferencia I/O 2024, Imagen 3 es un modelo avanzado que permite a los usuarios generar imágenes realistas simplemente proporcionando una descripción en texto, utilizando lenguaje natural. Este modelo promete ser más inclusivo y preciso, corrigiendo los problemas que enfrentaron versiones anteriores.
Dave Citron, director de Gestión de Productos para Gemini, destacó que Imagen 3 ha mostrado un rendimiento superior en una serie de pruebas comparativas con otros modelos de generación de imágenes. Además, al igual que con su predecesor Imagen 2, Google ha incorporado SynthID, una herramienta diseñada para identificar y marcar imágenes generadas por inteligencia artificial, ayudando a evitar la creación de contenido inapropiado o inexacto.
Salvaguardas y Políticas de Seguridad Mejoradas
Con la reintroducción de Gemini, Google ha implementado salvaguardas adicionales para prevenir la generación de imágenes problemáticas. Un documento técnico reciente detalla cómo Imagen 3 emplea un clasificador multimodal para detectar y prevenir la creación de contenido que podría ser considerado dañino o engañoso. Además, Google ha desarrollado filtros de seguridad más estrictos para evitar la generación de imágenes con “imprecisiones históricas” o que puedan reforzar prejuicios injustos.
A pesar de estos avances, Google reconoce que Imagen 3 no será infalible y que aún podría generar imágenes con errores. No obstante, han asegurado que el contenido explícito, violento o que incluya menores será estrictamente prohibido. Además, la creación de personas fotorrealistas reconocibles estará limitada a usuarios de pago con suscripciones a Gemini Advanced, Business y Enterprise, inicialmente disponible en inglés.
Google ha confirmado que Imagen 3 se desplegará progresivamente en todas las aplicaciones de Gemini, incluidas las versiones gratuitas, y estará disponible en varios idiomas, incluido el español. Este relanzamiento subraya el compromiso de Google de aprender de sus errores pasados y mejorar continuamente sus herramientas de inteligencia artificial para ofrecer una experiencia más segura y precisa.