Gemini recibe una poderosa actualización con edición de imágenes generativa

Por: Anry Sergeev | hoy dia, 10:56
Análisis en profundidad de Gemini: un collage de resultados Collage con los resultados del trabajo de Gemini. Fuente: Google

Google ha anunciado una gran actualización de sus herramientas de edición de imágenes en la aplicación Gemini. Desarrollado por el equipo de DeepMind, el nuevo modelo ya ha recibido las calificaciones más altas en las pruebas iniciales y está disponible para todos los usuarios de Gemini. El modelo permite crear y modificar fotos de manera que las personas o animales representados sigan siendo reconocibles y naturales.

LugarModeloPuntuaciónIC 95% (±)VotosOrganizaciónLicencia
1gemini-2.5-flash-image-preview (nano-banana)1362±22 521 035Google.Propietario
2flux-1-kontext-max1191±3357 196Black Forest LabsPropietario
3flux-1-kontext-pro1174±22 015 530Black Forest LabsPropietario
3gpt-image-11170±31 026 399OpenAIPropietario
5flux-1-kontext-dev1152±31 584 400Black Forest LabsPropietario
6qwen-image-edit1145±21 585 904AlibabaApache 2.0
6seededit-3.01142±41 285 080BytedancePropietario
8gemini-2.0-flash-preview-image-generation1093±31 700 785GooglePropietario
9bagel1044±512 774BytedanceApache 2.0
10step1x-edit1017±4138 399StepFunApache 2.0

Fuente: lmarena.ai

Qué ha cambiado

La nueva versión de Gemini funciona con un enfoque en la autenticidad. Anteriormente, la inteligencia artificial podía "reformar" rasgos faciales o cambiar la apariencia durante la edición, pero ahora el sistema minimiza tales desviaciones. Esto significa que los amigos en las fotos se verán como amigos, y las mascotas se verán como mascotas, incluso después de cambiar su peinado, ropa o entorno.

Gemini ha aprendido a

  • transferir personas u objetos a un entorno diferente sin perder el reconocimiento;
  • agregar o reemplazar cosas y muebles en una foto mientras deja otros elementos sin cambios;
  • aplicar el estilo de una parte de la imagen a otra (por ejemplo, el color de las flores en la ropa);
  • combinar fotos para crear escenas completamente nuevas.
Un ejemplo de cambiar los roles de un personaje
Un ejemplo de cambio de roles de un personaje. Ilustración: Google

Ejemplos de uso

  • Fotos familiares: si alguien parpadea, el algoritmo ajustará solo la expresión facial.
  • Mascotas: un perro con un nuevo collar seguirá siendo la misma mascota, no una "nueva raza".
  • Experimentos de moda: puedes probar diferentes ropas o zapatos directamente en la foto.
  • Renovación y diseño: es fácil imaginar cómo se verá una habitación con nuevos muebles o color de pared.
  • Escenas fantásticas: amigos del patio trasero pueden encontrarse en París o en Marte - y seguir siendo reconocibles.
Un ejemplo de mezclar dos imágenes
Un ejemplo de mezcla de dos imágenes. Ilustración: Google

Por qué es importante

Google posiciona el Gemini actualizado como una herramienta para un nuevo nivel de personalización y narración visual. El modelo abre oportunidades para la creatividad, comunicación en línea y trabajo profesional con contenido visual - desde la creación de álbumes familiares hasta campañas publicitarias.

Un ejemplo de una combinación de diseño
Un ejemplo de una combinación de diseño. Ilustración: Google

Según los desarrolladores, todos los cálculos se realizan manteniendo la privacidad del usuario, y la actualización es solo el primer paso hacia funciones de edición aún más flexibles.

Fuente: Google