El modelo ChatGPT GPT-4o genera imágenes con etiquetas legibles

Por: Nastya Bobkova | Actualizado 28.03.2025, 06:29

Del texto al Arte: GPT-4o introduce un enfoque innovador de las imágenes

GPT-4o permite crear imágenes complejas con texto sobre objetos. Fuente: OpenAI

OpenAI ha introducido una importante actualización en GPT-4o que permite generar imágenes con texto increíblemente preciso. Esta nueva capacidad permite a los usuarios crear imágenes detalladas y de alta calidad con indicaciones de voz y ajustarlas en el proceso para reproducir con precisión su significado previsto.

Esto es lo que sabemos

Parece que ya podemos olvidarnos de las inscripciones ilegibles o los símbolos extraños que aparecían a menudo en los antiguos modelos de IA.

A diferencia de los métodos tradicionales de generación de imágenes, en los que hay que mejorar una única consulta, GPT-4o utiliza un enfoque dinámico. Primero se proporciona una pista básica, como "gato", y luego se puede entablar un diálogo con el modelo para añadir los detalles deseados, como un sombrero de detective o un monóculo.

OpenAI mostró cómo los usuarios pueden crear escenas gradualmente combinando elementos de distintas imágenes. El modelo demuestra una gran precisión a la hora de reproducir texto en señales u objetos, lo que supone un avance significativo respecto a modelos anteriores que no podían reproducir correctamente palabras escritas.

La GPT-4o también permite trabajar con fotos aplicándoles cambios. El modelo puede manejar entre 10 y 20 objetos en una escena, mientras que otros modelos suelen detenerse en 5 u 8.

Sin embargo, no todo es perfecto: hay algunos inconvenientes, como el recorte por la parte inferior, los malentendidos con texto no latino y los problemas con más de 20 objetos. No obstante, la nueva función ofrece una precisión y una flexibilidad que abren nuevas posibilidades a diseñadores y creativos.

Fuente: OpenAI, Gizmochina

Inteligencia artificial