El modelo ChatGPT GPT-4o genera imágenes con etiquetas legibles

OpenAI ha introducido una importante actualización en GPT-4o que permite generar imágenes con texto increíblemente preciso. Esta nueva capacidad permite a los usuarios crear imágenes detalladas y de alta calidad con indicaciones de voz y ajustarlas en el proceso para reproducir con precisión su significado previsto.
Esto es lo que sabemos
Parece que ya podemos olvidarnos de las inscripciones ilegibles o los símbolos extraños que aparecían a menudo en los antiguos modelos de IA.
A diferencia de los métodos tradicionales de generación de imágenes, en los que hay que mejorar una única consulta, GPT-4o utiliza un enfoque dinámico. Primero se proporciona una pista básica, como "gato", y luego se puede entablar un diálogo con el modelo para añadir los detalles deseados, como un sombrero de detective o un monóculo.








OpenAI mostró cómo los usuarios pueden crear escenas gradualmente combinando elementos de distintas imágenes. El modelo demuestra una gran precisión a la hora de reproducir texto en señales u objetos, lo que supone un avance significativo respecto a modelos anteriores que no podían reproducir correctamente palabras escritas.
La GPT-4o también permite trabajar con fotos aplicándoles cambios. El modelo puede manejar entre 10 y 20 objetos en una escena, mientras que otros modelos suelen detenerse en 5 u 8.




Sin embargo, no todo es perfecto: hay algunos inconvenientes, como el recorte por la parte inferior, los malentendidos con texto no latino y los problemas con más de 20 objetos. No obstante, la nueva función ofrece una precisión y una flexibilidad que abren nuevas posibilidades a diseñadores y creativos.
Fuente: OpenAI, Gizmochina