El modelo de IA Qwen2.5-VL de Alibaba puede ejecutar Booking.com en Android y reservar billetes de Chongqing a Pekín (vídeo)

El equipo Qwen de Alibaba ha anunciado el lanzamiento de una nueva línea de modelos de IA Qwen2.5-VL capaces de realizar una serie de tareas de análisis de texto e imágenes.
Esto es lo que sabemos
Los modelos pueden procesar archivos, comprender vídeos, contar objetos en imágenes y controlar PCs, algo similar al modelo que funciona en OpenAI Operator.
Según los datos de las pruebas, Qwen2.5-VL supera a GPT-4 de OpenAI, Claude 3.5 de Anthropic y Gemini 2.0 Flash de Google en comprensión de vídeos, matemáticas, análisis de documentos y respuesta a preguntas. El modelo es capaz de analizar gráficos y tablas, extraer datos de facturas y formularios escaneados y "entender" vídeos de varias horas de duración.

Resultados de las pruebas de Qwen2.5-VL. Ilustración: Alibaba
Una característica interesante de Qwen2.5-VL es su capacidad para interactuar con software de PC y dispositivos móviles. Un vídeo publicado en X muestra un modelo de Qwen2.5-VL iniciando la aplicación Booking.com en Android y reservando un billete de avión de Chongqing a Pekín. Sin embargo, en una prueba realizada en un ordenador de sobremesa Linux, el modelo demostró ser menos eficiente, limitándose a cambiar de pestaña.
¡No te pierdas @Alibaba_Qwen 2.5 VL! A pesar de todo el bombo de Deepseek, Qwen acaba de lanzar el mejor multimodal abierto. Qwen 2.5 VL es un Modelo de Lenguaje de Visión que puede controlar tu ordenador, similar al operador @OpenAI, extraer información estructurada de gráficos, y mucho más!!
- Philipp Schmid (@_philschmid) 27 de enero de 2025
TL;DR;
3️⃣... pic.twitter.com/GeEGVdl0tI
Los modelos Qwen2.5-VL también tienen ciertas restricciones en cuanto a los temas que tratan, sobre todo en Qwen Chat, debido a los controles de los reguladores chinos de Internet, que exigen la adhesión a los "valores socialistas fundamentales".
¡LMAO Qwen 2.5 VL puede realizar Uso de la computadora, fuera de la caja, tomando en OpenAI Operador HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 de enero de 2025
Los modelos Qwen2.5-VL están disponibles para su prueba en la aplicación Qwen Chat y en la plataforma Hugging Face. El modelo Qwen2.5-VL-72B tiene una licencia especial que requiere autorización de uso comercial para empresas con más de 100 millones de usuarios activos mensuales.
Fuente: @_philschmid