Perplexity AI tomó datos incluso de sitios web que los desarrolladores prohibieron analizar

Cloudflare ha publicado un estudio que muestra lo siguiente: Perplexity AI estaba rastreando (descargando y analizando datos) sitios web, incluso si indicaban claramente en robots.txt que el acceso automático estaba prohibido. Además, el sistema eludió la protección cambiando el agente de usuario (por ejemplo, haciéndose pasar por Chrome en macOS) y redirigiendo el tráfico a través de diferentes ASN - "raspado sigiloso".
La actividad de la IA fue detectada en decenas de miles de dominios con millones de solicitudes diarias, y Cloudflare pudo identificar el bot utilizando modelos de ML y señales de red.
Perplexity es un motor de búsqueda impulsado por IA que intenta ser una alternativa más inteligente a Google, pero con un enfoque en la conversión y la búsqueda basada en diálogos. Intenta analizar los resultados encontrados y dar inmediatamente al usuario un extracto, sin necesidad de hacer clic en enlaces. En general, Google ha tomado nota de esta tendencia y ha añadido su propio Gemini a su motor de búsqueda.
Cómo reacciona Perplexity
El portavoz de la empresa, Jesse Dwyer, dijo que la acusación era un "engaño" y que las capturas de pantalla publicadas no probaron el acceso al contenido. Más tarde, incluso dijo que el bot en cuestión no pertenecía a Perplexity.
Historia de comportamiento sospechoso
Desde 2024, los periodistas de Wired y el desarrollador Robb Knight publicaron hallazgos que Perplexity ignoró robots.txt al usar direcciones IP ocultas y rastreadores de terceros. El CEO de la empresa reconoció la existencia de tales rastreadores, pero se negó a explicar claramente si dejarían de usarlos.
Si es legal
El archivo robots.txt es un archivo de texto plano que describe las páginas que no deben ser analizadas por bots de búsqueda y publicidad. No tiene ningún mecanismo para realmente prevenir que estas direcciones sean analizadas, sino que proporciona recomendaciones. De esta forma, los bots "entienden" dónde se encuentra la información personal o técnica que no está destinada a ser analizada. Sin embargo, la información realmente confidencial no puede ser oculta de esta manera. El uso de diferentes bots, IPs, redirecciones y sustitución de agentes de usuario tampoco está prohibido. Las acciones de Perplexity son completamente legales, aunque poco éticas. Actualmente, no hay herramientas efectivas para hacer que la información sea pública y evitar que sea accesible por IA. O la información confidencial debe ser liberada solo después de la identificación, o debe aceptarse que la IA aprenderá de ella y la usará para sus propios fines.
Reacciones y consecuencias
La BBC está amenazando con una demanda por el raspado sin permiso: está exigiendo la eliminación de materiales, compensación y la terminación del acceso. Amazon / AWS también ha lanzado una revisión interna de Perplexity por violar los términos de uso de sus servicios.
Fuente: techcrunch.com