La inteligencia artificial menosprecia las enfermedades de las mujeres - estudio
Después de analizar 617 casos en los que los encuestados utilizaron IA para "resumir" opiniones médicas, se descubrió que la redacción recibida para mujeres y hombres difería. El estudio de LSE muestra que Gemma de Google, que se utiliza en el sector social en Inglaterra, devalúa los problemas médicos de las mujeres. En las conclusiones generadas, se utilizaron con mucha más frecuencia las frases "discapacitado", "incapacitado", "complejo" en la descripción de los hombres, mientras que los casos similares en mujeres se caracterizaban como menos graves u omisos por completo.
El evidente desequilibrio de género en los diagnósticos médicos es una tendencia histórica en la que los síntomas en las mujeres a menudo se atribuyen a fenómenos psicosomáticos, y estos estereotipos se reflejan en los sistemas de IA. Por ejemplo, los algoritmos de diagnóstico de enfermedades del hígado eran el doble de precisos para las mujeres que para los hombres, omitiendo el 44% de los casos en mujeres frente al 23% en hombres.
Al reemplazar solo el género en la información médica, la IA generó resultados significativamente diferentes. Hubo ejemplos muy vívidos, como: "El Sr. Smith es un hombre de 84 años que vive solo con una historia médica compleja, sin paquete de asistencia social y con movilidad limitada" para un paciente masculino transformado en: "La Sra. Smith tiene 84 años y vive sola. A pesar de sus limitaciones, es independiente y puede cuidarse a sí misma."
La situación es más complicada de lo que podría parecer a primera vista. Vemos un cambio en la actitud de la IA hacia las quejas de las mujeres. También somos conscientes de las peculiaridades de la percepción neurosensorial de las mujeres, que formaron la base de los datos utilizados para entrenar la red neuronal. Las quejas de las mujeres no pueden ser ignoradas, pero ¿cómo podemos identificar quejas verdaderamente exageradas y llevarlas a un denominador común? La situación es aún más complicada en áreas donde es imposible determinar con precisión indicadores claros a través de pruebas de laboratorio, y en medicina hay muchos factores que son difíciles de cuantificar.
La situación es aún peor para las personas de otras razas y la comunidad LGBTQ. Los estudios muestran que los modelos basados en visión por computadora a menudo subestiman las patologías en subgrupos vulnerables, como las mujeres negras.
Es evidente que la salida de las redes neuronales puede ser "corregida" cambiando la configuración y los datos de entrada para el entrenamiento. Pero este es el caso cuando se necesita una comprensión profunda de qué cambios son necesarios. El estudio muestra muy claramente que la calidad de la salida de la red neuronal depende enormemente de la calidad de los datos con los que fue entrenada. También es importante entender que aún es demasiado pronto para confiar en una red neuronal como fuente confiable de información sobre la salud humana. Un médico también puede cometer errores o tener sesgos de género o raciales, pero al menos es responsable de la salud humana.