Las máquinas no pueden sentir, ni empatizar con las personas. Pero los grandes modelos de lenguaje, en particular los sistemas multimodales (los que son capaces de procesar datos en varios soportes, como texto e imagen), actúan como si comprendieran las emociones. Así lo concluye un estudio publicado en la revista Royal Society Open Science en el que han comprobado que, si se les pide que respondan como lo haría un humano, puntúan las emociones descritas en las imágenes que se les muestran de forma muy parecida a los dos centenares de voluntarios que participaron en el experimento.

Si los grandes modelos de lenguaje (LLM), como ChatGPT, han sido entrenados con cantidades ingentes de textos, las bases de datos con las que se han forjado los sistemas multimodales constan de miles de millones de imágenes emparejadas con descripciones textuales plausibles. “El sistema resultante es un modelo probabilístico complejo de cómo las palabras y frases se correlacionan con los píxeles de las imágenes, lo que le permite responder preguntas no triviales sobre el contenido de escenas visuales”, describen los autores del estudio.

¿Pueden estos sistemas percibir y juzgar el contenido emocional de las imágenes? Investigar eso, aseguran los autores, permitiría establecer si las respuestas de estos modelos ante situaciones afectivas “están alineadas con nuestro conjunto normativo de valores y, por tanto, mitigar los riesgos asociados a respuestas sesgadas o inapropiadas”. Tras una serie de experimentos, concluyen que “las valoraciones de la IA están altamente correlacionadas con las valoraciones promedio proporcionadas por humanos”. Eso es muy llamativo, ya que no sucedía con sistemas de IA que no usaran los LLM. “Los resultados sugieren que los sistemas de IA modernos pueden aprender representaciones sofisticadas de conceptos emocionales a través del lenguaje natural, sin haber sido entrenados explícitamente para ello”.