El modelo fundacional de inteligencia artificial (IA) Alia desarrollado por el Gobierno usó durante su fase de entrenamiento obras obtenidas sin pagar derechos de autor. En la propia descripción de la familia de modelos Alia, en el apartado en el que se describen los corpus de texto empleados durante el proceso, se especifica que una de las fuentes a las que se recurrió fue

nk-track-dtm="">Common Crawl, un repositorio en el que se vuelcan todas las obras existentes en internet sin pagar licencias y usado también por los gigantes tecnológicos.

Según fuentes del Ministerio de Transformación Digital y de la Función Pública, lo que hicieron está amparado por la normativa vigente. “La Directiva de Mercado Único Digital y el Reglamento Europeo de IA establecen una serie de excepciones para hacer minería de datos. Alia ha respetado todos estos mecanismos de protección de derechos de autor”, dicen esas fuentes. La mencionada excepción, que figura en el apartado 3 del artículo 4 de la Directiva de Mercado Único Digital, establece que se podrá acceder a trabajos “a condición de que el uso de las obras (...) no haya sido expresamente reservado por sus titulares de derechos de forma adecuada”.

Es decir, los autores y creadores de contenidos que no quieran que su obra sea usada para entrenar modelos de IA deben seguir un complejo proceso para protegerlas en cada soporte online en el que figuren, tanto suyos como de terceros. Eso incluye establecer un mecanismo que hace que los robots que rastrean y recopilan archivos de internet (como Common Crawl) detecten automáticamente que la obra en cuestión está protegida y no la toquen. Desde el ministerio aseguran que, “cuando los contenidos tenían opción de exclusión por parte del autor, o cuando para su acceso legítimo era necesaria una suscripción, no se han incorporado” a las bases de datos que han servido para entrenar el modelo.