IA y derechos de autor: el código europeo que pone orden en el caos del entrenamiento masivo de datos

En la carrera por regular la inteligencia artificial, en junio de 2024, Europa dio un paso decisivo al respecto con la aprobación del Reglamento 2024/1689 de Inteligencia Artificial (el “RIA”). Esta norma pionera establece un marco jurídico integral para el desarrollo, uso y comercialización de sistemas de IA en el mercado europeo y ya preveía en su artículo 56 el fomento y elaboración de códigos de buenas prácticas a escala de la Unión para facilitar la correcta aplicación del RIA.

El pasado 10 de julio salió a la luz la versión final del primer Código de buenas prácticas de IA de uso general que ha impulsado la Comisión Europea para tender un puente entre el precepto legal y su implementación práctica. Este instrumento – si bien de adhesión voluntaria y por ende no vinculante per se – ofrece un marco práctico sobre las normas de la RIA aplicables a los proveedores de modelos de IA con el fin de ayudarles a cumplir con las exigencias derivadas del RIA, particularmente en materia de transparencia, seguridad y respeto a los derechos de autor en conexión con los modelos generativos de IA de uso general. Así, permite a gigantes tipo OpenAI, Google, DeepMind o Mistral demostrar que respetan las obligaciones impuestas por el RIA, especialmente en lo que respecta al copyright.

En este sentido, más allá de los sistemas de alto riesgo o transparencia algorítmica, este Código incluye un capítulo crucial que impacta directamente a creadores, empresas tecnológicas y titulares de derechos de propiedad intelectual en relación con el uso de contenidos protegidos por los derechos de autor para entrenar modelos de IA. Y no es para menos, ya que los modelos de IA generativa se entrenan con ingentes volúmenes de datos, muchos de los cuales están protegidos por derechos de propiedad intelectual. ¿Qué ocurre cuando un modelo accede, procesa o reproduce contenido sin autorización? ¿Cómo deben actuar los proveedores de IA para no incurrir en infracción?

En particular, el artículo 53.1(c) del RIA exige a los proveedores de modelos de IA de uso general (general purpose AI models) que adopten una política de cumplimiento proactiva de la normativa europea aplicable en materia de derechos de autor. Entre otros, están obligados a identificar y respetar cualesquiera reservas de derechos en su caso expresadas por los titulares de derechos del contenido en cuestión.

Esta obligación se vincula directamente con el artículo 4.3 de la Directiva 2019/790 sobre derechos de autor en el mercado único digital, el cual prevé que los titulares de derechos pueden excluir el uso de sus contenidos para minería de textos y datos (Text and Data Mining), siempre y cuando expresen su reserva de derechos de forma adecuada, por ejemplo, mediante mecanismos machine-readable como robots.txt, metadatos noai, noimageai, ai.txt, o tecnologías similares. Al respecto, es importante mencionar que el derecho de exclusión a través del opt-out es jurídicamente válido, pero su eficacia depende de estándares técnicos que aún no están consolidados en todos los sectores.

Falta la transposición en España

Aunque esta Directiva debía haberse transpuesto en España antes de junio de 2021, el ordenamiento jurídico español no contiene, hoy en día, una disposición específica que refleje con precisión esta previsión, ni en el Texto Refundido de la Ley de Propiedad Intelectual (TRLPI) ni en otra norma con rango de ley. En otras palabras, y aunque España aprobó el Real Decreto-ley 24/2021 para transponer parcialmente la Directiva, lo cierto es que no se ha integrado de forma expresa en el TRLPI la posibilidad de oponerse al TDM mediante reservas de derechos, lo cual deja una laguna regulatoria importante. En consecuencia, y salvo interpretación extensiva por parte de los tribunales, los proveedores de modelos de IA operando en España deberán acudir directamente a la normativa europea ya mencionada, que exige mecanismos proactivos de cumplimiento y respeto de las reservas de derechos incluso sin necesidad de transposición explícita.

Aquí es donde entra en juego el nuevo Código de buenas prácticas, que concreta cómo debe implementarse una política de respeto a los derechos de autor. Algunas de sus medidas clave incluyen (a) no acceder a contenido protegido si ha sido expresamente reservado mediante mecanismos técnicos como los arriba mencionados; (b) evitar extraer contenidos de sitios infractores reconocidos judicial o administrativamente; (c) implementar salvaguardas técnicas para minimizar el riesgo de que los modelos de IA generen outputs que reproduzcan contenido protegido sin la preceptiva autorización; o (d) facilitar mecanismos de reclamación para titulares de derechos, incluyendo la designación de un punto de contacto y un sistema eficaz de tramitación de quejas.

Además, el Código indica que estas obligaciones deben cumplirse incluso si el proveedor actúa mediante terceros (como crawlers o APIs que recopilan datos por cuenta de la empresa), y recomienda la transparencia activa sobre el contenido utilizado para entrenar los modelos.

Si bien la jurisprudencia del Tribunal de Justicia de la Unión Europea aún no ha abordado directamente casos relacionados con IA generativa, sí ha sentado principios fundamentales sobre el derecho de reproducción (Infopaq, C-5/08), la comunicación al público (Svensson, C-466/12 y GS Media, C-160/15) y el uso de fragmentos musicales

Bajando a un plano práctico, pensemos en un proveedor que entrena un modelo IA de lenguaje con datos extraídos de sitios web de revistas científicas (web scrapping), muchas de ellas accesibles previa suscripción de pago, sin haber verificado si dichas webs han manifestado reservas expresadas mediante robots.txt o metadatos. El modelo de IA podrá reproducir párrafos enteros de artículos protegidos y si el titular de derechos detectase tal acción y probase la existencia de una reserva de derechos visible y técnica, el proveedor podría incurrir en responsabilidad por reproducción no autorizada, vulnerando así los derechos exclusivos del titular en cuestión.

Otro ejemplo podría ser un modelo de IA entrenado con partituras cuya titularidad sea dudosa y que genere melodías que resulten ser sustancialmente similares a obras registradas por una editorial. ¿Cabe responsabilidad del proveedor? En principio, sí, por vulnerar el artículo 18 del TRLPI especialmente si no se ha adoptado un protocolo técnico para excluir esas fuentes durante el entrenamiento del modelo de IA, o si no se han documentado las medidas preventivas que exige el RIA en virtud de su artículo 55.

Por el contrario, si una universidad pública publicase, por ejemplo, una tesis en acceso abierto sin incluir reservas técnicas, en principio podría entrenarse un modelo de IA de uso general al no existir una reserva clara y machine-readable.

Expuesto lo anterior, cabe resaltar que, si bien la jurisprudencia del Tribunal de Justicia de la Unión Europea aún no ha abordado directamente casos relacionados con IA generativa, sí ha sentado principios fundamentales sobre el derecho de reproducción (Infopaq, C-5/08), la comunicación al público (Svensson, C-466/12 y GS Media, C-160/15) y el uso de fragmentos musicales (Pelham, C-476/17) que podrían resultar determinantes cuando lleguen los primeros litigios sobre outputs generados por IA.

Por lo tanto, la adhesión y cumplimiento del Código (autorregulación soft law) puede ser clave para demostrar buena fe y diligencia por parte del proveedor del modelo de IA. Si bien la adhesión al Código no garantiza el cumplimiento pleno del RIA, sí funciona como evidencia relevante de buenas prácticas ante posibles investigaciones de la Oficina de IA o reclamaciones de terceros. En España, encaja con el principio de responsabilidad proactiva derivada del TRLPI y refuerza la idea de que no basta con declarar intenciones, sino que hay que implementar políticas claras, transparentes y documentadas.

En definitiva, el nuevo Código de buenas prácticas no se erige como una carga adicional, sino como una oportunidad para que los desarrolladores de IA trabajen con seguridad jurídica. En un entorno donde la creatividad, la innovación y los derechos de propiedad intelectual conviven en una tensión creciente, contar con herramientas técnicas y jurídicas claras no es solo un deber normativo, sino un acto de responsabilidad ética. En definitiva, para quienes desarrollan o usan IA en España, el binomio RIA–TRLPI ya no es una cuestión académica, sino que se constituye como el marco real sobre el que se juega el futuro de la cultura digital europea.

Blanca de Planchard de Cussac Vegas-Latapie es abogada asociada de act legal Spain.

Publicado en Vozpópuli.

IA y derechos de autor: el código europeo que pone orden en el caos del entrenamiento masivo de datos

Falta la transposición en España

Entradas recientes

Categorías