La insaciabilidad de información de la Inteligencia Artificial (IA) y los derechos de propiedad intelectual
Claudia Schatan

De qué se trata

94 opiniones • veces leído

La necesidad creciente de todo tipo de información por parte de estas plataformas ha llevado a lo que se denomina “raspado e ingestión indiscriminadas” de información y a buscar nuevas formas de obtenerla.

Lectura: ( Palabras)

“Debido a que los derechos de autor cubren virtualmente cada tipo de expresión humana – incluyendo publicaciones de blogs, fotografías, publicaciones de foros, segmentos de códigos de software, y documentos gubernamentales – sería imposible entrenar los modelos más avanzados de inteligencia artificial hoy sin usar materiales protegidos por derechos de autor (declaraciones de OpenAI en la Cámara de los Lores de Gran Bretaña, 05/12/2023) (traducción propia).

La IA generativa, manejada por plataformas como Transformadores Generativos Preentrenados o ChatGPT (por sus siglas en inglés), apareció en el escenario en 2018 en su versión simple que creaba algunos contenidos de texto, pero su avance hasta llegar al actual Chat GPT-4 es enorme. Con DALL-E 3, además, ChatGPT también produce video e imágenes a partir de textos.

Para este fin se usa el gran modelo de lenguaje (o LLE, por sus siglas en inglés),  que “aprende a través de la ‘lectura’ de billones de palabras que le ayudan a captar los patrones que generan el lenguaje, lo que le permite asimilar preguntas y responderlas con patrones de lenguage comunes” (Gemini) (traducción propia). Al mismo tiempo, han surgido una serie de otras grandes empresas tecnológicas capaces de trabajar con los LLE. Este es el caso de Gemini de Google, Claude de Anthropic y Llama de Meta, entre otras, que pueden crear contenido nuevo incluyento textos, audios, videos, imágenes, códigos para desarrollo de software, etc.

Cuanta más información y de mayor calidad se tenga para nutrir estos algoritmos, cada vez más sofisticados, mejores serán los resultados de estos procesos. Es decir, se necesita usar una creciente cantidad de insumos para alimentar y entrenar los algoritmos.

En el caso de GPT-3 se necesitaron alrededor de 45 terabytes de información de texto, lo que equivale a alrededor de la cuarta parte de la biblioteca del Congreso de Estados Unidos, pero GPT-4 actual usa 1 petabyte (o 1024 terabytes, TB) de información escrita. A pesar de que desde 2023 Chat GPT puede acceder al Internet para hacer búsquedas en tiempo real y proveer mejores resultados a las interrogantes que se le plantean, incluso este medio puede ser insuficiente para entrenar adecuadamente a los algoritmos. Eso es aún más cierto si se considera que, en principio, sólo se puede acceder a materiales que no están protegidos por la propiedad intelectual.

La necesidad creciente de todo tipo de información por parte de estas plataformas ha llevado a lo que se denomina “raspado e ingestión indiscriminadas” de información y a buscar nuevas formas de obtenerla. Ya en 2021 Open AI tuvo problemas para acceder a la cantidad de texto que necesitaba para que su última versión de Chat GPT (4) pudiera eventualmente operar adecuadamente.

Para aliviar en alguna medida esta limitación, según la investigación hecha por el NYT sobre este tema, en 2021 Chat GPT recurrió a un instrumento llamado Whisper para transcribir el audio desde videos en YouTube, para así acceder a más textos con la finalidad de enriquecer los “conocimientos” de la IA. Según esta fuente, se transcribieron más de un millón de horas de video desde YouTube, lo que va en contra de la política de esa plataforma (que pertenece a Google) pues se prohibe el uso de sus videos para aplicaciones.

Mucha de la obra escrita y accesible a través de Internet está protegida por leyes de propiedad intelectual, cuyo propósito ha sido desde siempre incentivar y promover la retribución a la creatividad humana, pero se ha estado trasgrediendo cada vez más este tipo de derechos. Ya hay demandas y reclamos por el uso de ese material para la operación de los chatbots.

Uno de los casos más conocidos es la demanda interpuesta por el NYT en diciembre de 2023 contra Microsoft y OpenAI, alegando que esta última había utilizado sin permiso sus artículos para generar productos de IA. La queja del NYT aducía a que “OpenAI tomó millones de artículos periodísticos protegidos por derechos de autor, investigaciones importantes, artículos de opinión, reseñas, guías de cómo hacer cosas y más en un intento de ‘aprovecharse de la inversión masiva hecha por Times en el periodismo’.” (traducción propia).

De hecho, el NYT aportó evidencia de que el producto de ChatGPT contenía partes importantes de artículos del periódico casi sin modificaciones. Hay numerosas demandas más contra OpenAI. Esta empresa, por su parte, está tratando de evitar este tipo de situaciones buscando acuerdos con grandes empresas del periodismo e información como Axel-Springer y Associated Press, pero no cubre, ni mucho menos, todo el espectro de las fuentes de información que utilizan.

La reacción de las plataformas de IA generativa que enfrentan litigios ante las situaciones descritas llama la atención. Por ejemplo, en lugar de eliminar ese material protegido de las bases de información con las que se entrenan los algoritmos, o pagar por los derechos de autor trasgredidos, el CEO de Open AI, Sam Altman, ha ofrecido a sus clientes usuarios de ChatGPT que enfrentan demandas por infringir la propiedad intelectual, cubrir los costos legales de su defensa (aunque este beneficio sólo es para algunos de los usuarios de este programa, como ChatGPT Enterprise pero no para los usuarios de la versión gratuita de esta plataforma).

Otros gigantes de la IA generativa como Google, Microsoft y Amazon han ofrecido un respaldo similar a sus clientes, de la misma manera en que lo han hecho Getty Images, Shutterstock y Adobe con sus propios clientes para sus software productoras de imágenes. Está claro que las plataformas de IA generativa no pueden operar sin los insumos de material protegidos por derechos de autor pero no están dispuestos a pagar el usufrutuo de éstos. Esto es un gran reto para mantener algunos de los incentivos más importantes que hasta ahora la humanidad se ha dado para seguir siendo creativa.

La situación descrita, es aún más grave si se considera que a raíz de la escasez de información para la IA generativa las empresas tecnológicas están comenzando a producir información sintética, es decir, contenido creado por estas compañías para entrenar a sus algoritmos. Es decir, aprenden de la información creada artificialmente por ellos mismos, en la cual es prácticamente imposible rastrear la creatividad humana, pues aunque ese es el material base ya no puede identificarse.

Sabemos que la regulación siempre va varios pasos atrás de las innovaciones, pero ya empiezan a surgir algunas importantes medidas que contribuirán a poner un poco de orden a esta revolución en la “creatividad” (tema en discusión) por parte de las máquinas usando el material de los humanos como un insumo. La nueva Ley de la Unión Europea sobre Inteligencia Artificial es pionera mundialmente en materia de regulación del uso de la IA en muchos sentidos, incluyendo el establecer condiciones claras para el uso de material protegido por derechos de autor para el entrenamiento de la IA.

Las obligaciones establecidas en este terreno incluyen: (a) documentación técnica: transparentar y mantener al día la documentación técnica del modelo empleado, incluyendo su proceso de entrenamiento y prueba y los resultados de su evaluación; (b) compartir información: mantener actualizadas a las empresas que emplean sistemas de IA sobre los modelos de IA que piensan incorporar a dichos sistemas, y subrayando que al hacerlo se debe proteger los derechos de propiedad intelectual así como información confidencial de empresas y secretos comerciales de acuerdo a la UE y leyes nacionales; (c) cumplimiento de la Ley de Derechos de Autor en el Mercado Unico Digital  de la UE (de 2019); (d) divulgación: redactar y hacer público un resumen suficientemente detallado sobre el contenido utilizado para entrenar los modelos de IA de propósito general (que incluyen la IA generativa) de acuerdo a los formularios provistos por la Oficina de IA.

Estos lineamientos son un gran avance para regular el uso de información de “creadores” por parte de la IA generativa, pero hay mucho más que hacer en cuanto a la regulación a nivel mundial. En Estados Unidos no ha habido una legislación específica para el uso de información por parte de la IA. Los gigantes tecnológicos se escudan en las excepciones a la aplicación de la ley de derechos de autor, que es muy estricta, aduciendo que su empleo para el entrenamiento de sus algoritmos es un uso “justo”.

En todo caso, como menciona un artículo del Economist, las reglas de derechos de autor son disímiles entre países, siendo por ejemplo Israel y Japón mucho más flexibles en el tema de la copia sin tanta penalización, y por tanto ofrecen paraísos para la obtención de información con el fin de entrenar IA.

Por lo pronto las empresas que generan contenido original, hecho por humanos, están bloqueando los mecanismos que penetran las bases de datos de sus sitios web para “raspar” escritos. Según el Instituto Reuter de la Universidad de Oxford en febrero de este año cerca de la mitad de los sitios web más populares de noticias tienen bloqueados los bots de OpenAI. 

Por otra parte, varias empresas que generan contenido original están viendo en la IA generativa una gran oportunidad para hacer sus propios negocios. Este es el caso Getty en colaboración con Nvidia que usan su propia información para entrenar sus robots, como menciona el artículo del Economist ya citado.

Qué tanto podrán competir estas empresas con las que tienen una gran experiencia y enormes bases de datos como OpenAI es incierto, pero la carrera está en marcha. ¿Cómo mantener el estímulo a la inventiva humana y retribuirla en forma justa en la era de la IA generativa? Esta es una pregunta que probablemente un chatbot no puede responder adecuadamente.

Más columnas del autor:
Todas las columnas Columnas de

Deja un comentario

Lo que opinan nuestros lectores a la fecha

Más de

Voces México