“Sería imposible”: Meta advierte sobre la dificultad para pagar por todos los datos que se utilizan para entrenar una IA

  • La Oficina de Derechos de Autor de Estados Unidos contempla actualizar sus reglas 

  • Algunas de las empresas tecnológicas más grandes del mundo creen que ciertos cambios podrían perjudicar el desarrollo de la IA

Conjuntos De Datos 2
38 comentarios Facebook Twitter Flipboard E-mail

Estamos presenciando en directo cómo la inteligencia artificial (IA) está impulsando cambios notables en el mundo donde vivimos. La lista de ámbitos que se están viendo afectados de alguna u otra manera por el vertiginoso desarrollo de esta disciplina es enorme, aunque por estos días se está hablando mucho sobre los derechos de autor.

La conversación gira en torno a la postura de las grandes tecnológicas frente a una posible actualización de las normativas de copyright en Estados Unidos ―que puede sentar un precedente a nivel mundial― que contempla la idea de pagar por los datos utilizados para entrenar sistemas de IA. A las Big Tech no les hace ninguna gracia.

Un cambio que puede cambiar la industria

Antes de avanzar en el tema es preciso recordar por qué hemos llegado hasta aquí, y podemos hacerlo de manera sencilla sin profundizar en detalles técnicos. Los modelos de lenguaje que dan vida a herramientas de IA como ChatGPT de OpenAI, Bing Chat de Microsoft y Bard de Google han sido entrenados con enormes conjuntos de datos.

Los modelos de lenguaje que intervienen en el ejemplo anterior son GPT-3,5, GPT-4 y PaLM. Gracias a las capacidades de estos es que los mencionados chatbots pueden ayudarnos a elaborar un itinerario de viaje, escribir poesía o explicar la fisión nuclear con manzanas. Entonces, ¿de dónde proviene toda esta información? He aquí la polémica.

En general, puede haber excepciones, los conjuntos de datos está conformados por información recopilada de Wikipedia, blogs, páginas de noticias, libros y código de plataformas del estilo de GitHub. Y, en todo esto, hay material protegido por derechos de autor. También hay modelos entrenados con imágenes y vídeos disponibles en la red.

A medida que la IA generativa evoluciona y se vuelve más popular, autores de obras de todo tipo han empezado a quejarse ―y en algunos casos a demandar― a las grandes tecnológicas por utilizar su trabajo sin permiso. Ahora bien, también están quienes aseguran que el marco legislativo actual no contempla esta realidad que estamos presenciando.

Derechos De Autor

Una de las piezas de este enjambre es la Oficina de Derechos de Autor de Estados Unidos, que se ha comprometido a abordar el tema, abriendo la puerta a un posible esquema de retribución para los autores. En este momento se está desarrollando la instancia de comentarios, donde la oficina recibe comentarios de las partes involucradas en el asunto.

Pues bien, algunos de los gigantes tecnológicos más grandes del planeta no ven con buenos ojos cambios en este sentido. Según Business Insider, Meta ha señalado en su presentación que “sería imposible para los desarrolladores de IA adquirir licencias de derechos de autor de obras críticas”, y que se utilizan cantidades masivas de datos.

Otras firmas como OpenAI, Microsoft y Google han tomado una postura similar al asegurar que se utiliza tal cantidad de datos que no hay una forma viable de pagar por todos ellos (a través de licencias). TechNet, un grupo que representa a estas compañías, también ha dicho que este esquema obstaculizaría el desarrollo de la inteligencia artificial.

Desde Google afirman que sus modelos de IA han utilizado una base conocida como “recolección de conocimiento”, algo admitido por las leyes de derechos de autor vigentes actualmente. Un cambio en esta línea, según el gigante de las búsquedas, "impondría una responsabilidad aplastante a los desarrolladores de IA.

Imágenes: Markus Winkler | Meta

En Xataka: Se llama Aitana, es influencer y triunfa en Instagram con más de 90 mil seguidores, pero no existe: es una modelo de IA

Inicio