Aunque todavía tienen mucho que mejorar, los chatbots de inteligencia artificial (IA) no dejan de sorprendernos con su capacidad para mantener conversaciones fluidas, responder a preguntas, analizar datos, entre muchas otras tareas. Para que todo esto sea posible, no obstante, las compañías de IA necesitan entrenar a los modelos de lenguaje que impulsan sus aplicaciones con ingentes cantidades de datos.
En la actualidad este es un tema que levanta cierta controversia. Los gigantes tecnológicos que desarrollan algunas de las soluciones de IA más importantes del momento no son demasiado explicativos a la hora de informar de dónde provienen los datos de entrenamiento utilizados. Ahora, una investigación de Proof News señala que firmas como Apple, Anthropic, Nvidia y Salesforce utilizaron datos de YouTube.
Subtítulos de YouTube para entrenar modelos de IA
El informe dice que una organización sin ánimos de lucro denominada EleutherAI recopiló los subtítulos de 173.536 vídeos de YouTube, extraídos de más de 48.000 canales. Los datos recopilados, que no incluían imágenes de vídeo, sino texto sin formato de los vídeos, generalmente con traducciones a diferentes idiomas, fueron utilizados para crear un conjunto de datos titulado “YouTube Subtitles”.
YouTube Subtitles, explican, incluye material de creador de contenidos como MrBeast y Marques Brownlee. También hay datos de canales educativos como Khan Academy, MIT y Harvard. El conjunto de datos de los subtítulos de YouTube, a su vez, forma parte de “Pile”, un set de entrenamiento conformado por 22 conjuntos de datos que también incluye material del Parlamento Europeo, Wikipedia en inglés y más.
La investigación añade que Pile está abierto al público. Bajo esta premisa, una gran cantidad de académicos y compañías los han utilizado para sus trabajos relacionados a la IA. Entre ellos se encuentran las mencionadas tecnológicas estadounidenses, que no tomaron los datos directamente desde YouTube, sino que se sirvieron del trabajo realizado por EleutherAI para entrenar algunos de sus modelos de IA.
Los términos de servicio de YouTube
El presente escenario nos lleva a preguntarnos qué papel juegan los términos de servicio de YouTube. A comienzos del segundo trimestre del año, el CEO de YouTube, Neal Mohan, brindó una respuesta bastante interesante tras ser preguntado si creía que OpenAI estaba entrenando Sora con material de su plataforma de vídeos.
Mohan dijo que si bien cierto contenido de YouTube, como el título del vídeo, el nombre del canal o el nombre del creador están expuestos a la tarea web scraping (raspado web) para que pueda aparecer en los motores de búsqueda, las reglas actuales no permiten la descarga de los vídeos o sus transcripciones.
Las transcripciones son, en esencia, la materia prima de los subtítulos, porque contienen el texto de lo que se dice en el video. En este sentido, el ejecutivo no dudó en afirmar en abril de este año que la descarga de transcripciones o fragmentos de vídeos es una “clara infracción” de los términos de servicio de la plataforma.
Aquí, precisamente, entra en escena una segunda cuestión. Si bien el informe asegura que Apple, Anthropic, Nvidia y Salesforce utilizaron subtítulos de YouTube para entrenar algunos de sus modelos, no fueron estas compañías las que rasparon la plataforma para obtener estos datos. De esta tarea se encargó EleutherAI. Entonces, la gran pregunta es: si hay una infracción, ¿de quién es la responsabilidad?
Imágenes | Freepik |
En Xataka | 5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso
En Xataka | OpenAI tiene un nuevo proyecto secreto, según Reuters: 'Strawberry' podrá razonar y hacer tareas complejas
Ver 11 comentarios