OpenAI se quedó sin datos para entrenar su IA. Así que transcribió un millón de horas de YouTube para GPT-4

No solo ella: empresas como Google o Meta también están buscando soluciones para seguir entrenando sus modelos de IA

Yout1
8 comentarios Facebook Twitter Flipboard E-mail

Los chatbots que nos maravillan son voraces consumidores de datos. Los creadores de estos modelos de IA lo saben y han usado todo tipo de recursos para entrenarlos, pero se están quedando sin recursos. Lo sabe muy bien OpenAI, que según una investigación de The New York Times tuvo que recurrir a un método de lo más llamativo para seguir entrenando su LLM GPT-4.

Nos hemos quedado sin datos. A finales de 2021, revela el diario, los investigadores de OpenAI agotaron todas las reservas de textos en inglés de confianza que había en internet. Necesitaban más datos para seguir entrenándola y afinándola. Muchísimos más. ¿Cómo conseguirlos?

Un millón de horas de vídeos de YouTube. A estos ingenieros se les ocurrió crear Whisper, un modelo de IA capaz de transcribir el audio de vídeos de YouTube, lo que permitía obtener muchísimos textos para entrenar a su sistema de IA. Acabaron usando la herramienta para transcribir un millón de horas de audio de vídeos de YouTube, y con ellas alimentaron su voraz modelo de IA para seguir puliéndolo.

¿Y los derechos? La polémica está como siempre en si eso viola los derechos de YouTube como plataforma y los de los creadores de contenido que la usan. Según el Times, en OpenAI sabían que el método era cuestionable legalmente. Una portavoz de la empresa indicó a The Verge que la empresa filtra conjuntos de datos "únicos" para sus modelos para "ayudar a la forma en la que entienden el mundo" y para "mantener su competitividad de investigación a nivel global" sin mencionar específicamente esos vídeos de YouTube.

Google también lo hace. Los propios responsables de Google que trabajan en modelos de IA como Gemini también han hecho algo similar. Según cinco fuentes consultadas en el Times, la compañía transcribió vídeos de YouTube para recolectar textos con los que alimentar el entrenamiento de sus modelos. Eso "potencialmente violó el copyright de los vídeos, que pertenece a sus creadores".

Meta planteó otra potencial solución. La empresa de Mark Zuckerberg, que desarrolla Llama 2, también se ha encontrado con la misma situación, y según el diario para lograr datos de alta calidad —como libros escritos por profesionales— sus directivos se plantearon comprar la editorial Simon & Schuster para hacerse con ese tipo de textos. También "debatieron sobre la recopilación de datos protegidos por derechos de autor en internet, aunque ello supusiera enfrentarse a demandas judiciales", explican en The Times. Negociar licencias con todos esos creadores, destacaron las fuentes consultadas, "llevaría demasiado tiempo".

Licencias, la otra opción. Efectivamente esa última opción lleva tiempo, pero vistas las demandas que se han producido en los últimos meses en este ámbito, algunas empresas se han dado cuenta de que pagar por poder usar esas fuentes de datos sin implicaciones legales es lo más interesante. Google pagó una pequeña fortuna recientemente a Reddit para usar sus contenidos, y en OpenAI también están llegando a acuerdos con algunos medios.

Entrenar con datos sintéticos, opción de futuro. Según The Wall Street Journal, estas compañías están valorando una nueva forma de entrenar sus modelos: hacerlo con datos sintéticos. Esto es, datos creados por sus propios modelos, pero hacerlo de una forma controlada con datos de alta calidad con la esperanza de poder pulir el funcionamiento de sus sistemas de IA. La validez de esta retroalimentación está por demostrarse, pero está claro que las empresas están buscando soluciones para no quedarse sin datos de entrenamiento.

Imagen | NorWood Themes

En Xataka | Internet tal y como la conocíamos está muriendo: la IA generativa se la está cargando

Inicio