Copilot es una revolución para programadores (pero también un potencial problema legal para Microsoft)

Copilot es una revolución para programadores (pero también un potencial problema legal para Microsoft)
4 comentarios

Para qué programar cuando una máquina lo hace (un poco) por ti. Esa máquina no es ni más ni menos que GitHub Copilot, un sistema de inteligencia artificial que está convirtiéndose en la herramienta preferida de muchos desarrolladores. No todo es de color de rosa, no obstante: la polémica con los derechos de autor está ahora en un punto álgido, y eso plantea una amenaza preocupante para Microsoft.

Cada vez más popular. Este asistente de programación que te "sugiere código y funciones enteras en tiempo real, directamente desde tu editor" ha ido ganando popularidad entre la comunidad de desarrolladores: hace un año Copilot ya "picaba" el 30% del nuevo código que llegaba a GitHub. Ahora esa cifra ha subido al 40%, y en cinco años dicen que llegará al 80%.

Demanda a la vista. Pero no todos están contentos. Matthew Butterick, que es abogado, diseñador y desarrollador, anunció el pasado lunes cómo está trabajando con un bufete en una posible demanda de copyright contra Github. En junio ya dejó clara su opinión sobre esta plataforma en un post titulado "Este Copilot es estúpido y quiere matarme".

Copilot copia código sin piedad. Tim Davis, profesor de Informática e Ingeniería en la Universidad A&M de Texas descubrió que Copilot copiaba al pie de la letra su código de transposición de matrices dispersas. Ese código está protegido por la licencia LGPL 2.1, que no es copyright estricto, pero que confiere diversos permisos y obligaciones.

Y parece que lo hace aunque le digas que no lo haga. GitHub no esconde ese hecho: se sabe desde su lanzamiento que ha sido entrenado con repositorios de código de esta plataforma, y de hecho sus responsables ofrecen un filtro que detecta código público en GitHub para que sepas de dónde proviene el código original.

Los usuarios de la plataforma pueden especificar que su código no se use para Copilot, pero al menos en el caso de Davis eso no sirvió de nada. El problema, claro, es que el código de Davis probablemente aparecía en otros proyectos de usuarios que cumplían con la licencia LGPL 2.1 pero no habían activado esa opción.

Entrenado con Open Source. Como Butterick explica, Copilot está basado en Codex, un sistema de IA creado por OpenAI y licenciado a Microsoft. Para crearlo se entrenó a Codex con "decenas de millones de repositorios públicos" —incluidos los de GitHub— que según Microsoft contienen "miles de millones de líneas de código público".

Qué pasa con las licencias. La mayor parte de repositorios hacen uso de licencias Open Source. Muchas de ellas simplemente piden que haya atribución y se diga de quién es el código original, pero Copilot no cumple con ese requisito. Para Nat Friedman, que dirigió GitHub —pero que cedió el testigo el pasado mes de noviembre— Copilot es un caso de "Fair Use" ("Uso Justo") del código que permitiría evitar esa atribución.

¿Cumple Copilot con el 'Fair Use'? La polémica del copyright viene de lejos. Para Butterick no es cuestión de si parece que lo cumple o no: debería ser la justicia quien lo determinara. Para él Copilot lleva a los desarrolladores a un nuevo jardín amurallado controlado, naturalmente, por Microsoft.

Esto tiene más miga de la que parece. La demanda no se ha hecho efectiva aún, pero de producirse podríamos estar ante una singular batalla legal que parece que es entre Microsoft y los desarrolladores. En realidad sería más bien una entre la inteligencia artificial y los creadores.

¿Es lícito entrenar un sistema IA con contenidos públicos? Nat Friedman así lo creía, pero el debate afecta no solo a los programadores, sino a otros campos. Por ejemplo, el de la generación de imágenes por IA que ahora está también en la cresta de la ola con plataformas como DALL·E 2, Midjourney o Stable Diffusion.

Imagen: Mohammad Rahmani

Temas
Inicio