Creíamos que ChatGPT era genial para programar: han hecho un estudio y la mitad de sus respuestas son incorrectas

Buscar respuestas en Stack Overflow o hacer búsquedas en Google ya no mola tanto. Muchos programadores han encontrado en ChatGPT una herramienta estupenda para agilizar su trabajo y depender menos de las mencionadas plataformas. Sin embargo, el chatbot de inteligencia artificial (IA) de OpenAI está lejos de ser perfecto, y fiarnos completamente en él puede no ser lo más acertado.

ChatGPT, al igual que cualquier otra herramienta basada en modelos de lenguaje grande (LLM), tiene varias limitaciones. La propia compañía liderada por Sam Altman señala en su página web que el chatbot “puede cometer errores” e invita a verificar la información importante. Ahora bien, en el mundo de la programación, ¿qué tan bien (o mal) hace su trabajo? Veamos lo que dicen unos investigadores.

Cuando más del 50% de las respuestas son incorrectas

Un grupo de investigadores de la Universidad de Purdue presentó este mes una investigación motivada por la “creciente popularidad de ChatGPT” y la dinámica de los LLM para “generar textos inventados” que generalmente son difíciles de reconocer por usuarios que carecen de cierta experiencia en el tema en cuestión. Muchas respuestas, de hecho, son plausibles, pero erróneas.

“Descubrimos que el 52% de las respuestas de ChatGPT contienen información errónea”, afirman los investigadores. En este sentido añaden que el 77% de las respuestas son más detalladas que las respuestas humanas (lo que no garantiza su precisión) y que el 78% de estas sufren de diferentes grados de inconsistencia. Se trata de cifras que realmente no pasan desapercibidas.

Para obtener estos valores, los investigadores tomaron 517 preguntas de programación de Stack Overflow. Después, examinaron la corrección, coherencia, exhaustividad y concisión de las respuestas con ChatGPT basado en GPT-3.5 y realizaron un análisis lingüístico a gran escala, como un estudio con usuarios para comprender las respuestas de ChatGPT desde diferentes puntos de vista.

Los investigadores de Purdue escogieron GPT-3.5 en lugar de GPT-4, la última versión del modelo de lenguaje al momento de realizar el estudio, que es la versión gratuita más ampliamente utilizada. Cabe señalar que también hicieron pruebas paralelas con GPT-4 y llegaron a la conclusión de que, si bien el modelo más nuevo funciona “ligeramente mejor”, ambos tienen una tasa de inexactitud alta.

Cuando hablamos de ChatGPT estamos haciendo referencia a un chatbot de IA que puede ser utilizado para diferentes tareas. Desde ayudarnos a programar hasta escribir una carta. En el mundo de la programación también tenemos otras herramientas impulsadas por IA diseñadas específicamente para desarrolladores, como GitHub Copilot, que se integra a los entornos de desarrollo.

En Xataka

El buscador de Google vive la revolución más importante de su historia. Por ahora está siendo un desastre

En cualquier caso, estamos presenciando en directo como la IA cambia la forma en la que trabajamos, y en este proceso vamos descubriendo bondades y defectos de las herramientas que utilizamos. Por lo pronto, ChatGPT parece estar lejos de poder superar las respuestas humanas en el ámbito de la programación. De hecho, está prohibido publicar respuestas con esta herramienta en Stack Overflow.

Imágenes | Gema Saputera | Rivage

En Xataka | Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores

En Xataka | Elon Musk y xAI quieren ganar la guerra de la IA: acaba de recibir 6.000 millones de dólares para lograrlo