5,576 millones de dólares. Eso es lo que los creadores de DeepSeek V3 afirman que se gastaron en el entrenamiento completo de este sorprendente modelo de IA. Lo dejan claro en su informe técnico oficial, que nos habla de cómo usaron 2,788 millones de horas de GPU (NVIDIA H800) para completarlo.
¿Nos lo creemos? Las cuentas les salen a ellos, claro, pero ¿y al resto del mundo? Ese es el debate abierto desde que este fin de semana explotó la noticia del lanzamiento de DeepSeek-R1. Este modelo de razonamiento, derivado de DeepSeek V3, compite de tú a tú con o1 de OpenAI, y que dé tanto por tan poco ha hecho que empresas como NVIDIA pierdan 400.000 millones de dólares en un solo día en bolsa.
Difícil de creer. La pregunta es si nos podemos fiar de las cifras que ofrece DeepSeek. Ben Thompson trató de ofrecer alguna luz al respecto y recordó que en el informe técnico de DeepSeek V3 sus responsables desglosan el coste del entrenamiento, pero aclaran algo importante. Los 5,576 millones de dólares no incluyen "costes asociados con investigaciones previas y experimentos en arquitecturas, algoritmos o datos".
La opinión de los analistas. Ben Thompson indica en Stratechery que eso deja claro que uno no puede coger 5,6 millones de dólares y replicar lo que ha hecho DeepSeek, pero es que además añde que "aun así sigo sin creerme ese número". Otros analistas como como Nathan Lambert, que en su newsletter Interconnect también debatía sobre este tema.
Hubo (por supuesto) gastos previos. Como explican en Financial Times, hay otros analistas que también dudan de ese dato interno de DeepSeek. Dylan Patel, de SemiAnalysis, argumenta según las citas del diario económico que DeepSeek ha tenido acceso a "decenas de miles" de GPUs de NVIDIA que se usaron para entrenar a los modelos que precedieron a R1.
Pero eso pasa con otros modelos. "DeepSeek ha gastado claramente más de 500 millones de dólares en GPUs en su historia", afirmó Patel, "y aunque su entrenamiento fue muy eficiente, requirió mucha experimentación y pruebas para funcionar". Es un apunte interesante, aunque también es cierto que otras muchas empresas se gastan cientos e incluso miles de millones de dólares en infraestructura para entrenar sus modelos y luego ofrecerlos a los usuarios.
Y costes no tan transparentes. Esos 5,6 millones de dólares no reflejan además gastos adicionales como los que seguramente tuvieron que asumirse al adaptar DeepSeek V3 –que es la base– a DeepSeek R1. No se habla de salarios, del trabajo en anotación de los datos para que estos fueran de calidad de cara al entrenamiento, o en posibles procesos de entrenamiento incompletos o que por alguna razón se interrumpieron y fallaron.
Comparando con Llama 3. Un investigador de IA llamado Praneet Rathi (@pseuddd) publicaba hace unas horas una extensísimo y detalladísimo análisis sobre el coste del entrenamiento de DeepSeek V3 671B (con 37B activos, lo que reduce las necesidades para entrenarlo) y lo comparaba al de Llama 3, de Meta. En él indica cómo Llama 405B necesitó 30 millones de horas de GPU frente a las 2,8 millones de las que hablan en DeepSeek.
Puede que sí, puede que no. Aquí estimaba que 1 hora de H800 (más limitada que la H100) usada en DeepSeek V3 equivalía a unas 0,75 horas de H100 usada en Llama 3, y tras aportar muchos datos más (como el hecho de usar solo aprendizaje por refuerzo y precisión FP8, lo que ahorra mucho en recursos) sus datos parecían apoyar la tesis de que el coste de DeepSeek es el que afirma ser. Otros comentarios con argumentos similares en Reddit también parecen dar credibilidad a los números publicados por la startup china. Por supuesto, es imposible saberlo con seguridad y otros usuarios comentan en Threads como esa comparación "es demasiado buena para ser verdad".
Pero es que cada vez es más barato entrenar modelos. Lo cierto es que la infraestructura es cada vez más potente y los procesos más eficientes. No solo para DeepSeek, sino para todos. Un análisis reciente estimó que el entrenamiento de GPT-4 a principios de 2023 había costado unos 63 millones ed dólares. En el tercer trimestre de 2023 ese coste hubiera sido de 20 millones de dólares, y es razonable pensar que hoy en día ese proceso hubiera sido aún más barato. Sería interesante saber qué dirían en OpenAI de esa estimación.
¿Es posible replicar DeepSeek R1? Que DeepSeek-R1 sea un modelo Open Source y que sus responsables hayan dado tantos datos sobre cómo han logrado desarrollar este modelo abre la puerta a que otros cojan el testigo y desarrollen modelos similares para luego irlos mejorando. Es precisamente lo que pretende hacer el proyecto Open-R1 cuyos participantes adelantan que aun así hay piezas del puzle que faltan, como por ejemplo qué datos se usaron para el entrenamiento o con qué "hiperparámetros" entrenaron el modelo.
Imagen | Taylor Vick
En Xataka | La siguiente fase de la IA no es ver quién invierte más sino quién invierte menos
Ver 25 comentarios
25 comentarios
pello20
Xataka entró en la etapa del 'negacionismo'.
Tan clara es la superioridad de Deepseek que logró en una semana dejar pérdidas de mas de un trillón de dólares en las empresas mas grandes del mundo.
moreorless
trump en 3...2...1:
deepseek es mas peligroso que tiktok y huawei juntas. o nos venden a deepseek o aranceles del 100% a china.
sapito_uy
Todo bien, pero esto abre también el cuestionamiento inverso: ¿habrán inflado OpenAI y otros el costo de entrenamiento para cobrar más por sus productos? Toda moneda tiene dos lados.
vilani
Lo que haya costado es totalmente indiferente, la realidad es que ha quedado demostrado que cualquier país o cualquier empresa puede crear su propia IA y eso es una buena noticia.
La hegemonía de los EEUU en esta tecnología ha quedado claro que no es tal como ellos se creían.
pos_soy_yo
¿Cuántos posts lleváis en dos días con este tema? ¿5?
fomlimalma
Por lo visto xi jinpooh se vuelto mas experto que humo musk en vender humo... los expertos de la IA están muy escépticos de esas cifras... las cuentas no cuadran ni aquí ni en la china
lordpatata
Siendo China una dictadura comunista, famosas en el mundo entero por su respeto a los derechos humanos y transparencia, no me fiaría mucho de los datos que han publicado. Probablemente no sean más que propaganda.
No estoy diciendo que IA que han desarrollado sea mejor o peor, pero tengo claro China no da nada gratis. Siempre hay intereses del gobierno detrás y el primero es eliminar a la competencia para tener el control total.
Un saludo!
yuri_primero
Aquí hay algo más importante que las gráficas o incluso lo que ha costado. Es el talento invertido. Ese que acaparaba todo USA con sus altos salarios. Fue precisamente eso lo que ha conseguido innovar para saltarse las sanciones a los chips.
Yo si fuera USA, estaría más preocupado por este punto que por lo que se está poniendo el foco. Recordemos que son más de 1000 millones de chinos y se han metido en una carrera competitiva entre ellos para ver quien entra en las universidades. Eso al final da fruto.
soyespanol
mi cuñado Paco lo consigue mas barato, q tiene un amigo en Almeria que le hace precio
ldmoore
Las cifras de coste de DeepSeek estan cojidas con pinzas, la gente se piensa que esto ha surgido de la nada, y no, solo hay que investigar un poco. High-Flyer se fundó en 2015 y desde entonces tienen mucho recorrido. DeepSeek v2 se anunció en Mayo de 2024, hay un artículo del FT de Junio de 2024 que ya avisaba de lo que se venia.
Antes del lanzamiento del DeepSeek v3 hubo mucho trabajo de desarrollo y investigación, así como cruce de modelos que no se está computando en los costes finales.
Mi opinión sobre este bloqueo tecnológico... me la reservo de momento.
Para finalizar, he de decir que la reacción desmesurada con Nvidia ha sido para soltar beneficios. Nvidia puede caer hoy o mañana. Pero a la larga sigue siendo la empresa más puntera y especializada en tecnología GPU. Y eso es un hecho fundamental por mucho que caigan los costes. Más bien, yo diría que Nvidia tiene a los potenciales rivales en casa. En fin, la competencia siempre es buena.
santaclos
Una startup china dicen... xD
Los billetes de o startup llevan la cara de Winnie the Pooh