La compañía china de IA DeepSeek causó una explosión en las noticias del fin de semana porque reemplazó a ChatGPT de OpenAI como la app más descargada en la Tienda Apple App. Su éxito comercial siguió a la publicación de varios trabajos en los que DeepSeek anunciaba que sus nuevos modelos R1 – cuyo costo para el fabricante y el usuario es mucho menor – también son iguales y en algunos casos mejores que los mejores modelos públicamente disponibles de OpenAI.

¿Qué es lo que hizo DeepSeek que no hizo OpenAI, aunque tiene tantos recursos?

Es difícil saberlo con certeza porque OpenAI no ha dicho mucho sobre cómo entrenó a su modelo GPT-01, que antes lideraba en distintas pruebas. Pero hay algunas diferencias claras en la forma de operar de ambas compañías, y en otras áreas donde DeepSeek parece haber hecho impresionantes avances.

Quizá la diferencia más grande – y por cierto la que hizo que cayeran el lunes las acciones de fabricantes de chips como NVIDIA – es que DeepSeek está creando modelos competitivos mucho más eficienteme.

Los últimos modelos R1 y Ra-Zero están construidos sobre el modelo base V3 de DeepSeek, que la compañía dijo haber entrenado por menos de U$ 6 millones en costos de computación, usando hardware más viejo de NVIDIA (que las compañías chinas pueden comprar legalmente, a diferencia de los chips más avanzados de la compañía). En comparación, el CEO de Open AI Sam Altman dijo que entrenar a GPT-4 costó más de U$ 100 millones. (GM)