En enero de 2025, una startup china llamada DeepSeek publicó en arXiv un artículo describiendo R1, un modelo de razonamiento que igualaba a o1 de OpenAI en los principales benchmarks. El coste estimado de entrenamiento: unos 6 millones de dólares, frente a los cientos de millones que OpenAI invirtió en o1. El modelo estaba disponible en código abierto para cualquiera.
Lo que siguió fue uno de los días más agitados de la historia reciente de la tecnología: las acciones de NVIDIA cayeron un 17% en una sola sesión, las de los proveedores de infraestructura cloud se desplomaron, y el sector entero se vio obligado a reconsiderar sus supuestos sobre qué se necesita para construir IA de primer nivel.
Qué hizo DeepSeek diferente
El equipo de DeepSeek no tenía acceso a los chips más avanzados de NVIDIA (las restricciones de exportación de EE.UU. a China los excluyen de las H100 y H200 de última generación). Eso los obligó a ser creativos en la arquitectura.
Las innovaciones técnicas clave de R1:
Mixture of Experts (MoE) eficiente. En lugar de activar todos los parámetros del modelo para cada consulta, R1 activa solo los "expertos" relevantes para cada tipo de pregunta. Eso reduce drásticamente el coste de inferencia.
Reinforcement Learning puro para el razonamiento. En lugar de depender principalmente de datos de entrenamiento etiquetados por humanos, R1 aprendió a razonar a través de refuerzo — básicamente, resolviendo problemas y siendo recompensado por las respuestas correctas. El resultado es un "chain of thought" nativo que el modelo despliega antes de responder.
Las versiones más pequeñas de DeepSeek (R1-Distill de 7B y 14B parámetros) rendían notablemente bien porque fueron entrenadas imitando las respuestas del modelo grande — una técnica más eficiente que entrenar desde cero.







