DeepSeek: ¿Qué hay detrás de los números de la ballena?

Hoy exploraremos los aspectos económicos de DeepSeek, el margen teórico y dos análisis de sensibilidad clave que nos permiten entender mejor cómo influyen distintos factores en la rentabilidad diaria.

mar 05, 2025

DeepSeek

DeepSeek es una plataforma de inteligencia artificial China similar a OpenAI o Anthropic, que ofrece dos modelos principales:

DeepSeek-V3 (deepseek-chat)

Costo de tokens de entrada:
- Cache hit: $0.07 por millón de tokens.
- Cache miss: $0.27 por millón de tokens.
Costo de tokens de salida: $1.10 por millón de tokens.

DeepSeek-R1 (deepseek-reasoner)

Costo de tokens de entrada:
- Cache hit: $0.14 por millón de tokens.
- Cache miss: $0.55 por millón de tokens.
Costo de tokens de salida: $2.19 por millón de tokens (incluyendo tokens de Chain-of-Thought o CoT).

Ambos modelos operan con una longitud de contexto de hasta 64K tokens y utilizan una arquitectura de caching que distingue entre cache hits y cache misses, lo que impacta directamente en los costos y la velocidad de inferencia.

Costos de infraestructura

DeepSeek utiliza nodos equipados con GPUs H800, donde cada nodo agrupa 8 GPUs.
Con un costo aproximado de $2 por GPU por hora, el costo operativo diario se estima en aproximadamente $87,072 (basado en un promedio de 226.75 nodos activos durante un período de 24 horas).

Estadísticas relevantes (en un día típico)

Tokens de entrada: 608 mil millones (con un 56.3% de cache hit).
Tokens de salida: 168 mil millones.
Costo diario: ~$87,072.
Ingreso teórico diario (si todos los tokens se cobraran a las tarifas de DeepSeek-R1): ~$562,027.
Margen teórico: 545%.

Nota: Este escenario teórico es solo un punto de referencia. En la práctica, DeepSeek-V3 tiene tarifas más bajas, existen descuentos nocturnos, y no todos los usuarios pagan, ya que algunas interfaces (como la versión web o la app) pueden ofrecer acceso gratuito.

Factores que determinan la rentabilidad

1. Distribución entre modelos

El balance de usuarios entre DeepSeek-V3 y DeepSeek-R1 impacta directamente en la rentabilidad. Si más usuarios eligen R1, los ingresos por token serán mayores, pero también aumentará el consumo de recursos, lo que podría afectar los costos operativos.

2. Porcentaje de usuarios de pago

Solo una fracción de la base de usuarios está dispuesta a pagar. Si este porcentaje es bajo, los ingresos pueden reducirse drásticamente, incluso si el volumen de tokens procesados es alto.

3. Cache hit ratio

Un mayor cache hit ratio reduce el costo por token, pero también disminuye los ingresos por cada token facturado. Este balance es clave para optimizar la rentabilidad sin sacrificar eficiencia operativa.

4. Horarios pico vs. descuentos nocturnos

DeepSeek aplica precios diferenciados según el horario. Durante la franja off-peak (UTC 16:30–00:30), se aplican descuentos de hasta 75%, lo que impacta el ingreso promedio.

5. Tokens de salida y CoT en R1

El modelo DeepSeek-R1 cobra por cada token de salida, incluyendo aquellos generados durante el proceso de razonamiento (Chain-of-Thought). Si la salida es extensa, el ingreso por cada solicitud puede aumentar significativamente.

Análisis de Sensibilidad: Dos Perspectivas

1. Variación del tamaño de la base de usuarios y porcentaje de usuarios de pago

Este análisis evalúa cómo cambia la rentabilidad al modificar:

El tamaño de la base de usuarios (user base multiplier), escalando el volumen total de tokens (por ejemplo, de 0.5x a 1.5x del escenario base).
El porcentaje de usuarios de pago, variando entre 0% y 100%.

Para cada combinación, se calcula el margen de beneficio usando la fórmula:

$\text{Margen de beneficio} = \frac{Ingresos-Costos}{Costos} $

Los resultados se representan mediante un mapa de calor, que permite identificar la región de breakeven marcada con “+” (donde el ingreso cubre los costos) y las zonas de beneficio (zona a la derecha de la línea punteada).

2. Distribución entre DeepSeek-R1 y DeepSeek-V3 en usuarios de pago

Aquí se analiza el impacto de la distribución de solicitudes pagadas entre los dos modelos:

R1 Fraction: Porcentaje de solicitudes de usuarios de pago que utilizan DeepSeek-R1 (con el resto utilizando DeepSeek-V3).

El ingreso combinado se calcula con la siguiente ecuación:

$\text{Ingresos} = \text{Fracción}_{Pago} \times \left[ \text{Fracción}_{R1} \times \text{Ingresos}_{R1} + \left(1 - \text{Fracción}_{R1}\right) \times \text{Ingresos}_{V3} \right]$

Este análisis ayuda a visualizar cómo varía la rentabilidad según la preferencia de los usuarios por cada modelo, identificando el punto de equilibrio (breakeven) y la sensibilidad de la rentabilidad ante cambios en la distribución de solicitudes.

Conclusiones y reflexiones

Este análisis nos muestra que, aunque DeepSeek tiene un potencial de ingresos muy elevado, la rentabilidad final depende de múltiples factores:

La proporción de usuarios de pago es crucial para que los ingresos superen los costos fijos.
El balance entre DeepSeek-R1 y V3 impacta significativamente: R1 genera más ingresos por token, pero a un costo mayor.
Factores como el cache hit ratio y los descuentos nocturnos afectan el ingreso promedio por token.

Nota final:
Este análisis se centra en dos variables clave, pero existen muchas otras que podrían influir en la rentabilidad. Si quieres profundizar más, revisa los siguientes artículos técnicos de DeepSeek publicados en su Open Source Week:

FlashMLA: Efficient MLA decoding kernel for Hopper GPUs.
DeepEP: Communication library for Mixture-of-Experts models.
DeepGEMM: Optimized General Matrix Multiplication library.
Optimized Parallelism Strategies: Framework for optimizing parallelism in distributed deep learning.
Fire-Flyer File System (3FS): Distributed file system optimized for machine learning workflows.
DeepSeek-V3/R1 Inference System: Large-scale inference system using cross-node Expert Parallelism.

The Data Chronicles

Discusión sobre este post