El problema
Los modelos de IA no son intercambiables. Usar el modelo más potente para cada tarea es un desperdicio. Usar el más barato para todo produce resultados pobres. La habilidad está en saber qué modelo encaja en qué tarea — y construir sistemas que optimicen esto automáticamente.
El panorama de modelos (principios de 2026)
Usamos principalmente los modelos Claude de Anthropic:
| Modelo | Fortaleza | Costo (por 1M tokens) | Cuándo usar |
|---|---|---|---|
| Opus 4.6 | Razonamiento más profundo, análisis matizado | $5 input / $25 output | Planificación estratégica, reportes de investigación, análisis complejo |
| Sonnet 4.5 | Buen razonamiento, mucho más rápido | $3 input / $15 output | Tareas diarias, revisión de contenido, generación de código |
La ratio de costo: 1 llamada a Opus ≈ 1.7 llamadas a Sonnet en costo crudo. Pero la comparación real es calidad de output por dólar. Para tareas simples, Sonnet produce resultados equivalentes a menor costo. Para tareas complejas, Opus produce resultados que Sonnet no puede igualar a ningún costo.
Nuestro framework de decisión
Lo desarrollamos por prueba y error a través de 25+ tareas automatizadas:
Usá Opus cuando:
- Análisis estratégico o planificación a largo plazo
- Reportes de investigación que sintetizan múltiples fuentes
- Contenido que requiere juicio matizado
- Tareas donde equivocarse tiene alto costo de retrabajo
- Deep dives en temas complejos
Usá Sonnet cuando:
- Tareas operativas diarias (reportes de seguridad, chequeos de estado)
- Revisión y formateo de contenido
- Generación de código simple
- Notificaciones y resúmenes
- Tareas que corren frecuentemente (el costo se acumula)
La heurística: Si un humano dedicaría 30+ minutos a esta tarea, usá Opus. Si es una tarea de 5 minutos, usá Sonnet.
Experimento: asignación de modelos en el pipeline nocturno
Nuestro pipeline nocturno de 4 etapas inicialmente usaba un solo modelo. Experimentamos con asignación de modelos mixta:
Etapa 1 (Escaneo de noticias): Sonnet → Opus → de vuelta a Sonnet
- Opus produjo análisis más rico pero hizo timeout (límite de 10 minutos del cron)
- Sonnet completa a tiempo y produce resultados suficientemente buenos
- Ganador: Sonnet con prompting más ajustado
Etapa 2 (Análisis de patrones): Sonnet
- Toma el output de la Etapa 1 y encuentra patrones
- No necesita el razonamiento más profundo — solo síntesis
- Ganador: Sonnet
Etapa 3 (Implicaciones estratégicas): Opus
- Acá es donde importa el matiz — conectar noticias con nuestra situación específica
- Sonnet produjo observaciones genéricas; Opus produjo insights accionables
- Ganador: Opus
Etapa 4 (Briefing matutino): Sonnet
- Compila y formatea las Etapas 1-3 en un briefing legible
- Trabajo de ensamblaje, no de análisis
- Ganador: Sonnet
Resultado: El pipeline de modelos mixtos cuesta menos que todo-Opus mientras mantiene calidad donde importa.
Optimización de cuota: el sistema que construimos
En Claude Max (plan de suscripción), pagás una tarifa plana por una cuota semanal. La cuota no usada no se acumula. Esto crea una dinámica de "usalo o perdelo".
El problema que notamos: Algunas semanas apenas tocábamos la cuota. Otras semanas llegábamos al techo. Sin visibilidad del ritmo.
Lo que construimos: Un optimizador de cuota automatizado que corre dos veces al día (mañana y noche):
- Calcula el objetivo diario: Cuota semanal ÷ 7 = ideal diario (aproximadamente 14.3% por día)
- Mide el ritmo actual: Uso real ÷ uso esperado a esta altura de la semana
- Auto-escala cron jobs: Si estamos por debajo del ritmo → upgradea jobs clave a Opus. Si estamos por encima → downgradea a Sonnet.
- Alerta cuando estamos atrás: "Estás 3.4 días atrás — considerá usar Opus para trabajo profundo hoy."
- Modo pánico: Menos de 24 horas antes del reset con más del 30% sin usar → upgradea todo a Opus.
Tracking de estado: memory/quota-optimizer.json registra snapshots de consumo, asignaciones de modelos, e historial de alertas.
La economía de no pensar en economía
Acá está el insight contraintuitivo: obsesionarse con el costo por token generalmente está mal.
Escenario: Dedicás 15 minutos eligiendo entre Opus y Sonnet para una tarea. La diferencia de costo es $0.02. Tu tiempo vale mucho más que $0.02.
La regla: Armá un sistema (como el optimizador de cuota) que haga la selección de modelo automática. Después dejá de pensar en eso para tareas individuales. La atención humana es más cara que los tokens de API.
Excepción: Cuando estás corriendo 25+ tareas automatizadas, el agregado importa. Una diferencia de $0.02 por tarea × 25 tareas × 7 días = $3.50/semana. Eso vale la pena optimizar — pero con automatización, no con decisiones manuales.
Qué rastreamos
Nuestro tracking de uso captura:
{
"weeklyBudget": "Claude Max flat rate",
"dailyTarget": "14.3% of weekly quota",
"currentPace": "actual vs expected",
"modelDistribution": {
"opus": "strategic and research tasks",
"sonnet": "operational and routine tasks"
}
}
La métrica clave no es costo — es valor extraído por unidad de cuota. ¿Estamos usando la cuota para trabajo productivo (investigación, contenido, análisis) o desperdiciándola en trabajo mecánico (formateo, búsquedas simples)?
Errores que cometimos
Usar Opus para todo al principio. "Mejor modelo = mejores resultados" parecía lógico. Pero Opus es más lento, usa más cuota, y para tareas simples produce el mismo output que Sonnet.
No rastrear uso hasta que fue demasiado tarde. No construimos el optimizador de cuota hasta que notamos semanas de subutilización. Semanas de capacidad paga, desperdiciada.
Ignorar la interacción con timeouts. Opus tarda más en responder. En cron jobs con timeout de 10 minutos, esto significa que Opus puede hacer timeout en tareas que Sonnet completa sin problemas. La selección de modelo no se trata solo de calidad — se trata de restricciones operativas.
Lo que no hacemos (todavía)
- Sin optimización multi-proveedor. Solo usamos Anthropic. Agregar OpenAI o modelos locales (Ollama) expandiría significativamente el espectro costo-calidad.
- Sin tracking de costo por tarea. Sabemos el uso agregado pero no "este cron job específico cuesta X por ejecución."
- Sin scoring de calidad. No podemos comparar numéricamente "este output de Opus fue 30% mejor que Sonnet." La evaluación de calidad sigue siendo manual y subjetiva.
Fuentes
- Comparación de modelos de Anthropic — specs oficiales y precios
- Detalles del plan Claude Max — información de cuota de suscripción