El problema

Los modelos de IA no son intercambiables. Usar el modelo más potente para cada tarea es un desperdicio. Usar el más barato para todo produce resultados pobres. La habilidad está en saber qué modelo encaja en qué tarea — y construir sistemas que optimicen esto automáticamente.

El panorama de modelos (principios de 2026)

Usamos principalmente los modelos Claude de Anthropic:

Modelo	Fortaleza	Costo (por 1M tokens)	Cuándo usar
Opus 4.6	Razonamiento más profundo, análisis matizado	$5 input / $25 output	Planificación estratégica, reportes de investigación, análisis complejo
Sonnet 4.5	Buen razonamiento, mucho más rápido	$3 input / $15 output	Tareas diarias, revisión de contenido, generación de código

La ratio de costo: 1 llamada a Opus ≈ 1.7 llamadas a Sonnet en costo crudo. Pero la comparación real es calidad de output por dólar. Para tareas simples, Sonnet produce resultados equivalentes a menor costo. Para tareas complejas, Opus produce resultados que Sonnet no puede igualar a ningún costo.

Nuestro framework de decisión

Lo desarrollamos por prueba y error a través de 25+ tareas automatizadas:

Usá Opus cuando:

Análisis estratégico o planificación a largo plazo
Reportes de investigación que sintetizan múltiples fuentes
Contenido que requiere juicio matizado
Tareas donde equivocarse tiene alto costo de retrabajo
Deep dives en temas complejos

Usá Sonnet cuando:

Tareas operativas diarias (reportes de seguridad, chequeos de estado)
Revisión y formateo de contenido
Generación de código simple
Notificaciones y resúmenes
Tareas que corren frecuentemente (el costo se acumula)

La heurística: Si un humano dedicaría 30+ minutos a esta tarea, usá Opus. Si es una tarea de 5 minutos, usá Sonnet.

Experimento: asignación de modelos en el pipeline nocturno

Nuestro pipeline nocturno de 4 etapas inicialmente usaba un solo modelo. Experimentamos con asignación de modelos mixta:

Etapa 1 (Escaneo de noticias): Sonnet → Opus → de vuelta a Sonnet

Opus produjo análisis más rico pero hizo timeout (límite de 10 minutos del cron)
Sonnet completa a tiempo y produce resultados suficientemente buenos
Ganador: Sonnet con prompting más ajustado

Etapa 2 (Análisis de patrones): Sonnet

Toma el output de la Etapa 1 y encuentra patrones
No necesita el razonamiento más profundo — solo síntesis
Ganador: Sonnet

Etapa 3 (Implicaciones estratégicas): Opus

Acá es donde importa el matiz — conectar noticias con nuestra situación específica
Sonnet produjo observaciones genéricas; Opus produjo insights accionables
Ganador: Opus

Etapa 4 (Briefing matutino): Sonnet

Compila y formatea las Etapas 1-3 en un briefing legible
Trabajo de ensamblaje, no de análisis
Ganador: Sonnet

Resultado: El pipeline de modelos mixtos cuesta menos que todo-Opus mientras mantiene calidad donde importa.

Optimización de cuota: el sistema que construimos

En Claude Max (plan de suscripción), pagás una tarifa plana por una cuota semanal. La cuota no usada no se acumula. Esto crea una dinámica de "usalo o perdelo".

El problema que notamos: Algunas semanas apenas tocábamos la cuota. Otras semanas llegábamos al techo. Sin visibilidad del ritmo.

Lo que construimos: Un optimizador de cuota automatizado que corre dos veces al día (mañana y noche):

Calcula el objetivo diario: Cuota semanal ÷ 7 = ideal diario (aproximadamente 14.3% por día)
Mide el ritmo actual: Uso real ÷ uso esperado a esta altura de la semana
Auto-escala cron jobs: Si estamos por debajo del ritmo → upgradea jobs clave a Opus. Si estamos por encima → downgradea a Sonnet.
Alerta cuando estamos atrás: "Estás 3.4 días atrás — considerá usar Opus para trabajo profundo hoy."
Modo pánico: Menos de 24 horas antes del reset con más del 30% sin usar → upgradea todo a Opus.

Tracking de estado: memory/quota-optimizer.json registra snapshots de consumo, asignaciones de modelos, e historial de alertas.

La economía de no pensar en economía

Acá está el insight contraintuitivo: obsesionarse con el costo por token generalmente está mal.

Escenario: Dedicás 15 minutos eligiendo entre Opus y Sonnet para una tarea. La diferencia de costo es $0.02. Tu tiempo vale mucho más que $0.02.

La regla: Armá un sistema (como el optimizador de cuota) que haga la selección de modelo automática. Después dejá de pensar en eso para tareas individuales. La atención humana es más cara que los tokens de API.

Excepción: Cuando estás corriendo 25+ tareas automatizadas, el agregado importa. Una diferencia de $0.02 por tarea × 25 tareas × 7 días = $3.50/semana. Eso vale la pena optimizar — pero con automatización, no con decisiones manuales.

Qué rastreamos

Nuestro tracking de uso captura:

{
  "weeklyBudget": "Claude Max flat rate",
  "dailyTarget": "14.3% of weekly quota",
  "currentPace": "actual vs expected",
  "modelDistribution": {
    "opus": "strategic and research tasks",
    "sonnet": "operational and routine tasks"
  }
}

La métrica clave no es costo — es valor extraído por unidad de cuota. ¿Estamos usando la cuota para trabajo productivo (investigación, contenido, análisis) o desperdiciándola en trabajo mecánico (formateo, búsquedas simples)?

Errores que cometimos

Usar Opus para todo al principio. "Mejor modelo = mejores resultados" parecía lógico. Pero Opus es más lento, usa más cuota, y para tareas simples produce el mismo output que Sonnet.

No rastrear uso hasta que fue demasiado tarde. No construimos el optimizador de cuota hasta que notamos semanas de subutilización. Semanas de capacidad paga, desperdiciada.

Ignorar la interacción con timeouts. Opus tarda más en responder. En cron jobs con timeout de 10 minutos, esto significa que Opus puede hacer timeout en tareas que Sonnet completa sin problemas. La selección de modelo no se trata solo de calidad — se trata de restricciones operativas.

Lo que no hacemos (todavía)

Sin optimización multi-proveedor. Solo usamos Anthropic. Agregar OpenAI o modelos locales (Ollama) expandiría significativamente el espectro costo-calidad.
Sin tracking de costo por tarea. Sabemos el uso agregado pero no "este cron job específico cuesta X por ejecución."
Sin scoring de calidad. No podemos comparar numéricamente "este output de Opus fue 30% mejor que Sonnet." La evaluación de calidad sigue siendo manual y subjetiva.

Fuentes

Comparación de modelos de Anthropic — specs oficiales y precios
Detalles del plan Claude Max — información de cuota de suscripción

Selección de modelos y economía

Descripción general