Claude Sonnet 4.5 lidera en código y agentes autónomos

Anthropic lanza su modelo más capaz con rendimiento superior en programación, uso de computadoras y razonamiento, mientras mantiene el precio de $3/$15 por millón de tokens e introduce el Claude Agent SDK para desarrolladores.

Anthropic acaba de redefinir el estándar de capacidad en modelos de lenguaje. Claude Sonnet 4.5 no solo lidera en métricas de programación y uso de computadoras; representa un salto cualitativo en cómo los sistemas de IA pueden mantener contexto, ejecutar tareas complejas y operar con autonomía controlada durante períodos prolongados.

Rendimiento que reescribe los límites técnicos

Los números hablan por sí solos. Claude Sonnet 4.5 alcanza 77.2% en SWE-bench Verified, el benchmark que mide habilidades reales de codificación software. Esta evaluación no prueba conocimiento teórico; mide si un modelo puede resolver problemas auténticos de desarrollo que enfrentan los ingenieros diariamente.

Más revelador aún: el modelo mantiene foco durante más de 30 horas en tareas complejas de múltiples pasos. Esta capacidad de persistencia representa un cambio fundamental. Los modelos anteriores perdían contexto, cometían errores de seguimiento o requerían intervención humana constante. Sonnet 4.5 puede gestionar proyectos completos de principio a fin.

En OSWorld, que evalúa tareas reales de uso de computadoras, el modelo alcanza 61.4%. Hace cuatro meses, Claude Sonnet 4 lideraba con 42.2%. El salto de casi 20 puntos porcentuales en un trimestre señala aceleración en capacidades de interacción con sistemas operativos, navegación web y manipulación de aplicaciones.

Más allá del código: razonamiento y conocimiento especializado

Aunque la programación concentra la atención mediática, las mejoras en razonamiento matemático y conocimiento de dominio específico pueden tener impacto más amplio. Expertos en finanzas, derecho, medicina y STEM reportan conocimiento y razonamiento dramáticamente superiores comparado con modelos anteriores, incluyendo Opus 4.1.

Esta amplitud de capacidades diferencia a Sonnet 4.5 de modelos optimizados exclusivamente para código. Las organizaciones necesitan sistemas que puedan analizar contratos legales, revisar literatura médica, modelar escenarios financieros y programar soluciones técnicas. La versatilidad elimina la necesidad de mantener múltiples modelos especializados.

Infraestructura empresarial: Claude Agent SDK

Anthropic ha desarrollado Claude Code durante seis meses, resolviendo problemas fundamentales de diseño de agentes: gestión de memoria en tareas de larga duración, sistemas de permisos que balancean autonomía con control del usuario, y coordinación de subagentes trabajando hacia objetivos compartidos.

El Claude Agent SDK libera esta infraestructura. No se trata de una API genérica; es la misma arquitectura que impulsa Claude Code, probada en escenarios de producción complejos. Los desarrolladores obtienen los bloques de construcción para crear agentes con capacidades comparables, adaptados a sus problemas específicos.

Esta decisión estratégica reconoce una realidad: las organizaciones enfrentan desafíos únicos que ningún producto empaquetado puede resolver completamente. El SDK permite personalización profunda manteniendo las garantías de rendimiento y seguridad desarrolladas por Anthropic.

Alineación y seguridad: el modelo menos problemático

Claude Sonnet 4.5 marca el mayor avance en alineación de cualquier modelo frontier de Anthropic. Las mejoras medibles incluyen reducción de comportamientos como servilismo, engaño, búsqueda de poder y tendencia a fomentar pensamiento delirante.

Para capacidades agénticas y uso de computadoras, el modelo muestra progreso considerable defendiéndose contra ataques de inyección de prompts, uno de los riesgos más serios para usuarios de estas capacidades. Esta protección no es teórica; determina si las empresas pueden confiar en que un agente no será manipulado por entradas maliciosas para ejecutar acciones no autorizadas.

El modelo opera bajo las protecciones AI Safety Level 3 (ASL-3) del marco de Anthropic, que alinea capacidades de modelo con salvaguardas apropiadas. Los clasificadores detectan entradas y salidas potencialmente peligrosas, particularmente relacionadas con armas químicas, biológicas, radiológicas y nucleares (CBRN).

Anthropic reconoce abiertamente que estos clasificadores ocasionalmente marcan contenido normal. La empresa ha reducido estos falsos positivos por un factor de diez desde su descripción original, y por un factor de dos desde el lanzamiento de Opus 4 en mayo. Los usuarios pueden continuar conversaciones interrumpidas con Sonnet 4, que presenta menor riesgo CBRN.

Nuevas capacidades en productos existentes

Claude Code recibe checkpoints, una de las funciones más solicitadas. Los usuarios pueden guardar progreso y revertir instantáneamente a estados anteriores. La interfaz de terminal está actualizada y ahora incluye una extensión nativa para VS Code. Las nuevas funciones de edición de contexto y herramienta de memoria permiten que los agentes operen por períodos más largos manejando mayor complejidad.

En las aplicaciones Claude, la ejecución de código y creación de archivos (hojas de cálculo, presentaciones, documentos) ocurren directamente en la conversación. La extensión Claude para Chrome está disponible para usuarios Max que se unieron a la lista de espera el mes pasado.

Economía y accesibilidad

Anthropic mantiene los precios de Sonnet 4: $3 por millón de tokens de entrada y $15 por millón de tokens de salida. Esta paridad de precios con capacidades superiores representa devaluación efectiva del costo por unidad de capacidad. Las organizaciones pueden actualizar sin renegociar presupuestos.

El modelo está disponible inmediatamente mediante la API usando claude-sonnet-4-5. La accesibilidad instantánea contrasta con lanzamientos escalonados que crean asimetrías competitivas entre early adopters y el resto del mercado.

Vista previa de investigación: Imagine with Claude

Anthropic lanza una vista previa temporal llamada “Imagine with Claude” donde el modelo genera software al vuelo. Ninguna funcionalidad está predeterminada; ningún código está preescrito. Los usuarios observan a Claude creando en tiempo real, respondiendo y adaptándose a solicitudes durante la interacción.

Esta demostración ilustra el potencial cuando se combina un modelo capaz con la infraestructura correcta. Está disponible para suscriptores Max durante cinco días en claude.ai/imagine.

Implicaciones para decisores técnicos

Claude Sonnet 4.5 plantea preguntas estratégicas para CIOs y líderes de ingeniería. ¿Qué procesos internos podrían beneficiarse de agentes que mantienen contexto durante 30 horas? ¿Dónde la automatización falló previamente porque los modelos perdían el hilo de tareas complejas?

El Claude Agent SDK permite experimentación sin comprometer presupuestos masivos en desarrollo de infraestructura propietaria. Las organizaciones pueden construir, probar y validar casos de uso específicos usando los mismos componentes que Anthropic emplea en producción.

La competencia en modelos frontier se intensifica, pero la diferenciación real emerge en qué tan bien los proveedores equilibran capacidad con seguridad, y qué tan efectivamente permiten que las empresas personalicen soluciones sin reinventar toda la arquitectura subyacente. Sonnet 4.5 representa la apuesta de Anthropic en ambos frentes.

Claude Sonnet 4.5 lidera en código y agentes autónomos con 77.2% en SWE-bench