Claude Opus 4.6 redefine la IA empresarial con 1M tokens

Anthropic lanza su modelo más avanzado con capacidades agentic mejoradas, ventana de contexto de 1M tokens y liderazgo en tareas de conocimiento.

Anthropic ha lanzado Claude Opus 4.6, su modelo de inteligencia artificial más avanzado, diseñado para transformar flujos de trabajo en finanzas, programación y análisis empresarial. El anuncio oficial confirma un salto cualitativo en capacidades agentic y gestión de contexto extendido.

El modelo supera a GPT-5.2 de OpenAI por 144 puntos Elo en GDPval-AA, evaluación independiente de Artificial Analysis que mide rendimiento en tareas profesionales de alto valor económico. Esta ventaja significa que Opus 4.6 supera a su competidor en aproximadamente 70% de los casos.

Ventana de contexto récord y capacidades técnicas

Por primera vez en la clase Opus, el modelo incorpora una ventana de contexto de 1 millón de tokens en beta, superando una limitación histórica de los grandes modelos de lenguaje. Esta capacidad permite procesar documentación empresarial extensa sin fragmentación y mantener coherencia en proyectos de larga duración.

En pruebas de recuperación de información (MRCR v2), Opus 4.6 alcanza 76% de precisión frente al 18.5% de Sonnet 4.5. El modelo extrae datos relevantes de contextos masivos sin degradación de rendimiento, lo que Anthropic describe como “un cambio cualitativo” en cómo los modelos utilizan contexto mientras mantienen máxima eficacia.

Además, el modelo soporta salidas de hasta 128,000 tokens, lo que permite generar documentos extensos, análisis financieros complejos o código completo en una sola ejecución, según detalla la documentación técnica de Anthropic.

Liderazgo en evaluaciones especializadas

Terminal-Bench 2.0, referente en evaluación de capacidades de programación agentic, posiciona a Opus 4.6 como el modelo de mejor desempeño en la industria. En Humanity’s Last Exam, prueba multidisciplinaria de razonamiento complejo, también lidera frente a modelos frontera.

En BrowseComp, evaluación que mide habilidad para localizar información difícil de encontrar en línea, el modelo confirma su superioridad en tareas de investigación profunda. Con configuraciones multi-agente, alcanza 86.8%, estableciendo un nuevo estándar para búsqueda asistida por IA.

Innovaciones en control y autonomía

La plataforma de desarrollo introduce adaptive thinking, que permite al modelo decidir cuándo aplicar razonamiento extendido según la complejidad del problema. Los desarrolladores disponen de cuatro niveles de esfuerzo: low, medium, high (predeterminado) y max, balanceando inteligencia, velocidad y costo según cada necesidad.

Context compaction, disponible en beta, resume automáticamente el contexto antiguo cuando las conversaciones se aproximan al límite, habilitando tareas de larga duración sin interrupciones. Esta función resulta crítica para agentes autónomos que ejecutan proyectos durante horas o días.

Expansión en herramientas empresariales

Claude Code incorpora equipos de agentes en versión preliminar, permitiendo que múltiples agentes trabajen en paralelo con coordinación autónoma. Esta arquitectura optimiza revisiones de código y análisis de repositorios extensos.

Claude in Excel recibe mejoras sustanciales: planificación mejorada, ingesta de datos no estructurados y capacidad para ejecutar cambios multi-paso. Claude in PowerPoint debuta en investigación preliminar para planes Max, Team y Enterprise, con capacidad para interpretar layouts, fuentes y slide masters manteniendo coherencia de marca.

Perfil de seguridad reforzado

El system card extenso documenta el conjunto más comprehensivo de evaluaciones de seguridad aplicado hasta ahora a cualquier modelo. Opus 4.6 muestra tasas bajas de comportamientos desalineados como decepción o sicofantía, igualando el perfil de seguridad de Opus 4.5 y reduciendo significativamente las negativas excesivas a consultas benignas.

Anthropic desarrolló seis probes especializados de ciberseguridad para monitorear posible uso indebido, dado que el modelo demuestra capacidades mejoradas en este dominio. La compañía anticipa posible intervención en tiempo real para bloquear abusos.

Reacciones de la industria

El lanzamiento generó respuestas inmediatas desde múltiples frentes, revelando tanto el impacto del modelo como la intensidad de la competencia en el sector.

Michael Truell, cofundador de Cursor, destacó que Claude Opus 4.6 sobresale en los problemas más difíciles: mayor persistencia, revisión de código más robusta y capacidad para mantener el foco en tareas largas donde otros modelos tienden a perder coherencia. Mario Rodriguez de GitHub afirmó que el modelo desbloquea tareas de largo horizonte previamente alcanzables solo por humanos.

Aabhas Sharma, CTO de Hebbia, señaló mejoras tangibles en atención al detalle, diseño espacial y estructuración de contenido. Crear PowerPoints financieros que solían tomar horas ahora toma minutos, según su evaluación. Nico Christie, cofundador y CTO de Shortcut AI, describió el salto de rendimiento como “casi increíble”: tareas del mundo real desafiantes para Opus 4.5 se volvieron repentinamente fáciles.

OpenAI contraataca en tiempo récord

Apenas 20 minutos después del lanzamiento de Claude Opus 4.6, OpenAI respondió anunciando GPT-5.3 Codex, su modelo especializado más avanzado para desarrolladores, integrado en herramientas Codex y APIs. La velocidad de respuesta evidencia la presión competitiva del sector.

OpenAI destacó ventajas específicas: GPT-5.3 Codex es aproximadamente 25% más rápido que su predecesor. Además, partes del modelo fueron optimizadas usando versiones anteriores del propio GPT-5.3, implementando una forma de auto-mejora asistida por IA.

Los benchmarks comparativos revelan fortalezas diferenciadas por especialización: en Terminal-Bench 2.0, GPT-5.3 Codex alcanzó 77.3% frente al 65.4% de Claude Opus 4.6. En OSWorld, Claude obtuvo 72.7%, superando el 64.7% verificado de GPT-5.3. En SWE-Bench, Claude logró 80.8% verificado contra el 56.8% Pro de GPT-5.3.

Adopción empresarial y casos de uso especializados

Anthropic confirmó que ahora cuenta con más de 300,000 clientes empresariales de pago, consolidando su posicionamiento en el mercado B2B.

Justin Reppert, ingeniero de investigación en machine learning de Elicit, reportó que Claude Opus 4.6 alcanzó 85% de recall en su benchmark de inteligencia competitiva biofarmacéutica. El incremento de 12 puntos sobre la línea base, con 100% de probabilidad bayesiana de mejora, se logró a través de ciclos de descubrimiento autónomos de 15 minutos sin ajuste de prompts.

En aplicaciones legales, Claude Opus 4.6 obtuvo el puntaje más alto de cualquier modelo Claude en BigLaw Bench con 90.2%: 40% de puntuaciones perfectas y 84% por encima de 0.8. El resultado demuestra capacidad notable para razonamiento legal complejo.

Disponibilidad y estructura de precios

Claude Opus 4.6 está disponible desde hoy en claude.ai, API de Claude y principales plataformas cloud. Los desarrolladores acceden mediante el identificador claude-opus-4-6. El precio se mantiene en $5/$25 por millón de tokens, con tarifa premium de $10/$37.50 para prompts superiores a 200,000 tokens.

La inferencia exclusiva en Estados Unidos está disponible con un multiplicador de 1.1× en el precio de tokens, respondiendo a requisitos de localización de datos empresariales.

El lanzamiento simultáneo de modelos competidores marca un punto de inflexión en la industria: la carrera de IA ya no se centra en actualizaciones incrementales, sino en el control de la próxima generación de sistemas de IA autónomos y funcionales para entornos empresariales.