➤ GPT-5.3-Codex: OpenAI eleva agentes IA más allá del código

El nuevo modelo combina programación avanzada con razonamiento profesional, es 25% más rápido y el primero en ser clasificado de alta capacidad en ciberseguridad.

OpenAI expandió las capacidades de Codex más allá de la generación de código con el lanzamiento de GPT-5.3-Codex, su modelo de programación con agentes más avanzado. La nueva versión combina el rendimiento de codificación de vanguardia de GPT-5.2-Codex con las capacidades de razonamiento y conocimiento profesional de GPT-5.2 en un único modelo que además es 25% más rápido.

GPT-5.3-Codex establece nuevos récords sectoriales en SWE-Bench Pro y Terminal-Bench, demostrando rendimiento sólido en OSWorld y GDPval, cuatro benchmarks que miden capacidades de codificación, agentes y desempeño en entornos reales. El modelo permite realizar tareas prolongadas que incluyen investigación, uso de herramientas y ejecución compleja, mientras los usuarios dirigen e interactúan con él sin perder contexto.

Primer modelo en su propio desarrollo

GPT-5.3-Codex representa un hito singular: es el primer modelo clave en su propio desarrollo. El equipo de Codex utilizó versiones iniciales para corregir errores en el entrenamiento, gestionar el despliegue y analizar resultados de pruebas y evaluaciones, acelerando significativamente el proceso de desarrollo.

Esta capacidad de autoaceleración transformó los flujos de trabajo de investigación e ingeniería. Los equipos describen su trabajo actual como “muy distinto” a lo que era apenas dos meses atrás, según el anuncio de OpenAI.

Rendimiento técnico: nuevos estándares

GPT-5.3-Codex alcanza rendimiento de vanguardia en SWE-Bench Pro con 56.8%, una evaluación rigurosa de ingeniería de software en entornos reales que abarca cuatro lenguajes de programación y resulta más resistente a la contaminación que SWE-Bench Verified. El modelo logra estos resultados utilizando menos tokens que cualquier predecesor, permitiendo a los usuarios generar más contenido.

En Terminal-Bench 2.0, que mide habilidades de terminal necesarias para un agente de codificación, GPT-5.3-Codex alcanza 77.3%, superando ampliamente el rendimiento anterior de referencia (GPT-5.2-Codex: 64.0%, GPT-5.2: 62.2%).

OSWorld-Verified evalúa uso de ordenadores con agentes en entornos visuales de escritorio. GPT-5.3-Codex alcanza 64.7%, acercándose al rendimiento humano de aproximadamente 72% y superando significativamente a GPT-5.2-Codex (38.2%) y GPT-5.2 (37.9%).

Desarrollo web y aplicaciones complejas

OpenAI demostró las capacidades del modelo mediante dos proyectos extremos: un juego de carreras con corredores, ocho circuitos y objetos utilizables, y un juego de buceo con exploración de arrecifes, gestión de oxígeno, presión y peligros. Utilizando la skill de desarrollo de juegos web y prompts genéricos como “corrige el error” o “mejora el juego”, GPT-5.3-Codex iteró autónomamente sobre millones de tokens.

El modelo comprende mejor la intención del usuario al desarrollar sitios web cotidianos comparado con GPT-5.2-Codex. Los prompts simples generan ahora, por defecto, sitios con más funcionalidades y configuraciones sensatas. Por ejemplo, al solicitar una landing page SaaS, GPT-5.3-Codex muestra automáticamente planes anuales como precios mensuales con descuento y genera carruseles de testimonios con transiciones automáticas, resultando en páginas que parecen más completas y listas para producción desde el inicio.

Trabajo profesional especializado

GPT-5.3-Codex demuestra rendimiento sólido en trabajo profesional especializado según GDPval, igualando a GPT-5.2 con 70.9%. GDPval es una evaluación lanzada por OpenAI en 2025 que mide desempeño en tareas bien definidas de trabajo profesional en 44 ocupaciones, incluyendo creación de presentaciones, hojas de cálculo y otros productos laborales.

El modelo respalda todo el ciclo de vida del software: corregir errores, desplegar, monitorizar, redactar PRD, editar textos, investigar usuarios, probar y medir resultados. Sus funciones con agentes se extienden más allá del software hacia creación de presentaciones y análisis de datos en hojas de cálculo.

GPT-5.3-Codex is now available in Codex.

You can just build things.https://t.co/dyBiIQXGx1

— OpenAI (@OpenAI) February 5, 2026

Colaboración interactiva en tiempo real

A diferencia de modelos anteriores que operaban hasta completar tareas, GPT-5.3-Codex ofrece actualizaciones frecuentes sobre decisiones clave y progreso mientras opera. Los usuarios pueden interactuar en tiempo real: hacer preguntas, discutir enfoques y guiar la conversación hacia la solución. El modelo explica lo que está haciendo, responde a comentarios y mantiene informado de principio a fin.

Esta capacidad de seguimiento puede habilitarse en: Configuración > General > Comportamiento de seguimiento dentro de la aplicación Codex.

Casos de uso en OpenAI

Los equipos internos de OpenAI aprovecharon GPT-5.3-Codex para acelerar múltiples flujos:

Investigación: Supervisión y corrección de ejecución del entrenamiento, identificación de patrones, análisis detallado sobre calidad de interacciones y desarrollo de aplicaciones avanzadas para comparar comportamiento del modelo con versiones anteriores.
Ingeniería: Optimización del arnés de GPT-5.3-Codex, identificación de fallos al procesar contexto, determinación de causas raíz de bajas tasas de aciertos de caché, y escalado dinámico de clústeres de GPU para adaptarse a picos de tráfico.
Análisis de datos: Diseño de clasificadores regex para estimar frecuencia de aclaraciones, respuestas de usuarios y progreso en tareas. Creación de canalizaciones de datos y visualizaciones más completas que herramientas estándar de paneles, resumiendo ideas clave de miles de puntos de datos en menos de tres minutos.

Ciberseguridad: Alta capacidad y nuevas salvaguardas

GPT-5.3-Codex es el primer modelo que OpenAI clasifica como “Alta capacidad” para tareas de ciberseguridad bajo su Marco de preparación, y el primero entrenado directamente para identificar vulnerabilidades de software. Aunque no existen pruebas concluyentes de que pueda automatizar ataques cibernéticos end-to-end, OpenAI adoptó enfoque preventivo y lanzó su pila de seguridad cibernética más completa hasta la fecha.

Las medidas de mitigación incluyen capacitación en seguridad, monitorizado automatizado, acceso seguro a capacidades avanzadas y flujos de aplicación de políticas que integran inteligencia sobre amenazas.

OpenAI lanzó Trusted Access for Cyber, programa piloto diseñado para impulsar investigación en ciberdefensa, y expandió la versión beta privada de Aardvark, su agente de investigación de seguridad.
La compañía colabora con equipos de desarrollo de código abierto para ofrecer escaneo gratuito de bases de código en proyectos ampliamente utilizados como Next.js, donde un investigador empleó Codex para detectar vulnerabilidades divulgadas la semana pasada.
OpenAI destinó 10 millones de dólares en créditos de API para acelerar defensa cibernética con sus modelos más avanzados, especialmente en software de código abierto y sistemas de infraestructura crítica, expandiendo su Programa de Subvenciones de Ciberseguridad lanzado en 2023 con 1 millón de dólares.

Infraestructura y disponibilidad

GPT-5.3-Codex fue codiseñado, entrenado y ejecutado en sistemas NVIDIA GB200 NVL72. La colaboración con NVIDIA permitió mejoras en infraestructura y pila de inferencia que resultan en interacciones más ágiles y resultados 25% más veloces.

El modelo está disponible con planes de pago de ChatGPT en todos los entornos donde funciona Codex: aplicación, CLI, extensión IDE y web. OpenAI trabaja para habilitar acceso a la API de manera segura próximamente.

Benchmarks adicionales

En evaluaciones adicionales, GPT-5.3-Codex alcanza 77.6% en Cybersecurity Capture The Flag Challenges (vs 67.4% de GPT-5.2-Codex) y 81.4% en SWE-Lancer IC Diamond (vs 76.0% de GPT-5.2-Codex).

Los resultados confirman que GPT-5.3-Codex no solo supera modelos anteriores en tareas individuales, sino que representa un avance hacia un agente de propósito general capaz de razonar, construir y ejecutar en todo el ámbito del trabajo técnico real.

Lo que comenzó como esfuerzo por crear el mejor agente de codificación se transformó en la base de un colaborador más versátil en el ordenador, ampliando quién puede crear y todo lo que se puede lograr con Codex.