GOLIVE
Volver al blog

Claude Mythos vs Opus 4.7 y 4.8: SWE-bench reales, Reddit 90:1 y Sonnet 4.8 sigue ausente

Claude Mythos alcanza el 77,8 % en SWE-bench Pro frente al 64,3 % de Opus 4.7, pero sigue inaccesible para el público general. La comunidad de Reddit documenta un ratio 90:1 de publicaciones críticas contra Opus 4.7, y un seguimiento en GitHub muestra 3,6x el coste en workflows agénticos. Claude Opus 4.8 se lanzó el 28 de mayo de 2026 (69,2 % en SWE-bench Pro, Fast mode 3× más barato que 4.7). Sonnet 4.8 sigue sin fecha confirmada a 2 de junio de 2026.

Claude Mythos vs Opus 4.7/4.8 para desarrolladores: SWE-bench Pro 77,8 % vs 69,2 % vs 64,3 %, MRCR long-context -33 pts (Opus 4.7), Fast mode 3× más barato (Opus 4.8), Reddit 90:1 críticas, Sonnet 4.8 sigue ausente a 2 de junio de 2026.

En resumen: Claude Mythos supera a Opus 4.7 por 13 puntos en SWE-bench Pro (77,8 % frente a 64,3 %) según los benchmarks oficiales de Anthropic. Mythos queda reservado a los 12 socios fundadores de Project Glasswing y a más de 40 organizaciones adicionales, sin disponibilidad general. Opus 4.7, el modelo accesible, acumula regresiones documentadas (MRCR long-context -33 pts, coste agéntico 3,6x). Actualización 28 de mayo de 2026: Claude Opus 4.8 acaba de lanzarse, 69,2 % en SWE-bench Pro (+5 pts vs 4.7), Fast mode 3× más barato, long-context parcialmente restablecido (GraphWalks 1M tokens: 68,1 %) según el anuncio oficial de Anthropic. Sonnet 4.8 sigue sin fecha confirmada a 2 de junio de 2026.

En mayo de 2026, Anthropic impone a los desarrolladores una elección incómoda en tres niveles: Claude Mythos, que pulveriza todos los benchmarks de coding agéntico con 24 puntos de ventaja sobre Opus 4.6 y 13 puntos sobre Opus 4.7 en SWE-bench Pro (77,8 % vs 64,3 %), sigue inaccesible para el público general. Opus 4.7, disponible hoy, divide profundamente a la comunidad. Y Sonnet 4.8 se perfila entre bastidores: las filtraciones del código fuente de Claude Code (marzo de 2026) anticipan una versión más eficiente en las tareas de desarrollo diario.

Lo que está en juego aquí va más allá de una simple guerra de versiones. Es la pregunta sobre qué esperan realmente los desarrolladores de un modelo IA: ¿un asistente fiable en el día a día, o un monstruo de potencia que no se puede tocar?

  • 📊 Brecha récord: Mythos supera a Opus 4.7 por 13 puntos en SWE-bench Pro (77,8 % vs 64,3 %), y a Opus 4.6 por 24 puntos.
  • ⚠️ Opus 4.7 controvertido: ratio 90:1 de publicaciones críticas vs positivas en Reddit.
  • 🔐 Mythos bloqueado: acceso restringido a los 12 socios fundadores y más de 40 organizaciones adicionales, sin fecha de disponibilidad general.
  • 🆕 Opus 4.8 lanzado el 28 de mayo de 2026: 69,2 % SWE-bench Pro (+5 pts vs 4.7), Fast mode 3× más barato ($10/$50 vs $30/$150), dynamic workflows, anuncio de Anthropic.
  • 🔍 Sonnet 4.8 sigue ausente: sin fecha confirmada a 2 de junio de 2026; las filtraciones npm (marzo de 2026) proyectan coding +12 pts y vision ~98 %.
  • 🎯 Veredicto de campo: el verdadero valor sigue estando en el ingeniero que pilota la herramienta.

Dos modelos, dos filosofías en Anthropic

Mythos es un demostrador de capacidades reservado a la investigación en seguridad; Opus es la herramienta de producción diaria de los desarrolladores. Esta distinción cambia fundamentalmente la forma de evaluar ambos modelos.

Mythos y Opus 4.7 salen del mismo laboratorio, pero no responden a la misma necesidad. Comprender esta distinción cambia la forma en que un equipo técnico debe planificar sus inversiones en IA.

¿Por qué Anthropic separó Mythos de Opus?

Claude Opus sigue siendo la familia de modelos «de uso general» de Anthropic. La progresión 4.5, 4.6, 4.7 sigue una lógica incremental: cada versión corrige debilidades, mejora el seguimiento de instrucciones, afina el multimodal. Es un modelo relativamente más pequeño, optimizado para desplegarse a gran escala.

Mythos es otra cosa. Como resume Matthew Berman en su vídeo de análisis, «el salto de 25 puntos en SWE-bench Pro entre Opus 4.6 y Mythos Preview no se consigue en una iteración. Eso representa meses de trabajo en un modelo fundamentalmente distinto.» Los rumores hablan de un modelo de 10 billones de parámetros. Si es cierto, se entiende por qué no funciona con tu suscripción Max.

Opus es una herramienta de producción. Mythos es un demostrador de capacidades.

El canal Data Science in your pocket resume bien la distinción: Opus 4.7 destaca como «knowledge expert» (razonamiento bruto, seguimiento de instrucciones, fiabilidad), mientras que Mythos brilla como «task execution» (comportamiento agéntico, análisis profundo, pensamiento sistémico). Para un desarrollador que entrega código cada día, este matiz es capital.

¿Cuál es el verdadero posicionamiento de Mythos en el ecosistema?

Mythos se anunció a través del Project Glasswing, un programa de ciberseguridad defensiva. Según Anthropic, Mythos Preview ya ha encontrado miles de vulnerabilidades graves en cada sistema operativo importante y en cada navegador. Analistas de YouTube (Matthew Berman, AICodeKing) citan ejemplos concretos: una vulnerabilidad de 27 años en OpenBSD, un bug de 16 años en FFmpeg ignorado por millones de pasadas de herramientas automatizadas. El modelo encadena exploits del kernel Linux de forma autónoma.

No es una herramienta para escribir componentes React. Es un sistema que razona sobre código a un nivel que la mayoría de los desarrolladores humanos no alcanzan. Anthropic lo puso en manos de AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike, Broadcom, Cisco y JPMorganChase, no en las de las startups SaaS.

Los benchmarks cuentan una historia clara

En SWE-bench Pro, el benchmark que mide la resolución de tickets reales de GitHub en condiciones reales, Mythos Preview alcanza el 77,8 % frente al 64,3 % de Opus 4.7, es decir, 13 puntos de diferencia. Las cifras no mienten, pero no lo dicen todo. Esto es lo que revela la comparación directa sobre la brecha entre ambos modelos.

¿Cómo interpretar la diferencia en SWE-bench?

Benchmark Opus 4.6 Opus 4.7 Opus 4.8 Mythos Preview GPT 5.4 Cyber Tendencia
SWE-bench Pro 53.4% 64.3% 69.2% 77.8% ~62% ↑ Mythos domina, 4.8 progresa
CyberGym 66.6% ~72% N/A 83.1% N/A ↑ +25% vs Opus 4.6
SWE-bench Verified 80.8% ~86% 88.6% 93.9% ~84% ↑ 4.8 se acerca a Mythos
Multimodal 27.1% ~38% N/A 59% ~35% ↑ se duplica
CursorBench (IDE) 58% 70% N/A N/A N/A ↑ +12 pts coding real en IDE
Terminal-Bench 2.0 (CI/CD) 65.4% N/A N/A 82.0% N/A ↑ +16,6 pts Mythos vs Opus 4.6
MRCR v2 (256k, multi-needle) 91.9% 59.2% N/A N/A N/A ↓ regresión -32,7 pts Opus 4.7 (256k)
GraphWalks (long-ctx 1M) N/A N/A 68.1% N/A N/A ↑ Opus 4.8 restablece el long-context
Coste Fast mode Base 3,6x vs 4.6 1× (Fast 3× más barato) N/A N/A ↑ Opus 4.8 Fast: $10/$50 vs $30/$150

FUENTE: anuncios de Anthropic (Project Glasswing + Opus 4.8) + vídeos analizados (Matthew Berman, Data Science in your pocket) + GitHub anthropics/claude-code#58369 · Actualización 02/06/2026. Nota: SWE-bench Pro ≠ SWE-bench Verified; los scores Pro son significativamente inferiores (tareas más complejas). Terminal-Bench 2.0 mide tareas de CI/CD y encadenamiento de terminal. CursorBench mide tareas de coding en un entorno IDE real. MRCR v2 mide la recuperación multi-needle a 256k tokens; GraphWalks mide la recuperación F1 a 1M tokens. GPT 5.4 Cyber es el modelo restringido de ciberseguridad de OpenAI, competidor directo de Mythos, que no debe confundirse con GPT 5.5 (flagship general).

El salto de Opus 4.6 a 4.7 (53.4 → 64.3 en SWE-bench Pro) ya representa más de 10 puntos en una sola iteración. Es una ganancia inusual para una versión menor. Pero Mythos sigue 13 puntos por encima de Opus 4.7.

Lo que llama la atención es la pregunta que plantea Matthew Berman: «Si Opus sigue subiendo de 4.7 a 4.8, 4.9, ¿en qué momento las puntuaciones se acercan tanto a Mythos que Anthropic ya no puede justificar mantenerlo privado?» La línea roja no es una puntuación fija. Es una cuestión de capacidad ofensiva, no de rendimiento bruto.

¿Hay que seguir fiándose de los benchmarks?

Un comentario en r/claude resume el escepticismo reinante: «Gemini gana en un montón de benchmarks y sigue siendo basura en producción.» Los benchmarks miden la resolución de problemas aislados. No miden la fiabilidad durante 8 horas de trabajo continuo, la gestión de contexto en un repositorio de 50 000 líneas, ni la capacidad de no alucinar un hash git.

Para los equipos que externalizan su desarrollo, la pregunta no es «qué modelo puntúa más alto» sino «qué modelo rompe menos cosas en modo autónomo».

Lo que los desarrolladores viven a diario con Opus 4.7

Opus 4.7 (lanzado el 16 de abril de 2026) supera a Opus 4.6 por 10 puntos en SWE-bench Pro en benchmarks, pero una gran mayoría de usuarios en producción reporta lo contrario. En MRCR v2 (benchmark multi-needle a 256k tokens), Opus 4.7 cae del 91,9 % al 59,2 % frente a Opus 4.6, es decir, -32,7 puntos según el seguimiento en GitHub anthropics/claude-code#58369. El nuevo tokenizer infla el consumo de input hasta un 35 % según el tipo de contenido; el coste total en los workflows agénticos medidos alcanza 3,6x el de Opus 4.6. Claude Opus 4.8 (lanzado el 28 de mayo de 2026) aborda parcialmente estas regresiones: 69,2 % en SWE-bench Pro, GraphWalks long-context al 68,1 % (1M tokens) y Fast mode a $10/$50, es decir, 3× más barato que el Fast mode de Opus 4.7 ($30/$150) según el anuncio de Anthropic. El tokenizer sigue sin cambios, la facturación estándar ($5/$25) también.

Los benchmarks prometen una ganancia de 10 puntos. La realidad del terreno cuenta una historia más matizada.

¿Por qué la comunidad está tan dividida con Opus 4.7?

Un usuario de r/ClaudeCode recopiló 110 hilos y 2 187 comentarios durante el fin de semana de lanzamiento de Opus 4.7 (16 de abril de 2026). El resultado: 41 hilos explícitamente críticos (3 500 upvotes acumulados) frente a 9 hilos positivos (39 upvotes). Ratio 90:1 en contra del modelo. Un factor agravante poco difundido: el nuevo tokenizer de Opus 4.7 infla el consumo de input hasta un 35 % según el tipo de contenido; el precio publicado ($5/$25 por millón de tokens) sigue siendo idéntico al de Opus 4.6, pero la factura real sube, hasta 3,6x en los workflows agénticos medidos en anthropics/claude-code#58369.

El hilo más votado (1 631 puntos, 700 comentarios) se titula «Opus 4.7 is legendarily bad.» El segundo (1 347 puntos) habla de un «AI layoff due to rising costs». El canal BoxminingAI confirma esta decepción: «El salto de 4.5 a 4.6 fue grande. Esperaba que 4.7 borrara nuestros problemas. No fue así.»

Sin embargo, existen voces positivas. Un usuario Max describe Opus 4.7 en max effort como «una mejora notable para el coding y la planificación respecto a 4.6». Otro señala que «sigue mejor las instrucciones y termina sus tareas antes de decir que ha acabado».

El patrón que emerge: Opus 4.7 funciona mejor cuando se invierte en prompting y configuración.

¿Qué revela la «lobotomía» de Opus 4.6?

Un post viral en r/ClaudeCode (2 448 upvotes) documenta con datos de PostgreSQL lo que el autor llama la «lobotomía» de Opus 4.6. Sobre 68 644 mensajes analizados en 34 días, el peor ratio observado fue de 5 bloques de reflexión por 147 llamadas a herramientas. El modelo dejaba literalmente de pensar en ciertos turnos.

Boris Cherny, creador de Claude Code, confirmó en Hacker News que los turnos en los que el modelo fabricaba información (versión de la API de Stripe, sufijo de hash git) tenían «zero reasoning emitted». No una reflexión reducida: cero.

Este contexto explica por qué la comunidad aborda Opus 4.7 con desconfianza. Los desarrolladores que pagan 400 dólares al mes quieren previsibilidad, no benchmarks. Y eso es exactamente lo que Mythos promete sin poder aún ofrecerlo al público general.

Lo que significa que Mythos esté fuera de alcance para el mercado

Mythos Preview (lanzado el 7 de abril de 2026) está reservado a los 12 socios fundadores del Project Glasswing (AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike, Broadcom, Cisco, JPMorganChase, Palo Alto Networks, la Linux Foundation y la propia Anthropic) y a más de 40 organizaciones adicionales, sin fecha de disponibilidad general ni tarifa pública. Para las pymes y los desarrolladores independientes, el horizonte más concreto sigue siendo Opus 4.7 (a pesar de sus regresiones activas) o Sonnet 4.8, esperado para mayo-junio de 2026, sin fecha confirmada por Anthropic a 26 de mayo de 2026. Esta asimetría de acceso redefine la competencia en el mercado del desarrollo asistido por IA.

Según el anuncio oficial de Project Glasswing, Anthropic compromete hasta 100 millones de dólares en créditos de uso de Mythos Preview, así como 4 millones de dólares en donaciones directas a organizaciones open-source (de los cuales 2,5 M$ a Alpha-Omega y la OpenSSF, y 1,5 M$ a la Apache Software Foundation). El mensaje es claro: Mythos es un activo estratégico, no un producto de consumo general.

¿En qué cambia las reglas el bloqueo de Mythos?

Un usuario de r/claude plantea la pregunta adecuada: «Si Mythos es lo que muestran públicamente, ¿cuál es el techo interno que no vemos? Los benchmarks públicos son siempre el suelo, no el techo.»

El comentario de otro usuario va más lejos: «Nosotros usábamos al estudiante. Ellos construyen con el profesor.» Esta asimetría tiene consecuencias directas. Los equipos de desarrollo que se apoyan en Claude para entregar código utilizan una versión significativamente menos capaz que la que se usa para construir al propio Claude.

Para los escépticos, DesignCourse recuerda que este «playbook» existe desde 2019 en OpenAI: anunciar un modelo «demasiado peligroso» para el público, generar expectación y luego monetizar el acceso progresivamente. OpenAI respondió a Mythos con GPT 5.4 Cyber, un modelo igualmente restringido a unas pocas empresas. La carrera armamentística está en marcha.

¿Cómo prepararse sin acceso a Mythos?

Trabajo con equipos de desarrollo en Vietnam que entregan código cada día con Claude Code y Opus 4.6. Lo que constato: la diferencia ya no la marca el modelo utilizado, sino la capacidad del ingeniero para estructurar su trabajo con la IA.

Un desarrollador senior que domina su arquitectura, sus tests y su prompting saca de Opus 4.6 resultados que un junior no obtendrá ni siquiera con Mythos. Es la realidad que los benchmarks no capturan. La IA amplifica la capacidad de producción de los buenos desarrolladores. No transforma a un no-ingeniero en arquitecto de software.

Según el World Economic Forum, las competencias en IA y big data figuran entre las más demandadas de aquí a 2030. Pero «competencias en IA» no significa «saber hacer prompts en ChatGPT». Significa saber integrar la IA en un workflow de ingeniería riguroso.

En este punto, las filtraciones involuntarias del código fuente de Claude Code (31 de marzo de 2026), un archivo source map publicado accidentalmente en el paquete npm v2.1.88, descubierto por el investigador de seguridad Chaofan Shou, que expuso ~512 000 líneas de TypeScript con referencias a modelos aún no lanzados, apuntan a Sonnet 4.8 como la próxima versión accesible. Según los análisis de NxCode (abril de 2026), la ventana inicial era mayo de 2026 (3 a 4 semanas después de Opus 4.7 del 16 de abril), y esa ventana ya pasó sin lanzamiento oficial (26 de mayo de 2026). Los mercados de predicción habían estimado en un 3 % las probabilidades de una salida antes del 24 de mayo. Las mejoras anticipadas según las filtraciones npm y las filtraciones en X de Julian Goldie (mayo de 2026): vision ~98 % de precisión (vs 54,5 % para Sonnet 4.6), ganancias de coding 82-84 % en SWE-bench Verified (+12 pts), nuevo nivel de esfuerzo xhigh, instruction-following reforzado, precio sin cambios a $3/$15 por millón de tokens. Para los equipos decepcionados con Opus 4.7, es el horizonte más cercano, muy por delante de una hipotética apertura de Mythos.

Qué cambia esto concretamente para tu equipo

Para un equipo que entrega software en 2026: Opus 4.8 (lanzado el 28 de mayo) se impone como la actualización inmediata, 69,2 % en SWE-bench Pro, Fast mode 3× más barato que 4.7, long-context parcialmente restablecido según el anuncio oficial de Anthropic. Si las regresiones de Opus 4.7 te obligaron a volver a 4.6, Opus 4.8 es el siguiente paso lógico. Sonnet 4.8 sigue sin fecha confirmada a 2 de junio de 2026. La batalla Mythos vs Opus no es solo un espectáculo tecnológico. Redefine los criterios de elección para quien construye software en 2026.

¿Qué criterios retener para elegir tu modelo?

Para un equipo que entrega un SaaS o una aplicación de negocio, tres factores importan más que la puntuación SWE-bench:

La fiabilidad a largo plazo (que el modelo no regresione tras 3 horas de sesión), la previsibilidad de costes (un modelo que consume 2x más tokens por tarea cuesta 2x más, aunque sea más «inteligente»), y la integración en el workflow existente (Claude Code, Cursor, API).

Sobre este último punto, GPT 5.5 de OpenAI (flagship general, que no debe confundirse con GPT 5.4 Cyber, su equivalente restringido en ciberseguridad, competidor directo de Mythos) reivindica «menos tokens por tarea, menos tutorización, más autonomía». Es exactamente lo que piden los desarrolladores: no un modelo más grande, sino un modelo que haga más con menos. La carrera por los benchmarks oculta esta realidad.

Para los equipos que trabajan con Claude Code, la elección pragmática ahora es Opus 4.8, lanzado el 28 de mayo de 2026, que corrige parcialmente las regresiones de 4.7 e introduce los dynamic workflows (ejecución paralela de cientos de subagentes) para las migraciones a gran escala.

¿Por qué el ingeniero sigue siendo el factor decisivo?

Un desarrollador quebequense publicó en r/QuebecTI que construyó un rastreador de precios de gasolina completo en una noche (de 20h a 3h) con Claude Code: Next.js 15, PostgreSQL + PostGIS, MapLibre, Railway, Sentry. Stack completo, 2 293 estaciones renderizadas en GPU con clustering inteligente.

Lo que hace impresionante este proyecto no es el modelo utilizado. Son los 10 años de experiencia full-stack del ingeniero. Sabía qué pedir, cómo estructurar, cuándo intervenir. Un principiante con la misma herramienta habría producido un prototipo frágil incapaz de aguantar en producción.

Es la tesis que defiendo desde el lanzamiento de GoLive Software: un equipo pequeño y senior, bien organizado y asistido por IA, compite con un equipo europeo mucho más caro. La ecuación ganadora no ha cambiado con Mythos. Se ha reforzado. Las herramientas se vuelven más potentes, lo que aumenta la brecha entre quienes saben usarlas y quienes no.

El vibe coding puede prototipar rápido. Construir un producto real y mantenible sigue requiriendo arquitectura, tests y comprensión del negocio. Con o sin Mythos.

«El futuro pertenece a los desarrolladores aumentados, no a los reemplazados. Mythos no cambia esta regla, la refuerza.»

Vincent Roye, mayo de 2026

Preguntas frecuentes

¿Claude Mythos está accesible al público general en mayo de 2026?

No. Mythos sigue en preview restringida, accesible a más de 40 organizaciones socias de Anthropic en el marco del Project Glasswing, entre ellas AWS, Apple, Google, Microsoft, NVIDIA y CrowdStrike. Anthropic no ha comunicado ninguna fecha de disponibilidad general. Los desarrolladores individuales y las pymes deben conformarse con Opus 4.7, volver a Opus 4.6 o vigilar Sonnet 4.8.

¿Opus 4.7 es realmente peor que Opus 4.6 para coding?

Las opiniones están divididas. En los benchmarks, Opus 4.7 supera claramente a 4.6 (+10 puntos en SWE-bench Pro). En la práctica, muchos usuarios reportan regresiones: alucinaciones, consumo de tokens más elevado, comportamientos impredecibles en sesiones largas. Varios desarrolladores experimentados recomiendan quedarse en Opus 4.6 en «high effort» para producción y probar 4.7 en «max effort» para tareas puntuales.

¿Cuál es la diferencia entre Mythos y GPT 5.4 Cyber de OpenAI?

Ambos modelos apuntan a la ciberseguridad y se distribuyen con acceso restringido. Mythos ha demostrado capacidades de descubrimiento de vulnerabilidades (zero-days en OpenBSD, FFmpeg, kernel Linux). GPT 5.4 Cyber está posicionado como respuesta directa a Mythos. La diferencia estratégica: Anthropic distribuye Mythos gratuitamente a los defensores (100 M$ en créditos), mientras que el modelo de acceso de OpenAI sigue siendo difuso.

¿Un desarrollador junior puede compensar con un modelo IA mejor?

No. Los retornos del terreno muestran que la calidad del resultado depende más de la experiencia del ingeniero que del modelo utilizado. Un senior con Opus 4.6 produce código más fiable que un junior con un modelo superior, porque sabe estructurar su arquitectura, validar las salidas y gestionar los casos límite que la IA no prevé.

¿Hay que esperar a Mythos para lanzar un proyecto asistido por IA?

No. Las herramientas actuales (Claude Code con Opus 4.6, Cursor, GitHub Copilot) ya son lo suficientemente maduras para acelerar significativamente la entrega de proyectos de software. Esperar a Mythos significaría congelar de 6 a 12 meses de productividad a cambio de una ganancia futura incierta. La buena estrategia: invertir ahora en la capacitación IA de tu equipo técnico existente.

¿Qué es Claude Sonnet 4.8 y qué se sabe sobre su lanzamiento?

Claude Sonnet 4.8 es la próxima versión del modelo intermedio de Anthropic; no habrá Sonnet 4.7. En marzo de 2026, un archivo source map publicado accidentalmente en el paquete npm de Claude Code (versión 2.1.88, el 31 de marzo), descubierto por el investigador de seguridad Chaofan Shou, expuso aproximadamente 512 000 líneas de TypeScript con referencias a modelos aún no anunciados. Los análisis de NxCode (abril de 2026) proyectaban un lanzamiento en mayo de 2026; la ventana inicial (5-16 de mayo) pasó sin lanzamiento oficial. En Reddit (r/ClaudeCode, r/claude), la pregunta «where is Sonnet 4.8» aparece cada semana desde abril de 2026, sin respuesta oficial de Anthropic. Las mejoras anticipadas según las filtraciones npm y fuentes X (mayo de 2026): precisión visual ~98 % (frente al 54,5 % de Sonnet 4.6), ganancias de coding 82-84 % en SWE-bench Verified, nuevo nivel de esfuerzo xhigh, instruction-following reforzado. El precio debería mantenerse en $3/$15 por millón de tokens. A 2 de junio de 2026, Anthropic lanzó Opus 4.8 (28 de mayo) pero Sonnet 4.8 sigue sin fecha. Para los desarrolladores frustrados con Opus 4.7, Opus 4.8 es la alternativa disponible de inmediato; Sonnet 4.8 sigue siendo el horizonte más económico a vigilar.

¿Qué aporta concretamente Opus 4.8 respecto a Opus 4.7?

Claude Opus 4.8, lanzado el 28 de mayo de 2026, aborda varias de las regresiones que habían frustrado a la comunidad con Opus 4.7. Según el anuncio oficial de Anthropic, alcanza el 69,2 % en SWE-bench Pro (frente al 64,3 % de 4.7 y el 77,8 % de Mythos Preview), el 88,6 % en SWE-bench Verified, y restaura parcialmente el long-context a través del nuevo benchmark GraphWalks (68,1 % a 1M tokens). El Fast mode pasa de $30/$150 a $10/$50 por millón de tokens, es decir, 3× más barato. El modelo es aproximadamente 4× menos propenso que Opus 4.7 a dejar pasar fallos en su propio código sin señalarlos. Los dynamic workflows en Claude Code permiten ahora orquestar cientos de subagentes en paralelo para migraciones a gran escala. La tarifa estándar se mantiene en $5/$25 y el tokenizer no cambia, por lo que el consumo de input sigue las mismas reglas que Opus 4.7.

Vidéos YouTube

Discussions Reddit

Posts X / Twitter

Projets GitHub

Articles & ressources

Vincent Roye
Vincent Roye
CEO y Fundador, GoLive Software

Ingeniero francés afincado en Vietnam desde 2014. Dirige un equipo de desarrolladores senior full-stack y acompaña a startups y pymes en la estructuración de su equipo técnico desde hace más de 11 años.