GOLIVE
Volver al blog

¿Integrar un STT? Compare el coste oculto

El precio por minuto que muestran las API de reconocimiento de voz solo cuenta una parte de la historia. Esto es lo que realmente cuesta integrar un STT en su producto.

Google, Azure, AssemblyAI, Whisper: compare los costes reales de las API de reconocimiento de voz. Precio por minuto, ingeniería, infraestructura y trampas ocultas.

Está buscando una API de reconocimiento de voz para su producto. Compara los precios por minuto, encuentra ofertas a 0,01 $ el minuto y piensa que el presupuesto está controlado. Solo que el precio publicado nunca representa el coste real. Entre la ingeniería de integración, el ajuste de la precisión en su audio de negocio y el mantenimiento a largo plazo, la factura final puede multiplicarse por cinco o diez respecto a lo presupuestado inicialmente.

He acompañado a varios equipos de producto en esta decisión. La conclusión es siempre la misma: la línea « API speech-to-text » en el presupuesto inicial está sistemáticamente infravalorada.

  • 💰 Brecha en el precio real: el coste por minuto publicado oculta entre el 60 y el 80 % del gasto total.
  • ⚠️ Ingeniería invisible: integración, ajustes y gestión de casos límite consumen semanas.
  • 🔧 Cloud vs self-hosted: Whisper es gratuito, pero la infraestructura GPU no lo es.
  • 🎯 Criterios de decisión: cinco criterios concretos para elegir sin desbordar su presupuesto.

Lo que realmente cuesta un minuto de transcripción

El reflejo natural al evaluar una API STT es abrir la página de precios y comparar la tarifa por minuto. Las cifras parecen razonables: unos céntimos, a veces menos.

¿Cuáles son los precios reales por minuto de las principales API?

Según la comparativa de OpenReplay sobre los motores de reconocimiento de voz en 2025, las tarifas se escalonan así: Google Cloud Speech-to-Text cobra entre 0,016 $ y 0,024 $ por minuto según el modelo. Amazon Transcribe se sitúa en 0,024 $ por minuto. Azure Speech to Text ofrece aproximadamente 1 $ por hora de audio, es decir, 0,017 $ el minuto para el modelo estándar. IBM Watson baja a 0,01 $ por minuto tras el nivel gratuito.

Estos precios parecen irrisorios. Para 10 000 minutos de audio al mes (un volumen habitual para una aplicación de transcripción B2B), la factura de API pura ronda entre 100 $ y 240 $.

El problema es que esa cifra solo cuenta el 20 % de la historia.

¿Por qué el precio publicado no basta para presupuestar?

Tomemos la API en tiempo real de OpenAI. Según un análisis de Seasalt.ai, la tarifa anunciada sugiere unos 0,30 $ por minuto (entrada + salida de audio). Su prueba real midió un coste de 1 $ por minuto, más de tres veces el precio publicado. La causa: los tokens generados en segundo plano (contexto, razonamiento, reformulación) que inflan el consumo sin que el desarrollador los vea claramente en la documentación.

Este tipo de desviación no es un caso aislado. Cada API tiene sus propias reglas de facturación (por tramo de 15 segundos, por solicitud, por funcionalidad activada), y la diarización, el análisis de sentimiento o la detección de idioma suelen ser opciones de pago que se suman a la tarifa base.

Proveedor Precio / min (base) Nivel gratuito Diarización Tendencia
Google Cloud STT 0,016 a 0,024 $ 60 min/mes + 300 $ créditos Sí (incluida) → estable
Amazon Transcribe 0,024 $ 60 min/mes (1 año) Sí (incluida) → estable
Azure Speech ~0,017 $ 5 h/mes Sí (opción) → estable
AssemblyAI ~0,015 $ 50 $ de créditos Sí (incluida) ↑ adopción fuerte
Grok Voice Agent 0,05 $ No N/A (conversacional) ↑ nuevo entrante
OpenAI Realtime ~1,00 $ (medido) No No ↓ coste prohibitivo

FUENTE: OpenReplay, Seasalt.ai, documentación oficial · ACT. 05/2026

Los costes ocultos que nadie presupuesta

La factura de la API es la parte visible. Los costes reales están en todo lo que rodea a la llamada API, y ahí es donde los presupuestos se disparan.

¿Cuánto tiempo de ingeniería hay que prever?

Integrar una API STT en un producto existente requiere mucho más que una simple llamada REST. Hay que gestionar el streaming de audio (WebSocket para tiempo real), el buffering, la reconexión en caso de corte de red, el formato de los resultados, la gestión de idiomas y el almacenamiento de las transcripciones.

Cuente con entre dos y seis semanas de desarrollo para una integración lista para producción, según la complejidad de su stack. Esta cifra no es una estimación abstracta: es lo que observo en los clientes de GoLive Software que integran funcionalidades de voz en sus SaaS.

Para un equipo que factura 500 € al día, seis semanas de integración representan 15 000 €. Compare eso con los 200 $ mensuales de factura de API.

¿Qué casos límite desbordan el presupuesto?

La precisión anunciada por los proveedores (a menudo 95 %+) se mide con audio limpio, en inglés, con un solo locutor. Su audio de negocio rara vez es tan cooperativo.

Ruido de fondo en taller, acentos regionales, vocabulario técnico (nombres de productos, acrónimos del sector), conversaciones cruzadas: cada caso particular exige un ajuste específico. En Google y Azure, esto pasa por modelos Custom Speech con conjuntos de datos de entrenamiento. En AssemblyAI, los vocabularios personalizados ayudan, pero no lo cubren todo.

El tiempo dedicado a construir esos datasets, a medir el Word Error Rate sobre sus propias grabaciones y a iterar hasta alcanzar un nivel de precisión aceptable, es presupuesto de ingeniería que nadie incluye en el cálculo inicial.

También está el coste de mantenimiento continuo. Las API evolucionan, los modelos cambian, las cuotas se modifican. Cada actualización requiere regresión. No es un « fire and forget ».

Cloud gestionado vs open source: el falso dilema de lo « gratuito »

La tentación de recurrir al open source para eliminar la factura de API es grande. Whisper de OpenAI, en particular, ofrece una precisión impresionante y soporta múltiples idiomas. Es gratuito y se puede alojar en servidores propios.

¿Por qué Whisper « gratuito » puede costar más que una API?

El modelo Whisper large necesita una GPU dedicada para funcionar a una velocidad aprovechable. Una instancia GPU en la nube (tipo A10G en AWS) cuesta entre 0,75 $ y 1,50 $ la hora. Si su aplicación procesa audio de forma continua, esa GPU funciona permanentemente. A 1 $ la hora, 24h/24, estamos hablando de 720 $ al mes sin contar siquiera el mantenimiento de la infraestructura.

Comparado con una API en la nube a 0,02 $ el minuto, el self-hosting de Whisper solo resulta rentable a partir de 36 000 minutos de audio al mes. Por debajo, paga más por un servicio que debe mantener usted mismo.

Existen otras opciones open source. Kaldi sigue siendo una referencia en investigación, pero su despliegue es complejo. SpeechBrain (PyTorch) se integra bien con HuggingFace, pero requiere una personalización profunda. DeepSpeech de Mozilla ya no se mantiene. Como recuerda la guía de AssemblyAI sobre las API STT gratuitas, el open source es adecuado para equipos que cuentan con ingenieros ML dedicados y restricciones estrictas de confidencialidad de datos. Para el resto, la API gestionada sigue siendo la opción pragmática.

NVIDIA lanzó recientemente PersonalPlex, un modelo conversacional open source con una latencia de 36 milisegundos. Alibaba propone Qwen3 TTS (1,7 mil millones de parámetros), capaz de clonar voces en nueve idiomas. Estos modelos abren posibilidades interesantes para el self-hosting, pero siguen siendo piezas por ensamblar: no hay pipeline listo para producción, ni monitoreo, ni SLA.

« El verdadero coste de una API de voz no es el precio por minuto. Es el tiempo de ingeniería para que funcione con su audio, con su stack, a su escala. »

Vincent Roye, mayo 2026

Cómo elegir sin desbordar su presupuesto

La elección de una API de reconocimiento de voz depende de cinco criterios que debería evaluar en este orden preciso.

¿Qué criterios priorizar según su contexto?

Primero, la precisión con su audio real. No los benchmarks de marketing. Tome 50 grabaciones representativas de su caso de uso y mida el Word Error Rate en cada proveedor. Es la única métrica que importa.

Segundo, el time-to-production. Según el mercado proyectado en 60 mil millones de dólares para 2032, la carrera por la funcionalidad de voz está lanzada. Si no tiene un ingeniero ML en el equipo, el self-hosting le retrasará varios meses. AssemblyAI y Deepgram apuestan fuerte por la experiencia del desarrollador: SDKs limpios, documentación clara, ejemplos copy-paste. Google y AWS son más potentes pero más lentos de configurar.

Tercero, el coste total de propiedad. Precio de API + ingeniería de integración + mantenimiento + infraestructura (si es self-hosted). Una herramienta ligeramente más cara por minuto puede salir más barata si le ahorra decenas de horas de ingeniería cada mes.

Cuarto, la escalabilidad. Verifique los límites de concurrencia, las cuotas por región y las garantías de uptime. Para subtitulado en tiempo real, la latencia geográfica se vuelve crítica.

Quinto, la confidencialidad de los datos. Si su audio contiene datos sensibles (médico, jurídico, financiero), el self-hosting o un proveedor con alojamiento dedicado puede ser una obligación regulatoria, no una decisión técnica.

¿Conviene externalizar la integración STT?

Es la pregunta que me planteo sistemáticamente con los equipos que acompaño. Integrar un componente de voz en un SaaS existente afecta al backend (streaming, almacenamiento, procesamiento), al frontend (UI de grabación, visualización en tiempo real) y a la infraestructura (escalado, monitoreo).

Un equipo de desarrolladores offshore especializados, familiarizado con estos pipelines de audio y equipado con herramientas de IA para acelerar la integración, puede dividir el time-to-production por dos o tres. El coste es estructuralmente más bajo que un equipo local, y la calidad técnica no tiene nada que envidiar si el equipo está bien seleccionado.

Lo veo con frecuencia: un equipo pequeño de seniors, bien equipado, entrega más rápido que un equipo grande que descubre el tema. Esto es aún más cierto cuando los desarrolladores utilizan agentes de IA para acelerar el prototipado y la depuración de los pipelines de audio.

El error más frecuente es tratar la integración STT como un « pequeño módulo a conectar ». Es un proyecto en sí mismo, con sus propios riesgos técnicos. Como con toda decisión de externalización, la IA no sustituye la experiencia humana: la amplifica cuando el equipo sabe lo que hace.

El veredicto

El mercado de las API de reconocimiento de voz nunca ha ofrecido tantas opciones, y los precios por minuto nunca han sido tan bajos. Precisamente eso es lo que hace la trampa tan peligrosa: una tarifa de 0,01 $ por minuto le hace creer que la funcionalidad de voz es casi gratuita, cuando el verdadero coste de entrada se mide en semanas de ingeniería y en mantenimiento continuo.

Empiece probando dos o tres API con su propio audio (AssemblyAI ofrece 50 $ en créditos, Google y AWS tienen niveles gratuitos). Mida el WER real. Presupueste la integración como un proyecto, no como una simple conexión. Y si su equipo no tiene experiencia con pipelines de audio, externalice con quienes sí la tengan, en lugar de descubrir los casos límite en producción.

Preguntas frecuentes

¿Cuál es la API de reconocimiento de voz más barata en 2026?

En tarifa bruta por minuto, IBM Watson (0,01 $/min) y AssemblyAI (~0,015 $/min) son las más baratas entre las API en la nube. Whisper de OpenAI es gratuito en uso pero requiere una GPU para el self-hosting, lo que genera costes de infraestructura. La opción « más barata » depende siempre de su volumen: por debajo de 10 000 minutos al mes, la nube gestionada sigue siendo más económica que el self-hosting.

¿Se puede usar Whisper en producción sin GPU?

Whisper ofrece modelos más ligeros (tiny, base, small) que funcionan en CPU, pero la velocidad de transcripción cae drásticamente. El modelo « small » procesa el audio a aproximadamente 0,3x del tiempo real en una CPU moderna, lo que significa que un minuto de audio tarda más de tres minutos en transcribirse. Para procesamiento por lotes no urgente, es aceptable. Para tiempo real o alto volumen, una GPU sigue siendo imprescindible.

¿Cuánto tiempo lleva integrar una API STT en un SaaS existente?

Cuente con entre dos y seis semanas para una integración completa en producción. La primera semana cubre el prototipado y las pruebas de precisión. Las semanas siguientes se dedican al streaming en tiempo real, la gestión de errores, el ajuste del vocabulario de negocio y las pruebas de carga. Este plazo supone un equipo que ya ha trabajado con API de audio. Sin esa experiencia, prevea el doble.

¿La diarización (identificación de locutores) siempre está incluida?

No. Google Cloud STT, Amazon Transcribe y AssemblyAI incluyen la diarización en su tarifa estándar. Azure la ofrece como opción de pago. Las API conversacionales como Grok Voice Agent no realizan diarización en el sentido clásico (gestionan un diálogo agente/usuario). En las soluciones open source, la diarización requiere un pipeline separado (pyannote.audio es la referencia), lo que añade complejidad a la integración.

¿Cambia el coste de una API STT según el número de idiomas soportados?

En la mayoría de los proveedores en la nube, la tarifa por minuto es idéntica independientemente del idioma. Google cobra el mismo precio para sus más de 125 idiomas. La diferencia está en la precisión: los modelos están optimizados para el inglés, y el Word Error Rate aumenta significativamente en los idiomas con menor representación. Si su producto está dirigido al mercado hispanohablante, pruebe específicamente la precisión en español antes de comprometerse.

Vidéos YouTube

Articles & ressources

Vincent Roye
Vincent Roye
CEO y Fundador, GoLive Software

Ingeniero francés afincado en Vietnam desde 2014. Dirige un equipo de desarrolladores senior full-stack y acompaña a startups y pymes en la estructuración de su equipo técnico desde hace más de 11 años.