✨︎ Resumen (TL;DR):
- Google presentó Gemini 3.5 Live Translate, un modelo de audio que realiza traducciones por voz casi de manera instantánea.
- La tecnología soporta más de 70 idiomas y habilita unas 2,000 combinaciones lingüísticas dentro de las videollamadas de Google Meet.
- El sistema llegará a celulares mediante Google Translate, a entornos empresariales en Meet y a desarrolladores a través de su API.
El 9 de junio de 2026, Google lanzó Gemini 3.5 Live Translate, un modelo de audio diseñado para realizar traducciones de voz a voz casi en tiempo real. Esta herramienta reduce de manera drástica los tiempos de espera en llamadas, conferencias y aplicaciones móviles al traducir el habla de forma continua, permitiendo una comunicación fluida entre personas que no comparten el mismo idioma.
Gemini 3.5 Live Translate es un modelo de audio que procesa la voz mientras se transmite y devuelve la traducción hablada con baja latencia. A diferencia de las herramientas tradicionales que esperan a que la persona termine de hablar para traducir, este desarrollo procesa el flujo sonoro de forma constante, quedándose a pocos segundos de distancia de la persona que habla y conservando la entonación, el ritmo y el tono originales.
La tecnología se distribuirá en tres frentes: la aplicación de Google Translate para Android e iOS, la plataforma de reuniones Google Meet para empresas mediante una versión de prueba privada, y para desarrolladores a través de la Gemini Live API junto con Google AI Studio.

Un salto para las llamadas telefónicas y el trabajo híbrido
Para los usuarios de smartphones Android, el nuevo modo de escucha permite colocar el celular directamente en el oído para recibir la traducción a través del auricular, justo como si fuera una llamada convencional. Esto facilita conversar en la calle o en lugares concurridos sin necesidad de usar audífonos y sin que los demás escuchen la traducción.
En el entorno corporativo, Google Meet pasará de soportar cinco idiomas a más de 70 idiomas en traducción de voz. Esto permitirá gestionar más de 2,000 combinaciones lingüísticas simultáneas en una misma sesión de trabajo. Para las empresas de México y América Latina, este cambio elimina la necesidad de recurrir al inglés como puente obligatorio para comunicarse con socios en Asia o Europa.
Para el sector técnico, la Gemini Live API habilita el modelo bajo el nombre gemini-3.5-live-translate-preview. Este sistema opera exclusivamente mediante entradas de voz para optimizar la velocidad y reducir retrasos. Compañías de movilidad como Grab ya realizan pruebas con esta API para facilitar el diálogo entre conductores y pasajeros, un servicio clave para una plataforma que registra más de 10 millones de llamadas de voz mensuales.
Ajustes de precisión y medidas de seguridad contra el abuso
El despliegue del modelo incluye ciertas consideraciones técnicas sobre su alcance actual. Google señaló que la voz traducida puede presentar ligeras inconsistencias de género tras pausas prolongadas, y que el reconocimiento de voz podría fallar al procesar acentos marcados o al intentar diferenciar idiomas con raíces similares, como el español y el portugués.
Asimismo, el rendimiento puede variar en entornos ruidosos como aeropuertos o avenidas transitadas. Para evitar que la naturalidad de la voz sea utilizada en fraudes o suplantaciones de identidad, Google integrará la marca de agua digital SynthID, una firma inaudible que permite comprobar mediante software si el audio fue generado por su inteligencia artificial.
