Intron, la startup nigeriana que lleva el reconocimiento de voz a 57 idiomas africanos

Imagen: tomada de X Intron Voice AI
@IntronHealth

La startup nigeriana de inteligencia artificial Intron ha presentado una actualización ambiciosa de su plataforma de reconocimiento de voz, Sahara v2, que amplía el soporte a 57 idiomas y más de 500 acentos africanos distintos, con el objetivo de hacer la tecnología de voz verdaderamente inclusiva para los contextos lingüísticos del continente.

A diferencia de los asistentes de voz globales que históricamente han tenido dificultades para comprender nombres, expresiones y patrones de habla africanos, Sahara v2 está diseñado «desde cero» para entender cómo suenan realmente las lenguas africanas. Este sistema fue entrenado con más de 14 millones de grabaciones de voz recopiladas de más de 40,000 hablantes en una diversidad de entornos reales, incluyendo centros de atención médica, tribunales y calles concurridas.

Dentro de los 57 idiomas que ahora soporta la plataforma, 23 son lenguas africanas, entre ellas Hausa, Swahili, Yoruba, Igbo, Zulu y Amárico. Además, Sahara v2 presenta lo que la empresa describe como el primer modelo automático de reconocimiento de voz bilingüe Suajili‑Inglés del mundo, capaz de manejar de forma natural el fenómeno de “code‑switching” que ocurre cuando los hablantes alternan entre idiomas en una misma conversación.


Imagen: tomada de X Intron Voice AI
@IntronHealth

La actualización no solo mejora la capacidad de transcripción (voz a texto), sino que también amplía las funciones de texto a voz (TTS) y ofrece opciones de implementación empresarial incluso sin conexión a Internet, una ventaja clave para sectores con conectividad limitada.

Intron afirma que Sahara v2 supera en rendimiento a modelos globales líderes como Gemini, GPT‑4, Whisper, ElevenLabs, AWS y Azure en pruebas específicas con datos africanos, logrando mejores resultados en nombres locales, números e incluso en entornos ruidosos.

Este desarrollo tiene un impacto potencial en múltiples sectores, desde servicios de salud y telecomunicaciones hasta sistemas financieros y legales, permitiendo que más personas interactúen con la tecnología de voz en su idioma nativo y con mayor precisión. La expansión de Sahara v2 representa un paso importante hacia una infraestructura de voz más equitativa y adaptada a la diversidad lingüística de África.