Vivimos en una era donde las máquinas no solo procesan información: ahora aprenden, traducen y, sorprendentemente, también preservan culturas. Uno de los desafíos más silenciosos pero devastadores del siglo XXI es la pérdida de idiomas. Según la UNESCO, cada dos semanas desaparece una lengua en el mundo. Pero un grupo de investigadores de la Universidad de Dartmouth ha decidido plantar cara a esta crisis usando inteligencia artificial (IA).
En este artículo exploramos cómo estos pioneros están combinando la tecnología con la lingüística para revivir lenguas olvidadas, documentarlas y devolverlas a las comunidades que las vieron nacer. Y lo haremos con un enfoque claro: ¿cómo podemos aplicar estas ideas a nuestras propias realidades para preservar nuestro patrimonio cultural?
IA generativa con propósito: crear con datos mínimos
Uno de los proyectos más sorprendentes del equipo de Dartmouth está liderado por el profesor Soroush Vosoughi, quien junto a su equipo demostró que incluso los modelos de lenguaje más avanzados, como GPT-4-Turbo, pueden ser entrenados para trabajar con lenguas que tienen muy pocos datos disponibles.
Esto es revolucionario. Normalmente, entrenar una IA requiere millones de frases. Sin embargo, en el caso del idioma Nüshu —una antigua escritura silábica usada por mujeres en China—, lograron resultados relevantes con tan solo 35 ejemplos. Con esa base mínima, la IA fue capaz de generar frases nuevas, traducir con casi un 50% de precisión y contribuir a la revitalización digital del idioma.
➡️ Lo interesante aquí es que no se trata solo de procesar texto, sino de capturar la esencia cultural detrás del idioma.
NüshuRescue: cuando la IA se convierte en defensora del patrimonio femenino
La estudiante Ivory Yang lideró el proyecto NüshuRescue, entrenando un modelo que no solo traduce frases sino que genera contenido nuevo en esta lengua casi extinta. Esta herramienta no solo ayuda a preservar la lengua, sino también a visibilizar una cultura femenina que fue sistemáticamente silenciada durante siglos.
Esto plantea una reflexión poderosa: ¿cuántos idiomas vinculados a culturas específicas, como las de mujeres, indígenas o minorías étnicas, se están perdiendo en el olvido por no tener los recursos para digitalizarse?
➡️ ¿Podríamos crear algo similar para recuperar lenguas ibéricas desaparecidas o en riesgo, como el asturleonés, el aragonés o variantes del euskera?
Más allá de China: voces indígenas de América y el Pacífico
El profesor Rolando Coto Solano amplió el alcance de la IA lingüística a lenguas indígenas de Costa Rica como el Bribri y el Cabécar, así como al maorí de las Islas Cook. ¿La clave? Modelos de reconocimiento de voz entrenados con audios reales de hablantes nativos.
Esto permite transformar grabaciones orales —muchas veces el único testimonio de estas lenguas— en texto, facilitando su estudio, su enseñanza y su incorporación a recursos digitales. Además, evita depender de costosas y lentas transcripciones manuales.
➡️ Una buena idea para emprendedores digitales: desarrollar plataformas que ofrezcan este servicio a comunidades lingüísticas minoritarias.
Detectar lo invisible: identificación automática de lenguas
Otro gran reto que abordaron los investigadores fue la detección automática de idiomas mal identificados por herramientas convencionales. Por ejemplo, el idioma navajo suele ser confundido por Google LangID, lo que complica su representación digital.
Los modelos desarrollados por el equipo de Dartmouth superan en precisión a los modelos existentes, ayudando a clasificar correctamente estos idiomas en plataformas digitales y fomentando su presencia en internet y redes sociales.
➡️ Esto abre oportunidades para trabajar con ONGs o gobiernos locales que quieran incluir lenguas autóctonas en sus canales de comunicación digital.
Lo que podemos aprender (y aplicar) desde España o América Latina
Desde nuestro lugar como tecnólogos, educadores o ciudadanos preocupados por nuestro patrimonio, este tipo de iniciativas nos inspiran a actuar. Aquí van algunas ideas prácticas:
- Crear datasets locales: Grabar a hablantes nativos, recoger textos o cantos tradicionales.
- Formar alianzas entre lingüistas y tecnólogos: Para crear proyectos similares a NüshuRescue.
- Impulsar concursos o hackatones de IA y cultura: Para visibilizar estas causas y generar prototipos útiles.
No se trata solo de “salvar” un idioma, sino de preservar una forma única de ver el mundo.
FAQs
¿Realmente puede una IA aprender un idioma con tan pocos datos?
Sí. Aunque tradicionalmente se necesitan grandes datasets, los modelos actuales pueden entrenarse con ejemplos mínimos si están bien diseñados.
¿Qué herramientas se están usando en estos proyectos?
Modelos generativos como GPT-4-Turbo, redes neuronales para voz, y técnicas de transfer learning adaptadas a idiomas minoritarios.
¿Esto se puede aplicar en países hispanohablantes?
Por supuesto. Tanto en España como en Latinoamérica hay decenas de lenguas en peligro que podrían beneficiarse de este enfoque tecnológico.
Conclusión
La inteligencia artificial, lejos de ser una amenaza para la diversidad cultural, puede convertirse en su mejor aliada. Lo que está ocurriendo en Dartmouth es una llamada de atención: tenemos la tecnología, ahora necesitamos la voluntad y la colaboración para aplicarla donde más se necesita. Las lenguas en peligro no son solo palabras: son formas de ver el mundo, y merecen ser preservadas.
🔗 Fuentes y referencias:
- https://home.dartmouth.edu/news/2025/04/language-preservations-efforts-get-ai-boost
- https://www.unesco.org/en/articles/humanitys-linguistic-diversity-vanishing-unesco-warns
- https://news.dartmouth.edu/news/2024/12/students-ai-model-revives-lost-language