Descifrando idiomas perdidos con Machine Learning

Descifrando idiomas perdidos con Machine Learning

En 1886, el arqueólogo británico Arthur Evans encontró una piedra antigua con un curioso conjunto de inscripciones en un idioma desconocido. La piedra provenía de la isla mediterránea de Creta, y Evans viajó inmediatamente para buscar más evidencia. Rápidamente encontró numerosas piedras y tabletas con inscripciones similares y las dató en alrededor de 1400 a. C.

Estas inscripciones constituyen una de las primeras formas de escritura jamás descubiertas. Evans argumentó que su forma lineal se derivaba claramente de imágenes de líneas groseramente rayadas pertenecientes a la infancia del arte, estableciendo así su importancia en la historia de la lingüística.

Evans y otros trataron durante muchos años de descifrar las antiguas inscripciones, pero los idiomas perdidos resistieron todos los intentos. El problema permaneció sin resolver hasta 1953, cuando un lingüista aficionado llamado Michael Ventris descifró parte del código.

El trabajo de Ventris fue un gran logro. Pero las inscripciones más antiguas, continuaron siendo uno de los grandes problemas pendientes en lingüística hasta nuestros días.

Un equipo del laboratorio de IA de Google en Mountain View, ha desarrollado un sistema de aprendizaje automático capaz de descifrar idiomas perdidos, y lo han demostrado al descifrar el Lineal B (la versión descifrada por Ventris).

Primero algunos antecedentes. La gran idea detrás de la traducción automática es comprender que las palabras están relacionadas entre sí de manera similar, independientemente del idioma involucrado.

Entonces, el proceso comienza mapeando estas relaciones para un lenguaje específico. Esto requiere enormes bases de datos. Luego, se busca este texto para ver con qué frecuencia aparece cada palabra al lado de cada otra. Este patrón de apariencias es una firma única que define la palabra en un espacio de parámetros multidimensional. De hecho, la palabra puede considerarse como un vector dentro de este espacio. Y este vector actúa como una restricción poderosa sobre cómo puede aparecer la palabra en relación a su contexto.

La idea clave que permite la traducción automática es que las palabras en diferentes idiomas ocupan los mismos puntos en sus respectivos espacios de parámetros. Eso hace posible asignar un idioma completo a otro idioma con una correspondencia uno a uno.

De esta manera, el proceso de traducción de oraciones se convierte en el proceso de encontrar trayectorias similares a través de estos espacios. La máquina nunca necesita «saber» lo que significan las oraciones.

El equipo de Google ha ido más allá para mostrar cómo la traducción automática puede descifrar los idiomas que se han perdido por completo. La restricción que usan tiene que ver con la forma en que se sabe que los idiomas evolucionan con el tiempo.

La idea es que cualquier idioma puede cambiar solo de ciertas maneras; por ejemplo, los símbolos en idiomas relacionados aparecen con distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, etc. Con estas reglas resulta mucho más fácil descifrar un idioma, siempre que se conozca el idioma progenitor.

El algoritmo se puso a prueba con dos idiomas perdidos, Lineal B y Ugaritic. Los lingüistas saben que Linear B codifica una versión temprana del griego antiguo y que Ugaritic es una forma temprana de hebreo.

Dada esa información y las limitaciones impuestas por la evolución lingüística, el algoritmo puede traducir ambos idiomas con notable precisión. «Pudimos traducir correctamente el 67,3% de las inscripciones del Lineal B a sus equivalentes griegos automáticamente».

Es un trabajo impresionante, que también plantea la interesante cuestión de otros idiomas perdidos, particularmente aquellos que nunca han sido descifrados.

Ref: arxiv.org/abs/1906.06718 : Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

 

 

 

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Accedé al descuento del15%

Suscribiéndote a Nuestro Newsletter, y recibí el cupón para tu inscripción.