Prepara UADY el primer corpus lingüístico en lengua maya

Investigadores del Centro Institucional de Lenguas de la Universidad Autónoma de Yucatán (UADY) desarrollan el primer corpus lingüístico en lengua maya, es decir, la primera compilación de palabras del maya usadas de manera cotidiana por los habitantes de la Península de Yucatán. Así lo comenta en entrevista Karina Abreu Cano, coordinadora del centro de investigación.

“Ya tenemos un diccionario de 3,541 palabras registradas y 65 afijos, y hemos registrado 68 variantes lingüísticas en toda la Península. Todo esto lo vamos a alimentar en el corpus y así como la lengua maya es una lengua viva, este corpus es un proyecto vivo que puede alimentarse de manera infinita”, expresa.

El corpus lingüístico es de lengua maya peninsular, añade Abreu Cano. “Al existir variaciones dialectales, buscamos abarcar la gran mayoría de espacios donde éstas se hablan”.

La investigadora detalla que algunas de las comunidades donde analizan el habla maya es en Tekax, Tahdziú, Pixila, Texán de Palomeque, Hunukú, Dzonot Carretero y Tizimín (Yucatán); Dzitbalché (Campeche); y Tuzik, San Silverio y Sabán (Quintana Roo).

“Se hizo un análisis de la variación dialectal y con esa base se sacó la convocatoria para personas que serían nuestros documentadores, tuvimos un total de 484 solicitudes, posteriormente se hizo una revisión de documentación, de entrevistas y una selección”, comenta.

Al final, los documentadores seleccionados fueron diez, agrega. “Son personas que viven en alguna de esas comunidades, están como becarios con nosotros, tienen el compromiso de hacer una hora de grabación al mes y ese producto es el que será nuestro insumo para el desglose”.

¿Tiene algún ejemplo de las palabras más usadas?

Sí, nieto o nieta: áabil y su plural (nietos) áabitsilo’ob. También atpuj que significa sobresaliente, awat que es gritar y ba’al que es cosa.

Abreu Cano señala que este corpus lingüístico se basará en la recopilación de materiales audiovisuales para lo cual tienen apoyo de la Fundación Kellogg.

“Nos otorgaron presupuesto en 2022 y este proyecto es a dos años, en ese tiempo crearemos el demo, lo que se busca es recopilar los materiales audiovisuales en lengua maya, después procesarlos, tenemos revisores y después pasarlo a los glosadores”, detalla.

El objetivo es subir ese trabajo a una plataforma, la cual trabajan en colaboración con la Secretaría de la Cultura y las Artes de Yucatán y con CentroGeo, del Conacyt.

¿Es el primer corpus del maya?

Hubo uno inicial que no se quedó en México, se fue a Estados Unidos hace diez años, lo averiguamos, pero no pudimos obtenerlo. Este corpus que elaboramos es el primero que se hace desde la península y para el país.

Explica que esta herramienta permitirá realizar materiales para la enseñanza de esta lengua, ya sea para aprender a hablarla o escribirla; generar diccionarios digitales o interactivos; predictores de texto, entre muchos otros usos académicos.

Una imagen de lo que será la plataforma del corpus maya.

Una imagen de lo que será la plataforma del corpus maya.

 UADY

despiece

Cómo será la plataforma del corpus

La elaboración del corpus lingüístico en lengua maya estará a cargo del Centro Institucional de Lenguas (CIL) de la UADY y la Sedeculta, y se trata de una plataforma en forma de repositorio que contará con una amplia cantidad de archivos de audio y video en lengua maya de comunicación cotidiana.

Estos archivos de audio y video se dividirán en cuatro tipos de anotaciones: Transcripción libre, tal cual la dicen los hablantes; transcripción ortográfica, siguiendo una norma de escritura; segmentación morfológica, con guiones se marcarán los prefijos y sufijos de las palabras y expresiones; y anotación gramatical. Una vez establecida esa plataforma, quedará abierta para seguir cargando archivos de manera indefinida.

Con el corpus se podrán realizar búsquedas por palabras y frases, el buscador localizará y organizará todas las frases en las que aparece dicha palabra, una vez encontradas, dará la opción de escuchar la pronunciación, visualizar algunas de las anotaciones de la misma, o visualizar las cuatro anotaciones.

Documento disponible aquí