investigación en torno a temas de Geoparsing y Word embeddings

Alumnos del Centro de Investigación en Matemáticas realizan estancia de investigación en torno a temas de Geoparsing y Word embeddings
 

Los alumnos Jean Michel Arreola y Jonatan Romo, adscritos al programa de Maestría en Cómputo Estadístico delCentro de Investigación en Matemáticas (CIMAT) realizaron una estancia de investigación, en torno al tema de Geoparsing, en las instalaciones de la sede Yucatán de CentroGeo del 278 de enero al 9 de febrero. El Geoparsing es un proceso sofisticado de análisis automático para la Minería de Textos que tiene por objetivo principal detectar menciones de entidades geográficas y codificarlas en identificadores inequívocos, tales como sus coordenadas (latitud y longitud). En CentroGeo (Yucatán) se está desarrollando de una plataforma de Geoparsing en español capaz de procesar documentos para generar mapas y datos en tiempo real y en grandes volúmenes. El proyecto, dirigido por el Dr. Alejandro Molina Villegas, está enfocado no solo en el desarrollo de la plataforma sino que también aborda diversos problemas teóricos del Procesamiento de Lenguaje Natural. Por ejemplo, el Reconocimiento de Entidades Nombrada mediante métodos de Aprendizaje de Máquinas en los cuales se generan modelos para deducir los rasgos lingüísticos característicos de la mención de un lugar. Con lo cual es posible etiquetar de manera automática, por ejemplo, las menciones “Mérida” o “la ciudad blanca” sin necesidad de usar patrones o listas predefinidas. Sin embargo, aún identificadas las entidades en un documento, se debe resolver la ambigüedad puesto que “Mérida” puede referir a una entidad en España o en México por lo que se investigan también las mejores heurísticas para determinar la interpretación correcta a partir del contexto y cómo combinar las heurísticas con recursos geográficos como gazeteers.


Alumno Jean Michel Arreola

Los alumnos de CIMAT, exploraron además la caracterización de entidades georeferenciables mediante una técnica conocida como word2vec(creada por un grupo de investigación de Google) en la cual, las palabras son proyectadas a un espacio vectorial creado de manera artificial para reproducir la relación entre las palabras de un corpus de noticias. Los resultados preliminares de la estancia resultan prometedores. Por ejemplo, entre las palabras más cercanas a Mérida, o mejor dicho sus vectores, figuran: Capital yucateca, Cancún, Yucatán, Tulum y destino turístico. Se está desarrollando un protocolo de tesis para este estudio.


Proyección del vector de “Mérida” y sus vectores cercanos según el modelo de word2vec.