Investigadores do CITIC asisten ao ACL 2019 para presentar os seus últimos avances en Procesamento da Linguaxe Natural
31/07/2019
Un ano máis, investigadores do CITIC do área de Intelixencia Artificial asisten estes días en Florencia ao 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019), o congreso máis importante a nivel mundial no campo do Procesamento da Linguaxe Natural.
Por unha banda, Carlos Gómez, David Vilares e Michalina Strzyz, presentarán os seus últimos avances no marco da Starting Grant FASTPARSE da ERC. O primeiro destes traballos, “HEAD- QA: A Healthcare Dataset for Complex Reasoning”, analiza o rendemento das técnicas de Procura de Respostas (Question Answering) baseadas en redes neuronais #ante preguntas reais dos exames MIR e EIR de acceso ao sistema público de saúde. O segundo deles, “Sequence Labeling Parsing by Learning Across Representations”, describe unha nova técnica baseada en etiquetaxe de secuencias capaz de aprender, á vez, a analizar sintácticamente un texto en base tanto ao paradigma de constituíntes (onstituency parsing) como o de dependencias (dependency parsing). Isto contrasta cos métodos actuais, que abordan ambos por separado.
Por outra banda, Marcos García, investigador Juan da Cerva-Incorporación do LYS, presentará os avances noutra das liñas de investigación de referencia do grupo: o procesamento de colocacións lingüísticas e expresións multipalabra, de gran impacto tanto no procesamento sintáctico como semántico dun texto (p.ex. en sistemas de tradución). No primeiro destes traballos, “Pay attention when you pay the bills. A multilingual corpus with dependency-based and semantic annotation of collocations”, dáse a coñecer un novo corpus multilingüe (español, portugués e inglés) anotado a nivel de colocacións e con información semántica. Sen este tipo de recursos lingüístico- computacionales non sería posible abordar tarefas complexas de procesamento da linguaxe natural como poden ser, neste caso, o desenvolvemento de ferramentas de apoio á aprendizaxe de idiomas ou a xeración da linguaxe natural (p.ex. para asistentes virtuais).
Dentro xa do ACL Workshop on Multiword Expressions and WordNet (MWE-WN 2019), Marcos García presenta outras dúas contribucións. A primeira delas (en colaboración con Marcos García Saído e Margarita Alonso Ramos), titulada “A comparison of statistical association measures for identifying dependency-based collocations in various languages” mostra unha das principais aplicacións lexicográficas do anterior corpus, a avaliación de técnicas, neste caso estatísticas, para a identificación e extracción automática de colocacións en textos. O segundo deles, “Unsupervised Compositional Translation of Multiword Expressions”, froito da colaboración co investigador Pablo Gamallo do CiTIUS (USC), propón unha nova técnica non supervisada de tradución de expresións multipalabra. Esta técnica, baseada no emprego dependencias sintácticas, permite prescindir dos clásicos corpus paralelos (i.e. cos mesmos textos dispoñibles en varios idiomas á vez) e empregar unicamente corpora monolingües. Isto supón un notable avance neste campo, sobre todo para idiomas con menos recursos lingüístico-computacionales dispoñibles, como é o caso do galego.
Finalmente, o investigador Juan da Cierva presenta, esta vez no ACL Workshop on Computational Approaches to Historical Language Change (LChange’19), o traballo “A method to automatically identify diachronic variation in collocations”. Este, que entroncaría co campo das chamadas Dixital Humanities (Humanidades Dixitais), describe un método de análise diacrónico de colocacións que, partindo de corpora históricos, analiza o seu uso ao longo do tempo e, en caso de desaparecer, é capaz de propoñer alternativas empregando técnicas de semántica distribucional.
Máis información sobre estas publicacións, na web do proxecto europeo FASTPARSE.