The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing

Detalhes bibliográficos
Autor(a) principal: Martins, Mikaela Luzia
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
Texto Completo: http://www.repositorio.jesuita.org.br/handle/UNISINOS/12540
Resumo: O objetivo deste trabalho é investigar o fenômeno da variação lexical em português e inglês nas etapas de alinhamento de termos e substituição lexical em Processamento de Linguagem Natural (PLN) levando em consideração o domínio especializado do varejo. Como aporte teórico, embasamo-nos em uma interface interdisciplinar que considera os postulados das áreas da Computação e da Linguística. Portanto, oferecemos um panorama teórico sobre a utilização de informação semântica no desenvolvimento de sistemas de PLN e demonstramos maneiras de implementação de informação semântica em bases lexicais computacionais como a WordNet, a FrameNet e a FrameNet Brasil. No que tange à Linguística, apoiamo-nos nas definições de Murphy (2003, 2010), L’Homme (2020) e Croft & Cruse (2004) a respeito das relações semânticas direcionadas à terminologia especializada. Também levamos em consideração as classificações e inferências de León-Araúz & Faber (2014) a respeito das variações lexicais e equivalentes de tradução no âmbito da Terminologia. Nossa metodologia apoia-se nas conjecturas da Linguística de Corpus e baseia-se na utilização da ferramenta Sketch Engine para analisar os corpora em inglês e português que buscam representar a terminologia do domínio. Os pares de termos escolhidos para o exercício de investigação da tarefa de substituição lexical são “plant” – “site” e “material” – “article”. A terminologia utilizada na análise monolíngue provém das predições geradas por três modelos de substituição lexical: um primeiro modelo considera a sinonímia entre termos, o segundo se volta a uma camada adicional de informação, os word embeddings, e o terceiro modelo atua com o auxílio de uma camada de informação adicional que recupera os frames semânticos. A terminologia utilizada na análise multilíngue provém do corpus utilizado e de uma coleta em bases terminológicas do varejo. A análise monolíngue busca classificar as predições dos modelos de acordo com as relações semânticas e resulta em uma categorização dos termos de acordo com as definições de variação terminológica de León-Araúz & Faber (2014). A análise bilíngue, por sua vez, classifica os equivalentes de tradução dos pares de termos de acordo com o problema de tradução que representam e com os tipos de equivalência elencados por León-Araúz & Faber (2014). Por fim, a partir de análises de cunho semântico-terminológico, nossos resultados apontam para a obtenção de melhorias de modelos de substituição lexical e modelos de tradução automática que levem em consideração a informação semântica e as categorias de classificação terminológicas com o intuito de avançar na qualidade e a precisão linguística dos resultados.
id USIN_3722cce279c49ea705cfa1e493f22390
oai_identifier_str oai:www.repositorio.jesuita.org.br:UNISINOS/12540
network_acronym_str USIN
network_name_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
repository_id_str
spelling 2023-06-22T14:39:58Z2023-06-22T14:39:58Z2023-03-01Submitted by Jeferson Carlos da Veiga Rodrigues (jveigar@unisinos.br) on 2023-06-22T14:39:58Z No. of bitstreams: 1 Mikaela Martins_PROTEGIDO.pdf: 2211720 bytes, checksum: 876d2f9c0548ad00c7d6e05d44508be7 (MD5)Made available in DSpace on 2023-06-22T14:39:58Z (GMT). No. of bitstreams: 1 Mikaela Martins_PROTEGIDO.pdf: 2211720 bytes, checksum: 876d2f9c0548ad00c7d6e05d44508be7 (MD5) Previous issue date: 2023-03-01O objetivo deste trabalho é investigar o fenômeno da variação lexical em português e inglês nas etapas de alinhamento de termos e substituição lexical em Processamento de Linguagem Natural (PLN) levando em consideração o domínio especializado do varejo. Como aporte teórico, embasamo-nos em uma interface interdisciplinar que considera os postulados das áreas da Computação e da Linguística. Portanto, oferecemos um panorama teórico sobre a utilização de informação semântica no desenvolvimento de sistemas de PLN e demonstramos maneiras de implementação de informação semântica em bases lexicais computacionais como a WordNet, a FrameNet e a FrameNet Brasil. No que tange à Linguística, apoiamo-nos nas definições de Murphy (2003, 2010), L’Homme (2020) e Croft & Cruse (2004) a respeito das relações semânticas direcionadas à terminologia especializada. Também levamos em consideração as classificações e inferências de León-Araúz & Faber (2014) a respeito das variações lexicais e equivalentes de tradução no âmbito da Terminologia. Nossa metodologia apoia-se nas conjecturas da Linguística de Corpus e baseia-se na utilização da ferramenta Sketch Engine para analisar os corpora em inglês e português que buscam representar a terminologia do domínio. Os pares de termos escolhidos para o exercício de investigação da tarefa de substituição lexical são “plant” – “site” e “material” – “article”. A terminologia utilizada na análise monolíngue provém das predições geradas por três modelos de substituição lexical: um primeiro modelo considera a sinonímia entre termos, o segundo se volta a uma camada adicional de informação, os word embeddings, e o terceiro modelo atua com o auxílio de uma camada de informação adicional que recupera os frames semânticos. A terminologia utilizada na análise multilíngue provém do corpus utilizado e de uma coleta em bases terminológicas do varejo. A análise monolíngue busca classificar as predições dos modelos de acordo com as relações semânticas e resulta em uma categorização dos termos de acordo com as definições de variação terminológica de León-Araúz & Faber (2014). A análise bilíngue, por sua vez, classifica os equivalentes de tradução dos pares de termos de acordo com o problema de tradução que representam e com os tipos de equivalência elencados por León-Araúz & Faber (2014). Por fim, a partir de análises de cunho semântico-terminológico, nossos resultados apontam para a obtenção de melhorias de modelos de substituição lexical e modelos de tradução automática que levem em consideração a informação semântica e as categorias de classificação terminológicas com o intuito de avançar na qualidade e a precisão linguística dos resultados.The aim of this work is to investigate the phenomenon of lexical variation in Portuguese and English in terms alignment and lexical substitution steps in Natural Language Processing (NLP) taking into account the specialized domain of retail. As a theoretical contribution, we are based on an interdisciplinary interface that considers the postulates of the areas of Computing and Linguistics. Therefore, we offer a theoretical overview of the use of semantic information in the development of NLP systems and demonstrate ways of implementing semantic information in computational lexical bases such as WordNet, FrameNet and FrameNet Brasil. With regard to Linguistics, we rely on the definitions of Murphy (2003, 2010), L'Homme (2020) and Croft & Cruse (2004) regarding the semantic relations directed to specialized terminology. We also take into account León-Araúz & Faber's (2014) classifications and inferences regarding lexical variations and translation equivalents within the scope of Terminology. Our methodology is based on the conjectures of Corpus Linguistics and relies on the use of the Sketch Engine tool to analyze the corpora in English and Portuguese that seek to represent the terminology of the domain. The pairs of terms chosen for the research exercise of the lexical substitution task are “plant” – “site” and “material” – “article”. The terminology used in the monolingual analysis stage comes from the predictions generated by three lexical substitution models: the first one takes into account the synonymy between terms, the second one considers an additional layer of information, the word embeddings, and the third one works with the aid of an additional information layer that recovers the semantic frames. The terminology used in the multilingual analysis stage comes from the corpus used and from a collection of retail terminological bases. Our monolingual analysis seeks to classify the models' predictions according to the semantic relations and results in a categorization of terms according to the definitions of terminological variation by León-Araúz & Faber (2014). The bilingual analysis, in turn, classifies the translation equivalents of the pairs of terms according to the translation problem they represent and according to the types of equivalence that were listed by León-Araúz & Faber (2014). Finally, based on analyses of a semantic-terminological nature, our results point to improvements in lexical substitution models and automatic translation models that take into account the semantic information and the terminological classification categories in order to advance in the quality and linguistic accuracy of the results.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorMartins, Mikaela Luziahttp://lattes.cnpq.br/9928528065150862http://lattes.cnpq.br/3914159735707328Fronza, Cátia de Azevedohttp://lattes.cnpq.br/8861465576589134Rigo, Sandro JoséUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Linguística AplicadaUnisinosBrasilEscola da Indústria CriativaThe lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processingACCNPQ::Lingüística, Letras e Artes::LingüísticaTerminologiaSemântica lexicalProcessamento de Linguagem NaturalSubstituição lexicalSemântica de framesTerminologyLexical semanticsNatural Language ProcessingLexical substitutionFrame semanticsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/12540info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSLICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/12540/2/license.txt320e21f23402402ac4988605e1edd177MD52ORIGINALMikaela Martins_PROTEGIDO.pdfMikaela Martins_PROTEGIDO.pdfapplication/pdf2211720http://repositorio.jesuita.org.br/bitstream/UNISINOS/12540/1/Mikaela+Martins_PROTEGIDO.pdf876d2f9c0548ad00c7d6e05d44508be7MD51UNISINOS/125402023-06-22 11:41:02.747oai:www.repositorio.jesuita.org.br:UNISINOS/12540Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2023-06-22T14:41:02Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false
dc.title.pt_BR.fl_str_mv The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
title The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
spellingShingle The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
Martins, Mikaela Luzia
ACCNPQ::Lingüística, Letras e Artes::Lingüística
Terminologia
Semântica lexical
Processamento de Linguagem Natural
Substituição lexical
Semântica de frames
Terminology
Lexical semantics
Natural Language Processing
Lexical substitution
Frame semantics
title_short The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
title_full The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
title_fullStr The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
title_full_unstemmed The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
title_sort The lexicon as a possibility: the contribution of semantic-terminological information to lexical substitution tasks in natural language processing
author Martins, Mikaela Luzia
author_facet Martins, Mikaela Luzia
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9928528065150862
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3914159735707328
dc.contributor.author.fl_str_mv Martins, Mikaela Luzia
dc.contributor.advisor-co1.fl_str_mv Fronza, Cátia de Azevedo
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/8861465576589134
dc.contributor.advisor1.fl_str_mv Rigo, Sandro José
contributor_str_mv Fronza, Cátia de Azevedo
Rigo, Sandro José
dc.subject.cnpq.fl_str_mv ACCNPQ::Lingüística, Letras e Artes::Lingüística
topic ACCNPQ::Lingüística, Letras e Artes::Lingüística
Terminologia
Semântica lexical
Processamento de Linguagem Natural
Substituição lexical
Semântica de frames
Terminology
Lexical semantics
Natural Language Processing
Lexical substitution
Frame semantics
dc.subject.por.fl_str_mv Terminologia
Semântica lexical
Processamento de Linguagem Natural
Substituição lexical
Semântica de frames
dc.subject.eng.fl_str_mv Terminology
Lexical semantics
Natural Language Processing
Lexical substitution
Frame semantics
description O objetivo deste trabalho é investigar o fenômeno da variação lexical em português e inglês nas etapas de alinhamento de termos e substituição lexical em Processamento de Linguagem Natural (PLN) levando em consideração o domínio especializado do varejo. Como aporte teórico, embasamo-nos em uma interface interdisciplinar que considera os postulados das áreas da Computação e da Linguística. Portanto, oferecemos um panorama teórico sobre a utilização de informação semântica no desenvolvimento de sistemas de PLN e demonstramos maneiras de implementação de informação semântica em bases lexicais computacionais como a WordNet, a FrameNet e a FrameNet Brasil. No que tange à Linguística, apoiamo-nos nas definições de Murphy (2003, 2010), L’Homme (2020) e Croft & Cruse (2004) a respeito das relações semânticas direcionadas à terminologia especializada. Também levamos em consideração as classificações e inferências de León-Araúz & Faber (2014) a respeito das variações lexicais e equivalentes de tradução no âmbito da Terminologia. Nossa metodologia apoia-se nas conjecturas da Linguística de Corpus e baseia-se na utilização da ferramenta Sketch Engine para analisar os corpora em inglês e português que buscam representar a terminologia do domínio. Os pares de termos escolhidos para o exercício de investigação da tarefa de substituição lexical são “plant” – “site” e “material” – “article”. A terminologia utilizada na análise monolíngue provém das predições geradas por três modelos de substituição lexical: um primeiro modelo considera a sinonímia entre termos, o segundo se volta a uma camada adicional de informação, os word embeddings, e o terceiro modelo atua com o auxílio de uma camada de informação adicional que recupera os frames semânticos. A terminologia utilizada na análise multilíngue provém do corpus utilizado e de uma coleta em bases terminológicas do varejo. A análise monolíngue busca classificar as predições dos modelos de acordo com as relações semânticas e resulta em uma categorização dos termos de acordo com as definições de variação terminológica de León-Araúz & Faber (2014). A análise bilíngue, por sua vez, classifica os equivalentes de tradução dos pares de termos de acordo com o problema de tradução que representam e com os tipos de equivalência elencados por León-Araúz & Faber (2014). Por fim, a partir de análises de cunho semântico-terminológico, nossos resultados apontam para a obtenção de melhorias de modelos de substituição lexical e modelos de tradução automática que levem em consideração a informação semântica e as categorias de classificação terminológicas com o intuito de avançar na qualidade e a precisão linguística dos resultados.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-06-22T14:39:58Z
dc.date.available.fl_str_mv 2023-06-22T14:39:58Z
dc.date.issued.fl_str_mv 2023-03-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.repositorio.jesuita.org.br/handle/UNISINOS/12540
url http://www.repositorio.jesuita.org.br/handle/UNISINOS/12540
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Linguística Aplicada
dc.publisher.initials.fl_str_mv Unisinos
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola da Indústria Criativa
publisher.none.fl_str_mv Universidade do Vale do Rio dos Sinos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
instname:Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron:UNISINOS
instname_str Universidade do Vale do Rio dos Sinos (UNISINOS)
instacron_str UNISINOS
institution UNISINOS
reponame_str Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
collection Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)
bitstream.url.fl_str_mv http://repositorio.jesuita.org.br/bitstream/UNISINOS/12540/2/license.txt
http://repositorio.jesuita.org.br/bitstream/UNISINOS/12540/1/Mikaela+Martins_PROTEGIDO.pdf
bitstream.checksum.fl_str_mv 320e21f23402402ac4988605e1edd177
876d2f9c0548ad00c7d6e05d44508be7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)
repository.mail.fl_str_mv
_version_ 1801845093488918528