Avaliação de analogias em word embeddings para língua portuguesa

Detalhes bibliográficos
Autor(a) principal: Couto, Bruno Ferraz de A.
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/13431
Resumo: Estudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida.
id UFRJ_80fc89322dd112f44c234594a50bbd83
oai_identifier_str oai:pantheon.ufrj.br:11422/13431
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Avaliação de analogias em word embeddings para língua portuguesaReconhecimento de textoAvaliaçãoProcessamento de linguagem naturalCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEstudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida.Universidade Federal do Rio de JaneiroBrasilInstituto de ComputaçãoUFRJSilva, João Carlos Pereira dahttp://lattes.cnpq.br/9413102524215939http://lattes.cnpq.br/7760389960592720Grael, Felipe Finkhttp://lattes.cnpq.br/7307455058897826Paixão, João Antônio R. dahttp://lattes.cnpq.br/5705386762324718Couto, Bruno Ferraz de A.2020-12-08T21:31:43Z2023-12-21T03:07:18Z2020-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/13431porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:07:18Zoai:pantheon.ufrj.br:11422/13431Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:07:18Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Avaliação de analogias em word embeddings para língua portuguesa
title Avaliação de analogias em word embeddings para língua portuguesa
spellingShingle Avaliação de analogias em word embeddings para língua portuguesa
Couto, Bruno Ferraz de A.
Reconhecimento de texto
Avaliação
Processamento de linguagem natural
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Avaliação de analogias em word embeddings para língua portuguesa
title_full Avaliação de analogias em word embeddings para língua portuguesa
title_fullStr Avaliação de analogias em word embeddings para língua portuguesa
title_full_unstemmed Avaliação de analogias em word embeddings para língua portuguesa
title_sort Avaliação de analogias em word embeddings para língua portuguesa
author Couto, Bruno Ferraz de A.
author_facet Couto, Bruno Ferraz de A.
author_role author
dc.contributor.none.fl_str_mv Silva, João Carlos Pereira da
http://lattes.cnpq.br/9413102524215939
http://lattes.cnpq.br/7760389960592720
Grael, Felipe Fink
http://lattes.cnpq.br/7307455058897826
Paixão, João Antônio R. da
http://lattes.cnpq.br/5705386762324718
dc.contributor.author.fl_str_mv Couto, Bruno Ferraz de A.
dc.subject.por.fl_str_mv Reconhecimento de texto
Avaliação
Processamento de linguagem natural
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
topic Reconhecimento de texto
Avaliação
Processamento de linguagem natural
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Estudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-08T21:31:43Z
2020-08-04
2023-12-21T03:07:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/13431
url http://hdl.handle.net/11422/13431
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto de Computação
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto de Computação
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1815456011577720832