Avaliação de analogias em word embeddings para língua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/13431 |
Resumo: | Estudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida. |
id |
UFRJ_80fc89322dd112f44c234594a50bbd83 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/13431 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Avaliação de analogias em word embeddings para língua portuguesaReconhecimento de textoAvaliaçãoProcessamento de linguagem naturalCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOEstudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida.Universidade Federal do Rio de JaneiroBrasilInstituto de ComputaçãoUFRJSilva, João Carlos Pereira dahttp://lattes.cnpq.br/9413102524215939http://lattes.cnpq.br/7760389960592720Grael, Felipe Finkhttp://lattes.cnpq.br/7307455058897826Paixão, João Antônio R. dahttp://lattes.cnpq.br/5705386762324718Couto, Bruno Ferraz de A.2020-12-08T21:31:43Z2023-12-21T03:07:18Z2020-08-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/13431porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:07:18Zoai:pantheon.ufrj.br:11422/13431Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:07:18Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Avaliação de analogias em word embeddings para língua portuguesa |
title |
Avaliação de analogias em word embeddings para língua portuguesa |
spellingShingle |
Avaliação de analogias em word embeddings para língua portuguesa Couto, Bruno Ferraz de A. Reconhecimento de texto Avaliação Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Avaliação de analogias em word embeddings para língua portuguesa |
title_full |
Avaliação de analogias em word embeddings para língua portuguesa |
title_fullStr |
Avaliação de analogias em word embeddings para língua portuguesa |
title_full_unstemmed |
Avaliação de analogias em word embeddings para língua portuguesa |
title_sort |
Avaliação de analogias em word embeddings para língua portuguesa |
author |
Couto, Bruno Ferraz de A. |
author_facet |
Couto, Bruno Ferraz de A. |
author_role |
author |
dc.contributor.none.fl_str_mv |
Silva, João Carlos Pereira da http://lattes.cnpq.br/9413102524215939 http://lattes.cnpq.br/7760389960592720 Grael, Felipe Fink http://lattes.cnpq.br/7307455058897826 Paixão, João Antônio R. da http://lattes.cnpq.br/5705386762324718 |
dc.contributor.author.fl_str_mv |
Couto, Bruno Ferraz de A. |
dc.subject.por.fl_str_mv |
Reconhecimento de texto Avaliação Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
topic |
Reconhecimento de texto Avaliação Processamento de linguagem natural CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Estudos na área de Processamento de Linguagem Natural tem indicado o uso de representações vetoriais de palavras e proposto novos modelos de aprendizado de máquina para aprimoramento da geração dessas representações. Essas representações são utilizadas em aplicações de Processamento de Linguagem Natural para substituir a representação textual e utilizar as informações absorvidas pelas representações para melhorar os resultados da aplicação. A avaliação dos modelos treinados é realizada de diferentes formas e são divididas entre formas de avaliação intrínseca e extrínseca. Neste trabalho busca-se explorar as regularidades linguísticas (semântica e sintática) observadas nesses modelos e analisar os resultados do método de avaliação intrínseca em que é aferido a capacidade de resolução de analogias de pares de palavras. Como a maioria dos trabalhos referenciados utilizam da língua inglesa para demonstrar as utilidades de word embeddings, os experimentos foram realizados sobre a língua portuguesa, com intuito de contribuir para os estudos de Processamento de Linguagem Natural e word embeddings no idioma. A acurácia de modelos pré-treinados disponibilizados e dos modelos treinados para este trabalho indicam o potencial de resolução de analogias através dessa técnica. Além disso, a exploração do método de avaliação por analogias expõe particularidades dos resultados obtidos que podem ser enviesadas pela análise da acurácia obtida. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-08T21:31:43Z 2020-08-04 2023-12-21T03:07:18Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/13431 |
url |
http://hdl.handle.net/11422/13431 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto de Computação UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto de Computação UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456011577720832 |