Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection

Silva, Nicolas Eymael da

Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection

Detalhes bibliográficos
Autor(a) principal:	Silva, Nicolas Eymael da
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/224833
Resumo:	A Extração de Informações é um processo essencial para construir um Grafo de Conheci mento de forma automatizada, um tipo de base de conhecimento que representa o conhe cimento através de conexões semânticas e que vem ganhando foco nos últimos anos. Duas tarefas necessárias durante essa construção são o Reconhecimento de Entidades Nomea das (REN), responsável por identificar e classificar as entidades do texto, e a Extração de Relações (ER), responsável por identificar e classificar as relações entre essas entidades. Essas duas tarefas combinadas irão gerar as tuplas que formam o Grafo de Conhecimento. Apesar de já existirem trabalhos que tratam dessas duas tarefas, muitos deles são voltados para a língua inglesa e poucos para o português. O objetivo deste trabalho foi o desenvol vimento de modelos de aprendizado de máquina capazes de extrair entidades e relações de textos em português. O primeiro modelo foi utilizado para a extração das entidades por meio da biblioteca Simple Transformers, enquanto que o segundo modelo foi utilizado para determinar as relações entre as entidades através da biblioteca Kindred. Ambos os modelos foram treinados e avaliados utilizando uma versão simplificada do conjunto de dados do Segundo HAREM, um padrão de ouro para o Processamento de Linguagem Na tural em português. Após a avaliação dos modelos, observou-se que os resultados obtidos na tarefa de REN foram bons para as principais classes presentes no conjunto de dados, no entanto os resultados da tarefa de ER não atenderam às expectativas e as métricas foram inferiores se comparadas aos trabalhos relacionados. Por fim, seria interessante desenvol ver novos modelos para a tarefa de ER utilizando as bibliotecas spaCy ou Transformers, alternativas que são mais complexas do que o Kindred, porém mais eficazes.

Metadados do item

id	UFRGS-2_325c9a376478cadd1051392fba3d6aa4
oai_identifier_str	oai:www.lume.ufrgs.br:10183/224833
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Silva, Nicolas Eymael daBarone, Dante Augusto CoutoCôrtes, Eduardo Gabriel2021-07-31T04:40:27Z2021http://hdl.handle.net/10183/224833001129035A Extração de Informações é um processo essencial para construir um Grafo de Conheci mento de forma automatizada, um tipo de base de conhecimento que representa o conhe cimento através de conexões semânticas e que vem ganhando foco nos últimos anos. Duas tarefas necessárias durante essa construção são o Reconhecimento de Entidades Nomea das (REN), responsável por identificar e classificar as entidades do texto, e a Extração de Relações (ER), responsável por identificar e classificar as relações entre essas entidades. Essas duas tarefas combinadas irão gerar as tuplas que formam o Grafo de Conhecimento. Apesar de já existirem trabalhos que tratam dessas duas tarefas, muitos deles são voltados para a língua inglesa e poucos para o português. O objetivo deste trabalho foi o desenvol vimento de modelos de aprendizado de máquina capazes de extrair entidades e relações de textos em português. O primeiro modelo foi utilizado para a extração das entidades por meio da biblioteca Simple Transformers, enquanto que o segundo modelo foi utilizado para determinar as relações entre as entidades através da biblioteca Kindred. Ambos os modelos foram treinados e avaliados utilizando uma versão simplificada do conjunto de dados do Segundo HAREM, um padrão de ouro para o Processamento de Linguagem Na tural em português. Após a avaliação dos modelos, observou-se que os resultados obtidos na tarefa de REN foram bons para as principais classes presentes no conjunto de dados, no entanto os resultados da tarefa de ER não atenderam às expectativas e as métricas foram inferiores se comparadas aos trabalhos relacionados. Por fim, seria interessante desenvol ver novos modelos para a tarefa de ER utilizando as bibliotecas spaCy ou Transformers, alternativas que são mais complexas do que o Kindred, porém mais eficazes.Information Extraction is an essential process for automatically building a Knowledge Graph, a type of knowledge base that represents knowledge through semantic connections and has been gaining focus in recent years. Two tasks required during this construction are Named Entity Recognition (NER), responsible for identifying and classifying the en tities in the text, and Relation Extraction (RE), responsible for identifying and classifying the relations between these entities. These two tasks combined will generate the tuples that form the Knowledge Graph. Although there are already works that deal with these two tasks, many of them are focused on the English language and few on Portuguese. The goal of this work was the development of machine learning models capable of extracting entities and relations from texts in Portuguese. The first model was used to extract entities through the Simple Transformers library, while the second model was used to determine the relations between entities through the Kindred library. Both models were trained and evaluated using a simplified version of the Second HAREM Golden Collection dataset, a golden standard for NLP in Portuguese. After evaluating the models, it was observed that the results obtained in the NER task were good for the main classes present in the dataset, however, the results of the RE task did not meet expectations and the metrics were lower compared to the related works. Finally, it would be interesting to develop new models for the RE task using the spaCy or Transformers libraries, alternatives that are more complex than Kindred, but more effective.application/pdfengAprendizado : máquinaGrafos de conhecimentoNamed Entity RecognitionRelation ExtractionHAREMKnowledge GraphExtraction of entities and relations in Portuguese from the Second HAREM Golden CollectionExtração de entidades e relações em português a partir da Coleção Dourada do Segundo HAREM info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2021Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001129035.pdf.txt001129035.pdf.txtExtracted Texttext/plain82631http://www.lume.ufrgs.br/bitstream/10183/224833/2/001129035.pdf.txt1f527e8c105f03824568d26963a8f669MD52ORIGINAL001129035.pdfTexto completo (inglês)application/pdf1218326http://www.lume.ufrgs.br/bitstream/10183/224833/1/001129035.pdf8bcbbe731c76fc123b970d52ca071078MD5110183/2248332021-08-18 04:27:10.015491oai:www.lume.ufrgs.br:10183/224833Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-08-18T07:27:10Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
dc.title.alternative.pt.fl_str_mv	Extração de entidades e relações em português a partir da Coleção Dourada do Segundo HAREM
title	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
spellingShingle	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection Silva, Nicolas Eymael da Aprendizado : máquina Grafos de conhecimento Named Entity Recognition Relation Extraction HAREM Knowledge Graph
title_short	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
title_full	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
title_fullStr	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
title_full_unstemmed	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
title_sort	Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection
author	Silva, Nicolas Eymael da
author_facet	Silva, Nicolas Eymael da
author_role	author
dc.contributor.author.fl_str_mv	Silva, Nicolas Eymael da
dc.contributor.advisor1.fl_str_mv	Barone, Dante Augusto Couto
dc.contributor.advisor-co1.fl_str_mv	Côrtes, Eduardo Gabriel
contributor_str_mv	Barone, Dante Augusto Couto Côrtes, Eduardo Gabriel
dc.subject.por.fl_str_mv	Aprendizado : máquina Grafos de conhecimento
topic	Aprendizado : máquina Grafos de conhecimento Named Entity Recognition Relation Extraction HAREM Knowledge Graph
dc.subject.eng.fl_str_mv	Named Entity Recognition Relation Extraction HAREM Knowledge Graph
description	A Extração de Informações é um processo essencial para construir um Grafo de Conheci mento de forma automatizada, um tipo de base de conhecimento que representa o conhe cimento através de conexões semânticas e que vem ganhando foco nos últimos anos. Duas tarefas necessárias durante essa construção são o Reconhecimento de Entidades Nomea das (REN), responsável por identificar e classificar as entidades do texto, e a Extração de Relações (ER), responsável por identificar e classificar as relações entre essas entidades. Essas duas tarefas combinadas irão gerar as tuplas que formam o Grafo de Conhecimento. Apesar de já existirem trabalhos que tratam dessas duas tarefas, muitos deles são voltados para a língua inglesa e poucos para o português. O objetivo deste trabalho foi o desenvol vimento de modelos de aprendizado de máquina capazes de extrair entidades e relações de textos em português. O primeiro modelo foi utilizado para a extração das entidades por meio da biblioteca Simple Transformers, enquanto que o segundo modelo foi utilizado para determinar as relações entre as entidades através da biblioteca Kindred. Ambos os modelos foram treinados e avaliados utilizando uma versão simplificada do conjunto de dados do Segundo HAREM, um padrão de ouro para o Processamento de Linguagem Na tural em português. Após a avaliação dos modelos, observou-se que os resultados obtidos na tarefa de REN foram bons para as principais classes presentes no conjunto de dados, no entanto os resultados da tarefa de ER não atenderam às expectativas e as métricas foram inferiores se comparadas aos trabalhos relacionados. Por fim, seria interessante desenvol ver novos modelos para a tarefa de ER utilizando as bibliotecas spaCy ou Transformers, alternativas que são mais complexas do que o Kindred, porém mais eficazes.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-07-31T04:40:27Z
dc.date.issued.fl_str_mv	2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/224833
dc.identifier.nrb.pt_BR.fl_str_mv	001129035
url	http://hdl.handle.net/10183/224833
identifier_str_mv	001129035
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/224833/2/001129035.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/224833/1/001129035.pdf
bitstream.checksum.fl_str_mv	1f527e8c105f03824568d26963a8f669 8bcbbe731c76fc123b970d52ca071078
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1815447279383871488

Extraction of entities and relations in Portuguese from the Second HAREM Golden Collection

Registros relacionados