Python para Pré-processamento e Extracção de Características a partir de Texto Português

Detalhes bibliográficos
Autor(a) principal: Ferreira, João Diogo Coelho
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/88030
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_2afb7b7b0c7b8a0254886cb5d0990be7
oai_identifier_str oai:estudogeral.uc.pt:10316/88030
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Python para Pré-processamento e Extracção de Características a partir de Texto PortuguêsPython for Pre-processment and Feature Extraction from Portuguese TextInteligência ArtificialProcessamento de Linguagem NaturalReconhecimento de Entidades MencionadasExtracção de InformaçãoGeração de QuestõesArtificial IntelligenceNatural Language ProcessingNamed Entity RecognitionInformation ExtractionQuestion GenerationDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaO processamento de linguagem natural é uma área que tem aplicações muito vastas, que vão desde resumo de texto automatizado à tradução automática e criação de agentes conversacionais. Para a criação destas aplicações é necessário utilizar diversas ferramentas complexas que permitam processar grandes quantidades de informação. Actualmente, a maioria opera principalmente sobre a língua inglesa, e embora possam ser treinadas para a língua portuguesa podem ser amplamente melhoradas, para mais se determinadas nuances da língua forem consideradas. Justifica-se por esse motivo a necessidade de criar ferramentas que operem especificamente sobre a língua portuguesa e assim obter melhores resultados.O presente trabalho propõe o desenvolvimento de ferramentas que permitam processar texto em português e posteriormente transformá-lo em formatos sobre os quais agentes conversacionais consigam operar.Para isso, foram estudadas ferramentas de processamento de linguagem natural já existentes, e após este estudo iniciaram-se adaptações de modo a tentar obter melhores resultados para língua portuguesa. Este trabalho continuará com a integração de ferramentas que permitam extrair informação e culminará com uma demonstração da sua aplicação à geração de pares de perguntas e respostas, o que poderá ser útil para aplicações como agentes conversacionais.Neste trabalho foi desenvolvida e disponibilizada ao público uma nova cadeia de PLN para a língua portuguesa, utilizando a linguagem de programação Python.Natural Language Processing is an area that has very extensive applications, that range from automated text summarization to automatic translation and conversational agents' creation. In order to create these applications, it is necessary to use several complex tools that allow to process large amounts of information. Nowadays, most of these tools operate mainly on the English language and, even though they can be trained to operate in the Portuguese language, they can be vastly improved, especially if some language nuances are considered. This justifies the need to create tools that can operate specifically on the Portuguese language and thus get better results.The work presented in this document proposes the development of tools that allow text processing in Portuguese and later its' transformation into formats on which conversational agents can operate. In order to achieve this, the existing natural language processing tools were studied and, after this study, some adaptations were made in order to try to obtain better results for the Portuguese language. The previously mentioned work continues with the integration of tools that allow you to extract information and culminates with a demonstration of its application to the generation of pairs of questions and answers, which may be useful to applications such as conversational agents and chatbots. In this work a new Natural Language Processing pipeline for the Portuguese language was assembled, using the Python programming language.2019-09-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/88030http://hdl.handle.net/10316/88030TID:202307085porFerreira, João Diogo Coelhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-06-02T07:57:35Zoai:estudogeral.uc.pt:10316/88030Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:08:49.805895Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Python para Pré-processamento e Extracção de Características a partir de Texto Português
Python for Pre-processment and Feature Extraction from Portuguese Text
title Python para Pré-processamento e Extracção de Características a partir de Texto Português
spellingShingle Python para Pré-processamento e Extracção de Características a partir de Texto Português
Ferreira, João Diogo Coelho
Inteligência Artificial
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Extracção de Informação
Geração de Questões
Artificial Intelligence
Natural Language Processing
Named Entity Recognition
Information Extraction
Question Generation
title_short Python para Pré-processamento e Extracção de Características a partir de Texto Português
title_full Python para Pré-processamento e Extracção de Características a partir de Texto Português
title_fullStr Python para Pré-processamento e Extracção de Características a partir de Texto Português
title_full_unstemmed Python para Pré-processamento e Extracção de Características a partir de Texto Português
title_sort Python para Pré-processamento e Extracção de Características a partir de Texto Português
author Ferreira, João Diogo Coelho
author_facet Ferreira, João Diogo Coelho
author_role author
dc.contributor.author.fl_str_mv Ferreira, João Diogo Coelho
dc.subject.por.fl_str_mv Inteligência Artificial
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Extracção de Informação
Geração de Questões
Artificial Intelligence
Natural Language Processing
Named Entity Recognition
Information Extraction
Question Generation
topic Inteligência Artificial
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Extracção de Informação
Geração de Questões
Artificial Intelligence
Natural Language Processing
Named Entity Recognition
Information Extraction
Question Generation
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2019
dc.date.none.fl_str_mv 2019-09-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/88030
http://hdl.handle.net/10316/88030
TID:202307085
url http://hdl.handle.net/10316/88030
identifier_str_mv TID:202307085
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133981500768256