Contributions for building a Corpora-Flow system

Detalhes bibliográficos
Autor(a) principal: Santos, André Fernandes
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/28122
Resumo: Dissertação de mestrado em Engenharia de Informática
id RCAP_e4091c4e4df80fc3609056d109f7c93b
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/28122
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Contributions for building a Corpora-Flow systemDissertação de mestrado em Engenharia de InformáticaOs corpora textuais são um recurso importante no processamento de linguagem natural e em áreas relacionadas, tais como a mineração de textos biomédicos, a linguística de corpus, aprendizagem máquina e recuperação de informação. A preparação de documentos para inclusão num corpus envolve vários passos distintos e uma rede complexa de dependências e condições, que resulta num fluxo difícil de gerir manualmente. Esta dissertação foca-se nos diversos desafios encontrados no processo de construção de corpora, e propõe métodos para ultrapassar essas questões. O primeiro problema abordado foi a limpeza de documentos de texto –remoção de resíduos estruturais, normalização de formatos e notações e deteção de delimitadores de secção– tornando os documentos passíveis de serem processados. Outra questão abordada foi a deteção de documentos duplicados e de pares de documentos candidatos a alinhamento, tendo sido introduzido e implementado um método para medição da similaridade entre documentos. Posteriormente, introduziu-se o conceito de sincronização de documentos, seguido da descrição de uma implementação baseada nos delimitadores de secção. Dois casos de estudo reais foram utilizados para guiar a implementação das ferramentas desenvolvidas: alinhamento multi-língua de documentos para inclusão em corpora paralelos alinhados e a construção de corpora de textos biomédicos para mineração de texto. Um protótipo de um sistema de gestão da construção de corpora foi desenvolvido – um sistema de corpora-flow. Este sistema incorpora mecanismos que facilitam a implementação do fluxo necessário para a construção de um corpus. Uma avaliação comparativa do conjunto de ferramentas desenvolvido foi realizada através do alinhamento de documentos com e sem a intervenção das ferramentas desenvolvidas. Um pequeno conjunto de ferramentas foi desenvolvido para avaliar os resultados de alinhamentos.Text corpora are important resources on natural language processing and related areas such as biomedical text mining, corpus linguistics, machine learning and information extraction. Preparing documents to be included in a corpus involves several different steps and a complex network of dependencies and conditions, which results in a workflow difficult to manage manually. This dissertation focuses on different challenges which can be found when building corpora, and proposed methods to overcome such questions. cleaning of text documents – removing structural residues, normalizing encodings and notations and finding section delimiters – to make the documents suitable for further processing. Another question addressed was the detection of duplicated documents and candidate document pairs for alignment. A method for measuring the similarity between documents was introduced and implemented. Then, the concept of document synchronization was introduced, followed by the description of an implementation based on section delimiters. Two real-world scenarios were used to guide the implementation of the tools developed: multi-language document alignment for inclusion in parallel aligned corpora and building corpora of biomedical texts for text mining. A prototype of a corpora building management system was developed – a corpora-flow system. This system includes mechanisms which facilitate the implementation of the workflow needed to build a corpus. A comparative evaluation of the set of tools developed was performed by aligning documents with and without using the tools developed. A small set of auxiliary tools was created to evaluate the results of alignments.Almeida, J. J.Lourenço, Anália Maria GarciaUniversidade do MinhoSantos, André Fernandes2011-12-092011-12-09T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/28122enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-29T01:19:19Zoai:repositorium.sdum.uminho.pt:1822/28122Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:18:27.947528Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Contributions for building a Corpora-Flow system
title Contributions for building a Corpora-Flow system
spellingShingle Contributions for building a Corpora-Flow system
Santos, André Fernandes
title_short Contributions for building a Corpora-Flow system
title_full Contributions for building a Corpora-Flow system
title_fullStr Contributions for building a Corpora-Flow system
title_full_unstemmed Contributions for building a Corpora-Flow system
title_sort Contributions for building a Corpora-Flow system
author Santos, André Fernandes
author_facet Santos, André Fernandes
author_role author
dc.contributor.none.fl_str_mv Almeida, J. J.
Lourenço, Anália Maria Garcia
Universidade do Minho
dc.contributor.author.fl_str_mv Santos, André Fernandes
description Dissertação de mestrado em Engenharia de Informática
publishDate 2011
dc.date.none.fl_str_mv 2011-12-09
2011-12-09T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/28122
url https://hdl.handle.net/1822/28122
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132639257427968