Detecção automática de documentos paralelos

Detalhes bibliográficos
Autor(a) principal: Bernardes, Fátima Alexandra da Silva
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/3355
Resumo: Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para Obtenção do grau de Mestre em Engenharia Informática
id RCAP_d6022262286966620e0f4f1bef83408e
oai_identifier_str oai:run.unl.pt:10362/3355
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Detecção automática de documentos paralelosDissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para Obtenção do grau de Mestre em Engenharia InformáticaA internet é uma fonte excelente de textos paralelos, sendo que dois textos são paralelos se um é tradução do outro ou ambos são traduções do mesmo texto fonte. Através da Internet, podem ser obtidos textos em diversas línguas devido ao constante crescimento do número de endereços Web multilingues. Estes textos são especialmente úteis na construção de corpora paralelos, os quais serão indispensáveis para aplicações como a Tradução Automática (baseada em exemplos, contextos ou estatística). O objectivo nesta dissertação é a detecção automática de documentos paralelos, retirados de endereços Web multilingues, através de abordagens independentes da língua. Dos métodos estudados, foram aplicados métodos baseados nos nomes dos documentos e na proporcionalidade dos seus tamanhos, conseguindo valores de precisão entre 95% e 100%, dependendo dos corpora utilizados. De forma inovadora, utilizaram-se cognatos (palavras escritas de forma semelhante e com significado idêntico), existentes nos dois textos a comparar, para suportar a decisão sobre se os textos em análise são ou não paralelos. Ao utilizar cognatos para estudar o seu comportamento e relevância na detecção de pares candidatos de documentos paralelos descobriu-se que, se os cognatos forem usados conjuntamente com métodos baseados em nomes de documentos e na proporcionalidade dos tamanhos dos textos, os cognatos têm um impacto evidente nos valores de precisão conseguidos pelos dois métodos anteriores. Através da identificação de cognatos consegue-se resultados de 99% para a medida f-measure em corpus com uma organização bastante rígida. Por outro lado, corpus menos organizado consegue-se obter valores de f-measure de 95,5%.FCT - UNLLopes, José Gabriel PereiraRUNBernardes, Fátima Alexandra da Silva2010-04-15T12:57:13Z20092009-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/3355porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T03:33:14Zoai:run.unl.pt:10362/3355Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:15:21.419842Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Detecção automática de documentos paralelos
title Detecção automática de documentos paralelos
spellingShingle Detecção automática de documentos paralelos
Bernardes, Fátima Alexandra da Silva
title_short Detecção automática de documentos paralelos
title_full Detecção automática de documentos paralelos
title_fullStr Detecção automática de documentos paralelos
title_full_unstemmed Detecção automática de documentos paralelos
title_sort Detecção automática de documentos paralelos
author Bernardes, Fátima Alexandra da Silva
author_facet Bernardes, Fátima Alexandra da Silva
author_role author
dc.contributor.none.fl_str_mv Lopes, José Gabriel Pereira
RUN
dc.contributor.author.fl_str_mv Bernardes, Fátima Alexandra da Silva
description Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para Obtenção do grau de Mestre em Engenharia Informática
publishDate 2009
dc.date.none.fl_str_mv 2009
2009-01-01T00:00:00Z
2010-04-15T12:57:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/3355
url http://hdl.handle.net/10362/3355
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv FCT - UNL
publisher.none.fl_str_mv FCT - UNL
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137805116375040