Extracção automática de tópicos de documentos

Detalhes bibliográficos
Autor(a) principal: Teixeira, Luís Filipe da Silva
Data de Publicação: 2010
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/10577
Resumo: Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Engenharia Informática
id RCAP_b7fd3debb91f371d1a027ab189315044
oai_identifier_str oai:run.unl.pt:10362/10577
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Extracção automática de tópicos de documentosDissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Engenharia InformáticaÉ amplamente conhecida a necessidade de se terem palavras-chave ou tópicos associados a documentos. Entende-se por palavras-chave ou por tópico (s) de um documento qualquer palavra ou multipalavra (uma sequência de 2 ou mais palavras) que, tendo um significado mais ou menos preciso, resume em si parte do conteúdo desse documento. Neste trabalho pretendo desenvolver uma nova metodologia que aborda a problemática de extracção de palavras-chave. Para tal, trabalharei a extracção das palavras-chave trabalhando com palavras, multipalavras e prefixos de palavras com comprimentos predefinidos (5 caracteres). A utilização de prefixos permite trabalhar com línguas altamente flexionadas, servindo os prefixos tópico como sinalizadores de toda uma família de palavras e de multipalavras que poderão, nesse caso, ser promovidas a tópicos, sendo a extracção destes prefixos inovadora, relativamente ao estado da arte. A extracção a realizar será baseada em estatística, o que possibilita trabalhar com textos de várias línguas, nomeadamente o Português, o Inglês e o Checo, que foram as línguas utilizadas neste trabalho. Pretendi melhorar os tempos de extracção de tópicos, recorrendo para isso à utilização de Suffix Arrays. Os resultados obtidos foram avaliados por pessoas externas. É feita também uma comparação bastante exaustiva entre 24 métodos de extracção, alguns novos, propostos neste trabalho, outros propostos por outros autores. Com esta dissertação pretendo fornecer uma nova ferramenta a trabalhos posteriores de sumarização de documentos, de Agrupamento ou indexação de documentos, de construção de ontologias.Faculdade de Ciências e TecnologiaLopes, José Gabriel PereiraSilva, JoaquimRUNTeixeira, Luís Filipe da Silva2013-10-15T15:06:51Z20102010-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/10577porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T03:44:25Zoai:run.unl.pt:10362/10577Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:19:33.374218Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Extracção automática de tópicos de documentos
title Extracção automática de tópicos de documentos
spellingShingle Extracção automática de tópicos de documentos
Teixeira, Luís Filipe da Silva
title_short Extracção automática de tópicos de documentos
title_full Extracção automática de tópicos de documentos
title_fullStr Extracção automática de tópicos de documentos
title_full_unstemmed Extracção automática de tópicos de documentos
title_sort Extracção automática de tópicos de documentos
author Teixeira, Luís Filipe da Silva
author_facet Teixeira, Luís Filipe da Silva
author_role author
dc.contributor.none.fl_str_mv Lopes, José Gabriel Pereira
Silva, Joaquim
RUN
dc.contributor.author.fl_str_mv Teixeira, Luís Filipe da Silva
description Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Engenharia Informática
publishDate 2010
dc.date.none.fl_str_mv 2010
2010-01-01T00:00:00Z
2013-10-15T15:06:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/10577
url http://hdl.handle.net/10362/10577
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Faculdade de Ciências e Tecnologia
publisher.none.fl_str_mv Faculdade de Ciências e Tecnologia
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137838614183936