Modelo e método semântico para organização e recuperação de documentos

Detalhes bibliográficos
Autor(a) principal: Andréia Dal Ponte Novelli
Data de Publicação: 2013
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do ITA
Texto Completo: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873
Resumo: A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.
id ITA_421d7d8283820af150008d7afca7c136
oai_identifier_str oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873
network_acronym_str ITA
network_name_str Biblioteca Digital de Teses e Dissertações do ITA
spelling Modelo e método semântico para organização e recuperação de documentosArquitetura de softwareWeb semânticaOntologias (inteligência artificial)Tratamento da informaçãoRecuperação da informaçãoDocumentos eletrônicosEngenharia de softwareComputaçãoA crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.Instituto Tecnológico de AeronáuticaJosé Maria Parente de OliveiraAndréia Dal Ponte Novelli2013-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:04:59Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:40:15.86Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue
dc.title.none.fl_str_mv Modelo e método semântico para organização e recuperação de documentos
title Modelo e método semântico para organização e recuperação de documentos
spellingShingle Modelo e método semântico para organização e recuperação de documentos
Andréia Dal Ponte Novelli
Arquitetura de software
Web semântica
Ontologias (inteligência artificial)
Tratamento da informação
Recuperação da informação
Documentos eletrônicos
Engenharia de software
Computação
title_short Modelo e método semântico para organização e recuperação de documentos
title_full Modelo e método semântico para organização e recuperação de documentos
title_fullStr Modelo e método semântico para organização e recuperação de documentos
title_full_unstemmed Modelo e método semântico para organização e recuperação de documentos
title_sort Modelo e método semântico para organização e recuperação de documentos
author Andréia Dal Ponte Novelli
author_facet Andréia Dal Ponte Novelli
author_role author
dc.contributor.none.fl_str_mv José Maria Parente de Oliveira
dc.contributor.author.fl_str_mv Andréia Dal Ponte Novelli
dc.subject.por.fl_str_mv Arquitetura de software
Web semântica
Ontologias (inteligência artificial)
Tratamento da informação
Recuperação da informação
Documentos eletrônicos
Engenharia de software
Computação
topic Arquitetura de software
Web semântica
Ontologias (inteligência artificial)
Tratamento da informação
Recuperação da informação
Documentos eletrônicos
Engenharia de software
Computação
dc.description.none.fl_txt_mv A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.
description A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.
publishDate 2013
dc.date.none.fl_str_mv 2013-12-12
dc.type.driver.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/doctoralThesis
status_str publishedVersion
format doctoralThesis
dc.identifier.uri.fl_str_mv http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873
url http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do ITA
instname:Instituto Tecnológico de Aeronáutica
instacron:ITA
reponame_str Biblioteca Digital de Teses e Dissertações do ITA
collection Biblioteca Digital de Teses e Dissertações do ITA
instname_str Instituto Tecnológico de Aeronáutica
instacron_str ITA
institution ITA
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica
repository.mail.fl_str_mv
subject_por_txtF_mv Arquitetura de software
Web semântica
Ontologias (inteligência artificial)
Tratamento da informação
Recuperação da informação
Documentos eletrônicos
Engenharia de software
Computação
_version_ 1706809292021039104