Modelo e método semântico para organização e recuperação de documentos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do ITA |
Texto Completo: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873 |
Resumo: | A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância. |
id |
ITA_421d7d8283820af150008d7afca7c136 |
---|---|
oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873 |
network_acronym_str |
ITA |
network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
spelling |
Modelo e método semântico para organização e recuperação de documentosArquitetura de softwareWeb semânticaOntologias (inteligência artificial)Tratamento da informaçãoRecuperação da informaçãoDocumentos eletrônicosEngenharia de softwareComputaçãoA crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância.Instituto Tecnológico de AeronáuticaJosé Maria Parente de OliveiraAndréia Dal Ponte Novelli2013-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:04:59Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2873http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:40:15.86Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
dc.title.none.fl_str_mv |
Modelo e método semântico para organização e recuperação de documentos |
title |
Modelo e método semântico para organização e recuperação de documentos |
spellingShingle |
Modelo e método semântico para organização e recuperação de documentos Andréia Dal Ponte Novelli Arquitetura de software Web semântica Ontologias (inteligência artificial) Tratamento da informação Recuperação da informação Documentos eletrônicos Engenharia de software Computação |
title_short |
Modelo e método semântico para organização e recuperação de documentos |
title_full |
Modelo e método semântico para organização e recuperação de documentos |
title_fullStr |
Modelo e método semântico para organização e recuperação de documentos |
title_full_unstemmed |
Modelo e método semântico para organização e recuperação de documentos |
title_sort |
Modelo e método semântico para organização e recuperação de documentos |
author |
Andréia Dal Ponte Novelli |
author_facet |
Andréia Dal Ponte Novelli |
author_role |
author |
dc.contributor.none.fl_str_mv |
José Maria Parente de Oliveira |
dc.contributor.author.fl_str_mv |
Andréia Dal Ponte Novelli |
dc.subject.por.fl_str_mv |
Arquitetura de software Web semântica Ontologias (inteligência artificial) Tratamento da informação Recuperação da informação Documentos eletrônicos Engenharia de software Computação |
topic |
Arquitetura de software Web semântica Ontologias (inteligência artificial) Tratamento da informação Recuperação da informação Documentos eletrônicos Engenharia de software Computação |
dc.description.none.fl_txt_mv |
A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância. |
description |
A crescente quantidade e variedade de documentos disponibilizados em diversos locais, torna cada vez mais fácil o acesso a muitos documentos sobre os mais variados assuntos. Entretanto, esse crescimento torna-se cada vez mais custoso a análise dessas grandes quantidades de documentos para obtenção de informações relevantes que atendam uma necessidade definida. Dessa forma, buscam-se soluções que auxiliem melhor o usuário, obtendo resultados relevantes em quantidades menores que permitam uma análise completa dos documentos recuperados. A obtenção de poucos resultados relevantes usando um sistema automatizado ainda é um desafio para a área de recuperação de informação. Assim, usando tratamento da semântica e organização melhor dos documentos, é proposto o modelo ModRSem que lida com diversos conjuntos e tipos de documentos em um único modelo, usando estrutura, conteúdo e conceitos dos documentos para organizá-los num espaço e fazer a recuperação, permitindo melhorar a organização e os resultados obtidos automaticamente, realizando ajustes no modelo. Esse trabalho apresenta além do modelo, o método OntoMet que implementa o modelo ModRSem usando múltiplos conjuntos de temática geral e três tipos de documentos: texto, HTML e XML. A semântica é tratada na organização e na recuperação por meio de ferramentas como a Wordnet e ontologias que podem ser fornecidas ou criadas automaticamente pelo método. Esse método desenvolveu uma solução que possibilita ajustar os resultados de forma automática ou manual pelo usuário. O modelo foi validado utilizando diversos experimentos, com documentos de várias temáticas e tipos. Para comparação dos resultados obtidos pelo modelo ModRSem, foram utilizados os modelos vetorial e o LSI, considerando os valores de precisão e cobertura. Os resultados dos experimentos indicaram que o modelo ModRSem melhora os resultados de precisão em torno de vinte por cento e cobretura em torno de vinte e dois por cento, quando comparado ao LSI e vetorial, quando retornando poucos documentos. Os experimentos mostraram ainda que quanto mais bem formulada e constextualizada são as consultas, melhores são os resultados obtidos pelo modelo. Os documentos com mais informações ou ainda estrutura, conteúdo e conceitos, permitem uma organização e recuperação melhor, obtendo melhores resultados, como no caso dos documentos XML. A execução de ajustes melhora a precisão e a cobertura de algumas consultas em torno de quatro por cento, dependendo de quão bom é o conjunto de respostas analisado. Assim, conclui-se dos resultados, que o modelo melhora a recuperação de documentos, mantendo nas repostas poucos documentos que têm boa relevância. |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013-12-12 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis |
status_str |
publishedVersion |
format |
doctoralThesis |
dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873 |
url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2873 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
collection |
Biblioteca Digital de Teses e Dissertações do ITA |
instname_str |
Instituto Tecnológico de Aeronáutica |
instacron_str |
ITA |
institution |
ITA |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
repository.mail.fl_str_mv |
|
subject_por_txtF_mv |
Arquitetura de software Web semântica Ontologias (inteligência artificial) Tratamento da informação Recuperação da informação Documentos eletrônicos Engenharia de software Computação |
_version_ |
1706809292021039104 |