Minería de términos frasales aplicada en tareas de recuperación de información

Detalhes bibliográficos
Autor(a) principal: Sánchez Vera, Zulema
Data de Publicação: 2019
Outros Autores: http://lattes.cnpq.br/6850189466034541
Tipo de documento: Dissertação
Idioma: spa
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFAM
Texto Completo: https://tede.ufam.edu.br/handle/tede/7189
Resumo: El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamiento de la información que realizan tareas como busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia de la representación del texto en los resultados de la recuperación de información, este trabajo investiga el impacto de la adición de términos frasales como unidades, debido a su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad inherente de la representación del texto basada solo en palabras individuales sea reducida, traduciéndose en mayor calidad en los resultados obtenidos. Para la minería de términos frasales se utilizó el método Autophrase que integra los enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos, es independiente del idioma, dominio e incorpora información sintáctica en forma de etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica de MAP. Observándose que la adición de información semántica en forma de términos frasales en las consultas, favorece la identificación de los documentos relevantes. En las tareas de clasificación y clusterización se comparó la mejora de rendimiento en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2 y Mutual information son adicionados para ampliar la representación de los documentos, basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology classification y AG’news corpus respectivamente. Para esta comparación fueron empleados los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en la clusterización. Los resultados no mostraron ganancias significativas con la incorporación de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si contienen suficiente información en forma de unigramas que aportan mayor peso que los términos frasales que aumentan la dispersión de los datos.
id UFAM_0e7bf66ddc5b201134c02d781b886ba6
oai_identifier_str oai:https://tede.ufam.edu.br/handle/:tede/7189
network_acronym_str UFAM
network_name_str Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str 6592
spelling Minería de términos frasales aplicada en tareas de recuperación de informaciónMining of phrasal terms applied in tasks of information recoveryRecuperação da informaçãoSistemas de recuperação da informaçãoTermos-chaveCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOEl crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamiento de la información que realizan tareas como busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia de la representación del texto en los resultados de la recuperación de información, este trabajo investiga el impacto de la adición de términos frasales como unidades, debido a su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad inherente de la representación del texto basada solo en palabras individuales sea reducida, traduciéndose en mayor calidad en los resultados obtenidos. Para la minería de términos frasales se utilizó el método Autophrase que integra los enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos, es independiente del idioma, dominio e incorpora información sintáctica en forma de etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica de MAP. Observándose que la adición de información semántica en forma de términos frasales en las consultas, favorece la identificación de los documentos relevantes. En las tareas de clasificación y clusterización se comparó la mejora de rendimiento en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2 y Mutual information son adicionados para ampliar la representación de los documentos, basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology classification y AG’news corpus respectivamente. Para esta comparación fueron empleados los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en la clusterización. Los resultados no mostraron ganancias significativas con la incorporación de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si contienen suficiente información en forma de unigramas que aportan mayor peso que los términos frasales que aumentan la dispersión de los datos.The spectacular and constant growth of the web with the consequent increase in the number of digital documents available and the increasingly frequent use of systems that deal with textual information, have motivated constant efforts in the development of effective systems for the treatment of information. who perform tasks such as search, classification and clustering in textual databases. Well-known relevance of the representation of the text in the results of the retrieval of information, this research investigates the impact of the addition of frasal terms as units, due to its superior interpretability, with the aim of enriching the traditional representation of the BoW model. The idea is that with the use of phrasal terms the inherent noise and ambiguity of the representation of the text based only on individual words is reduced, resulting in higher quality in the results obtained. For the mining of phrasal terms the method was used Autophrase that integrates the segmentation and quality evaluation approaches for the extraction of word sequences, which constitute complete semantic units, does not require human experts, is independent of the language, domain and incorporates syntactic information in the form of POS labels provided it is available. In the ad hoc search the vector model was used in the data sets: OHSUMED, Cystic Fibrosis and Glasgow Herald 1995, the experiments performed show gains in the order of 34.97 % using the MAP metric. Observing that the addition of semantic information in the form of phrasal terms in the queries, favors the identification of the relevant documents. In the tasks of classification and clustering, performance improvement in terms of precision was compared, when the best phrasal terms evaluated by the techniques Chi2 and mutual information were added to extend the representation of the documents, based in individual words in the collections 20 newsgroups, DBpedia ontological classification and AG’news corpus respectively. For this comparison, the classifiers Naive Bayes, Support vector machines were used in classification and K-means in the clustering. The results did not show significant advances with the incorporation of the phrasal terms. The conclusion, in this case, is that the documents already contain enough information in the form of unigrams that contribute more weight than the phrasal terms that increase the dispersion of the data.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaMoura, Edleno Silva dehttp://lattes.cnpq.br/4737852130924504Silva, Altigran Soares dahttp://lattes.cnpq.br/3405503472010994Carvalho, André Luiz da Costahttp://lattes.cnpq.br/4863447798119856Sánchez Vera, Zulemahttp://lattes.cnpq.br/68501894660345412019-06-04T21:48:48Z2019-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSÁNCHEZ VERA, Zulema. Minería de términos frasales aplicada en tareas de recuperación de información. 2019. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.https://tede.ufam.edu.br/handle/tede/7189spahttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2019-06-05T05:03:49Zoai:https://tede.ufam.edu.br/handle/:tede/7189Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922019-06-05T05:03:49Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Minería de términos frasales aplicada en tareas de recuperación de información
Mining of phrasal terms applied in tasks of information recovery
title Minería de términos frasales aplicada en tareas de recuperación de información
spellingShingle Minería de términos frasales aplicada en tareas de recuperación de información
Sánchez Vera, Zulema
Recuperação da informação
Sistemas de recuperação da informação
Termos-chave
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short Minería de términos frasales aplicada en tareas de recuperación de información
title_full Minería de términos frasales aplicada en tareas de recuperación de información
title_fullStr Minería de términos frasales aplicada en tareas de recuperación de información
title_full_unstemmed Minería de términos frasales aplicada en tareas de recuperación de información
title_sort Minería de términos frasales aplicada en tareas de recuperación de información
author Sánchez Vera, Zulema
author_facet Sánchez Vera, Zulema
http://lattes.cnpq.br/6850189466034541
author_role author
author2 http://lattes.cnpq.br/6850189466034541
author2_role author
dc.contributor.none.fl_str_mv Moura, Edleno Silva de
http://lattes.cnpq.br/4737852130924504
Silva, Altigran Soares da
http://lattes.cnpq.br/3405503472010994
Carvalho, André Luiz da Costa
http://lattes.cnpq.br/4863447798119856
dc.contributor.author.fl_str_mv Sánchez Vera, Zulema
http://lattes.cnpq.br/6850189466034541
dc.subject.por.fl_str_mv Recuperação da informação
Sistemas de recuperação da informação
Termos-chave
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic Recuperação da informação
Sistemas de recuperação da informação
Termos-chave
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamiento de la información que realizan tareas como busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia de la representación del texto en los resultados de la recuperación de información, este trabajo investiga el impacto de la adición de términos frasales como unidades, debido a su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad inherente de la representación del texto basada solo en palabras individuales sea reducida, traduciéndose en mayor calidad en los resultados obtenidos. Para la minería de términos frasales se utilizó el método Autophrase que integra los enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos, es independiente del idioma, dominio e incorpora información sintáctica en forma de etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica de MAP. Observándose que la adición de información semántica en forma de términos frasales en las consultas, favorece la identificación de los documentos relevantes. En las tareas de clasificación y clusterización se comparó la mejora de rendimiento en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2 y Mutual information son adicionados para ampliar la representación de los documentos, basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology classification y AG’news corpus respectivamente. Para esta comparación fueron empleados los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en la clusterización. Los resultados no mostraron ganancias significativas con la incorporación de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si contienen suficiente información en forma de unigramas que aportan mayor peso que los términos frasales que aumentan la dispersión de los datos.
publishDate 2019
dc.date.none.fl_str_mv 2019-06-04T21:48:48Z
2019-04-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SÁNCHEZ VERA, Zulema. Minería de términos frasales aplicada en tareas de recuperación de información. 2019. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.
https://tede.ufam.edu.br/handle/tede/7189
identifier_str_mv SÁNCHEZ VERA, Zulema. Minería de términos frasales aplicada en tareas de recuperación de información. 2019. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.
url https://tede.ufam.edu.br/handle/tede/7189
dc.language.iso.fl_str_mv spa
language spa
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Biblioteca Digital de Teses e Dissertações da UFAM
collection Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv ddbc@ufam.edu.br||ddbc@ufam.edu.br
_version_ 1809732034448326656