PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFVJM |
Texto Completo: | https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442 |
Resumo: | Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte. |
id |
UFVJM-2_f17ceac45046dba16f7da428271ce3a0 |
---|---|
oai_identifier_str |
oai:acervo.ufvjm.edu.br:1/1658 |
network_acronym_str |
UFVJM-2 |
network_name_str |
Repositório Institucional da UFVJM |
repository_id_str |
2145 |
spelling |
Rocha, Valdir Júnior CordeiroGuelpeli, Marcus Vinícius CarvalhoBerti, Cláudia BeatrizHorta, Euler GuimarãesFonseca, Alexandre RamosUniversidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)Guelpeli, Marcus Vinícius Carvalho2018-05-04T16:22:37Z2018-05-04T16:22:37Z20172017-12-05ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017.https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte.Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017.By expanding access to the internet and creating tools that enable people to create content, available information grows rapidly. Texts on the most diverse subjects and authors are created every day. It is impossible to absorb the amount of information available, which makes it difficult to choose the most appropriate for a particular interest or public. Automatic text summarization, as well as presenting a condensed text, can simplify it, generating an alternative to gain time and increase the access to information contained to the most different types of readers. The automatic summarizers that currently exist in the literature do not present methods of personification of the summaries for each type of reader, and consequently generate results inaccurate. This work aims to use the PragmaSUM automatic text summarizer in educational texts with new summarization techniques using keywords. Using summary keywords impersonation methods is intended to increase accuracy and improve the performance of PragmaSUM and its summaries. For this, a corpus formed only by scientific articles of the educational area was created to carry out tests and comparisons between different summarizers and summarization methods. The performance of the summarizers was measured by the Recall, Precision and F-Measure metrics present in the ROUGE tool and validated with the Friedman ANOVA statistical tests and Kendall's coefficient of agreement. The results obtained indicate an improvement in the performance with the use of keywords in the summarization with PragmaSUM, pointing out importance in the appropriate choice of these keywords for classification of the content of the source text.porUFVJMA concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data.info:eu-repo/semantics/openAccessPragmaSUM: novos métodos na utilização de palavras-chave na sumarização automáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPragmaSUMSumarização automática de textosROUGECorpus LinguisticsLinguística computacionalLinguística de corpusAutomatic summarization of textsComputational linguisticsreponame:Repositório Institucional da UFVJMinstname:Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)instacron:UFVJMTHUMBNAILvaldir_junior_cordeiro_rocha.pdf.jpgvaldir_junior_cordeiro_rocha.pdf.jpgGenerated Thumbnailimage/jpeg2489https://acervo.ufvjm.edu.br//bitstreams/c2212f59-d570-4a3e-a78b-dc509e80460b/download2cbb4810a241bd93c5321dd0b5e526ceMD57falseAnonymousREADORIGINALvaldir_junior_cordeiro_rocha.pdfvaldir_junior_cordeiro_rocha.pdfapplication/pdf3757934https://acervo.ufvjm.edu.br//bitstreams/68f27d61-8bcc-44e9-b1ba-ee756f6b495a/download00a2e6ee18188436daa1415ec6a05021MD51trueAnonymousREADCC-LICENSElicense_urllicense_urltext/plain; charset=utf-849https://acervo.ufvjm.edu.br//bitstreams/05674dfa-3358-4012-b10b-a8e17a11290f/download4afdbb8c545fd630ea7db775da747b2fMD52falseAnonymousREADlicense_textlicense_texttext/html; charset=utf-80https://acervo.ufvjm.edu.br//bitstreams/c55f01cb-82fa-432e-a4c8-01c8c173536f/downloadd41d8cd98f00b204e9800998ecf8427eMD53falseAnonymousREADlicense_rdflicense_rdfapplication/rdf+xml; charset=utf-80https://acervo.ufvjm.edu.br//bitstreams/0c376ff3-aa20-48b0-9946-5e89aefea718/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-82157https://acervo.ufvjm.edu.br//bitstreams/5e217751-2bf9-4456-8d76-bb8274c75dea/downloadc0fe10782d3e2994b7c028f47c86ff9eMD55falseAnonymousREADTEXTvaldir_junior_cordeiro_rocha.pdf.txtvaldir_junior_cordeiro_rocha.pdf.txtExtracted texttext/plain124637https://acervo.ufvjm.edu.br//bitstreams/05bddd0c-88f5-4651-a87a-98fe7302434b/download2403ccb9fbe5e5b006a40408cb3f7b2fMD56falseAnonymousREAD1/16582024-09-12 06:37:22.926open.accessoai:acervo.ufvjm.edu.br:1/1658https://acervo.ufvjm.edu.br/Repositório InstitucionalPUBhttps://repositorio.ufvjm.edu.brrepositorio@ufvjm.edu.bropendoar:21452024-09-12T06:37:22Repositório Institucional da UFVJM - Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKQW8gY29uY29yZGFyIGNvbSBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBhdXRvcihlcykgb3UgdGl0dWxhcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIG9icmEgYXF1aSBkZXNjcml0YSBjb25jZWRlKG0pIArDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgZ2VzdG9yYSBkbyBSZXBvc2l0w7NyaW8sIGRlbm9taW5hZG8gUkkvVUZWSk0sIApvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4bykgZS9vdSBkaXN0cmlidWlyIG8gCmRvY3VtZW50byBkZXBvc2l0YWRvIGVtIGZvcm1hdG8gaW1wcmVzc28sIGVsZXRyw7RuaWNvIG91IGVtIHF1YWxxdWVyIG91dHJvIG1laW8uClZvY8OqKHMpIGNvbmNvcmRhKG0pIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvcyBWYWxlcyBkbyBKZXF1aXRpbmhvbmhhIGUgTXVjdXJpLCAKZ2VzdG9yYSBkbyBSSS9VRlZKTSwgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIGNvbnZlcnRlciBvIGFycXVpdm8gZGVwb3NpdGFkbyBhIHF1YWxxdWVyIG1laW8gb3UgCmZvcm1hdG8gY29tIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KVm9jw6oocykgdGFtYsOpbSBjb25jb3JkYShtKSBxdWUgYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgCmdlc3RvcmEgZG8gUkkvVUZWSk0sIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkZXDDs3NpdG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZS9vdSBwcmVzZXJ2YcOnw6NvLgpWb2PDqihzKSBkZWNsYXJhKG0pIHF1ZSBhIGFwcmVzZW50YcOnw6NvIGRvIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqihzKSBwb2RlKG0pIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIApuZXN0YSBsaWNlbsOnYSBlIG5vIFRlcm1vIGRlIEF1dG9yaXphw6fDo28gYSBzZXIgZW50cmVndWUuClZvY8OqKHMpIHRhbWLDqW0gZGVjbGFyYShtKSBxdWUgbyBlbnZpbyDDqSBkZSBzZXUgY29uaGVjaW1lbnRvIGUgbsOjbyBpbmZyaW5nZSBvcyBkaXJlaXRvcyBhdXRvcmFpcyAKZGUgb3V0cmEgcGVzc29hIG91IGluc3RpdHVpw6fDo28uCkNhc28gbyBkb2N1bWVudG8gYSBzZXIgZGVwb3NpdGFkbyBjb250ZW5oYSBtYXRlcmlhbCBwYXJhIG8gcXVhbCB2b2PDqihzKSBuw6NvIGRldMOpbSBhIHRpdHVsYXJpZGFkZSBkb3MgZGlyZWl0b3MgZGUgYXV0b3JhaXMsCnZvY8OqKHMpIGRlY2xhcmEobSkgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkZSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbApkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgZ2VzdG9yYSBkbyBSSS9VRlZKTSwgb3MgZGlyZWl0b3MgcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSBlIHF1ZSBvcyBtYXRlcmlhaXMgCmRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcywgZXN0w6NvIGRldmlkYW1lbnRlIGlkZW50aWZpY2Fkb3MgZSByZWNvbmhlY2lkb3Mgbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIGFwcmVzZW50YcOnw6NvLgpDQVNPIE8gVFJBQkFMSE8gREVQT1NJVEFETyBURU5IQSBTSURPIEZJTkFOQ0lBRE8gT1UgQVBPSUFETyBQT1IgVU0gw5NSR8ODTywgUVVFIE7Dg08gQSBJTlNUSVRVScOHw4NPIERFU1RFIFJFUE9TSVTDk1JJTzogVk9Dw4ogREVDTEFSQSBURVIgQ1VNUFJJRE8gVE9ET1MgT1MgRElSRUlUT1MgREUgUkVWSVPDg08gRSBRVUFJU1FVRVIgT1VUUkFTIE9CUklHQcOHw5VFUyBSRVFVRVJJREFTIApQRUxPUyBDT05UUkFUT1MgT1UgQUNPUkRPUy4gCk8gUkkvVUZWSk0gaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8gc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgdGl0dWxhcihlcykgZG8gZGlyZWl0byBkZSAKYXV0b3IoZXMpIGRvIGRvY3VtZW50byBzdWJtZXRpZG8gZSBkZWNsYXJhIHF1ZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoK |
dc.title.pt_BR.fl_str_mv |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
title |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
spellingShingle |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática Rocha, Valdir Júnior Cordeiro PragmaSUM Sumarização automática de textos ROUGE Corpus Linguistics Linguística computacional Linguística de corpus Automatic summarization of texts Computational linguistics |
title_short |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
title_full |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
title_fullStr |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
title_full_unstemmed |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
title_sort |
PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática |
author |
Rocha, Valdir Júnior Cordeiro |
author_facet |
Rocha, Valdir Júnior Cordeiro |
author_role |
author |
dc.contributor.referee.none.fl_str_mv |
Guelpeli, Marcus Vinícius Carvalho Berti, Cláudia Beatriz Horta, Euler Guimarães Fonseca, Alexandre Ramos |
dc.contributor.institution.pt_BR.fl_str_mv |
Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) |
dc.contributor.author.fl_str_mv |
Rocha, Valdir Júnior Cordeiro |
dc.contributor.advisor1.fl_str_mv |
Guelpeli, Marcus Vinícius Carvalho |
contributor_str_mv |
Guelpeli, Marcus Vinícius Carvalho |
dc.subject.keyword.pt_BR.fl_str_mv |
PragmaSUM Sumarização automática de textos ROUGE Corpus Linguistics |
topic |
PragmaSUM Sumarização automática de textos ROUGE Corpus Linguistics Linguística computacional Linguística de corpus Automatic summarization of texts Computational linguistics |
dc.subject.keyword.en.fl_str_mv |
Linguística computacional Linguística de corpus Automatic summarization of texts Computational linguistics |
description |
Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte. |
publishDate |
2017 |
dc.date.submitted.none.fl_str_mv |
2017-12-05 |
dc.date.issued.fl_str_mv |
2017 |
dc.date.accessioned.fl_str_mv |
2018-05-04T16:22:37Z |
dc.date.available.fl_str_mv |
2018-05-04T16:22:37Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017. |
dc.identifier.uri.fl_str_mv |
https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442 |
identifier_str_mv |
ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017. |
url |
https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
UFVJM |
publisher.none.fl_str_mv |
UFVJM |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFVJM instname:Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) instacron:UFVJM |
instname_str |
Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) |
instacron_str |
UFVJM |
institution |
UFVJM |
reponame_str |
Repositório Institucional da UFVJM |
collection |
Repositório Institucional da UFVJM |
bitstream.url.fl_str_mv |
https://acervo.ufvjm.edu.br//bitstreams/c2212f59-d570-4a3e-a78b-dc509e80460b/download https://acervo.ufvjm.edu.br//bitstreams/68f27d61-8bcc-44e9-b1ba-ee756f6b495a/download https://acervo.ufvjm.edu.br//bitstreams/05674dfa-3358-4012-b10b-a8e17a11290f/download https://acervo.ufvjm.edu.br//bitstreams/c55f01cb-82fa-432e-a4c8-01c8c173536f/download https://acervo.ufvjm.edu.br//bitstreams/0c376ff3-aa20-48b0-9946-5e89aefea718/download https://acervo.ufvjm.edu.br//bitstreams/5e217751-2bf9-4456-8d76-bb8274c75dea/download https://acervo.ufvjm.edu.br//bitstreams/05bddd0c-88f5-4651-a87a-98fe7302434b/download |
bitstream.checksum.fl_str_mv |
2cbb4810a241bd93c5321dd0b5e526ce 00a2e6ee18188436daa1415ec6a05021 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e c0fe10782d3e2994b7c028f47c86ff9e 2403ccb9fbe5e5b006a40408cb3f7b2f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFVJM - Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) |
repository.mail.fl_str_mv |
repositorio@ufvjm.edu.br |
_version_ |
1813710537655058432 |