PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática

Detalhes bibliográficos
Autor(a) principal: Rocha, Valdir Júnior Cordeiro
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFVJM
Texto Completo: https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442
Resumo: Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte.
id UFVJM-2_f17ceac45046dba16f7da428271ce3a0
oai_identifier_str oai:acervo.ufvjm.edu.br:1/1658
network_acronym_str UFVJM-2
network_name_str Repositório Institucional da UFVJM
repository_id_str 2145
spelling Rocha, Valdir Júnior CordeiroGuelpeli, Marcus Vinícius CarvalhoBerti, Cláudia BeatrizHorta, Euler GuimarãesFonseca, Alexandre RamosUniversidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)Guelpeli, Marcus Vinícius Carvalho2018-05-04T16:22:37Z2018-05-04T16:22:37Z20172017-12-05ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017.https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte.Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017.By expanding access to the internet and creating tools that enable people to create content, available information grows rapidly. Texts on the most diverse subjects and authors are created every day. It is impossible to absorb the amount of information available, which makes it difficult to choose the most appropriate for a particular interest or public. Automatic text summarization, as well as presenting a condensed text, can simplify it, generating an alternative to gain time and increase the access to information contained to the most different types of readers. The automatic summarizers that currently exist in the literature do not present methods of personification of the summaries for each type of reader, and consequently generate results inaccurate. This work aims to use the PragmaSUM automatic text summarizer in educational texts with new summarization techniques using keywords. Using summary keywords impersonation methods is intended to increase accuracy and improve the performance of PragmaSUM and its summaries. For this, a corpus formed only by scientific articles of the educational area was created to carry out tests and comparisons between different summarizers and summarization methods. The performance of the summarizers was measured by the Recall, Precision and F-Measure metrics present in the ROUGE tool and validated with the Friedman ANOVA statistical tests and Kendall's coefficient of agreement. The results obtained indicate an improvement in the performance with the use of keywords in the summarization with PragmaSUM, pointing out importance in the appropriate choice of these keywords for classification of the content of the source text.porUFVJMA concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data.info:eu-repo/semantics/openAccessPragmaSUM: novos métodos na utilização de palavras-chave na sumarização automáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPragmaSUMSumarização automática de textosROUGECorpus LinguisticsLinguística computacionalLinguística de corpusAutomatic summarization of textsComputational linguisticsreponame:Repositório Institucional da UFVJMinstname:Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)instacron:UFVJMTHUMBNAILvaldir_junior_cordeiro_rocha.pdf.jpgvaldir_junior_cordeiro_rocha.pdf.jpgGenerated Thumbnailimage/jpeg2489https://acervo.ufvjm.edu.br//bitstreams/c2212f59-d570-4a3e-a78b-dc509e80460b/download2cbb4810a241bd93c5321dd0b5e526ceMD57falseAnonymousREADORIGINALvaldir_junior_cordeiro_rocha.pdfvaldir_junior_cordeiro_rocha.pdfapplication/pdf3757934https://acervo.ufvjm.edu.br//bitstreams/68f27d61-8bcc-44e9-b1ba-ee756f6b495a/download00a2e6ee18188436daa1415ec6a05021MD51trueAnonymousREADCC-LICENSElicense_urllicense_urltext/plain; charset=utf-849https://acervo.ufvjm.edu.br//bitstreams/05674dfa-3358-4012-b10b-a8e17a11290f/download4afdbb8c545fd630ea7db775da747b2fMD52falseAnonymousREADlicense_textlicense_texttext/html; charset=utf-80https://acervo.ufvjm.edu.br//bitstreams/c55f01cb-82fa-432e-a4c8-01c8c173536f/downloadd41d8cd98f00b204e9800998ecf8427eMD53falseAnonymousREADlicense_rdflicense_rdfapplication/rdf+xml; charset=utf-80https://acervo.ufvjm.edu.br//bitstreams/0c376ff3-aa20-48b0-9946-5e89aefea718/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-82157https://acervo.ufvjm.edu.br//bitstreams/5e217751-2bf9-4456-8d76-bb8274c75dea/downloadc0fe10782d3e2994b7c028f47c86ff9eMD55falseAnonymousREADTEXTvaldir_junior_cordeiro_rocha.pdf.txtvaldir_junior_cordeiro_rocha.pdf.txtExtracted texttext/plain124637https://acervo.ufvjm.edu.br//bitstreams/05bddd0c-88f5-4651-a87a-98fe7302434b/download2403ccb9fbe5e5b006a40408cb3f7b2fMD56falseAnonymousREAD1/16582024-09-12 06:37:22.926open.accessoai:acervo.ufvjm.edu.br:1/1658https://acervo.ufvjm.edu.br/Repositório InstitucionalPUBhttps://repositorio.ufvjm.edu.brrepositorio@ufvjm.edu.bropendoar:21452024-09-12T06:37:22Repositório Institucional da UFVJM - Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKQW8gY29uY29yZGFyIGNvbSBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBhdXRvcihlcykgb3UgdGl0dWxhcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIG9icmEgYXF1aSBkZXNjcml0YSBjb25jZWRlKG0pIArDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgZ2VzdG9yYSBkbyBSZXBvc2l0w7NyaW8sIGRlbm9taW5hZG8gUkkvVUZWSk0sIApvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4bykgZS9vdSBkaXN0cmlidWlyIG8gCmRvY3VtZW50byBkZXBvc2l0YWRvIGVtIGZvcm1hdG8gaW1wcmVzc28sIGVsZXRyw7RuaWNvIG91IGVtIHF1YWxxdWVyIG91dHJvIG1laW8uClZvY8OqKHMpIGNvbmNvcmRhKG0pIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvcyBWYWxlcyBkbyBKZXF1aXRpbmhvbmhhIGUgTXVjdXJpLCAKZ2VzdG9yYSBkbyBSSS9VRlZKTSwgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIGNvbnZlcnRlciBvIGFycXVpdm8gZGVwb3NpdGFkbyBhIHF1YWxxdWVyIG1laW8gb3UgCmZvcm1hdG8gY29tIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KVm9jw6oocykgdGFtYsOpbSBjb25jb3JkYShtKSBxdWUgYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgCmdlc3RvcmEgZG8gUkkvVUZWSk0sIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkZXDDs3NpdG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZS9vdSBwcmVzZXJ2YcOnw6NvLgpWb2PDqihzKSBkZWNsYXJhKG0pIHF1ZSBhIGFwcmVzZW50YcOnw6NvIGRvIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqihzKSBwb2RlKG0pIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIApuZXN0YSBsaWNlbsOnYSBlIG5vIFRlcm1vIGRlIEF1dG9yaXphw6fDo28gYSBzZXIgZW50cmVndWUuClZvY8OqKHMpIHRhbWLDqW0gZGVjbGFyYShtKSBxdWUgbyBlbnZpbyDDqSBkZSBzZXUgY29uaGVjaW1lbnRvIGUgbsOjbyBpbmZyaW5nZSBvcyBkaXJlaXRvcyBhdXRvcmFpcyAKZGUgb3V0cmEgcGVzc29hIG91IGluc3RpdHVpw6fDo28uCkNhc28gbyBkb2N1bWVudG8gYSBzZXIgZGVwb3NpdGFkbyBjb250ZW5oYSBtYXRlcmlhbCBwYXJhIG8gcXVhbCB2b2PDqihzKSBuw6NvIGRldMOpbSBhIHRpdHVsYXJpZGFkZSBkb3MgZGlyZWl0b3MgZGUgYXV0b3JhaXMsCnZvY8OqKHMpIGRlY2xhcmEobSkgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkZSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbApkb3MgVmFsZXMgZG8gSmVxdWl0aW5ob25oYSBlIE11Y3VyaSwgZ2VzdG9yYSBkbyBSSS9VRlZKTSwgb3MgZGlyZWl0b3MgcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSBlIHF1ZSBvcyBtYXRlcmlhaXMgCmRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcywgZXN0w6NvIGRldmlkYW1lbnRlIGlkZW50aWZpY2Fkb3MgZSByZWNvbmhlY2lkb3Mgbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIGFwcmVzZW50YcOnw6NvLgpDQVNPIE8gVFJBQkFMSE8gREVQT1NJVEFETyBURU5IQSBTSURPIEZJTkFOQ0lBRE8gT1UgQVBPSUFETyBQT1IgVU0gw5NSR8ODTywgUVVFIE7Dg08gQSBJTlNUSVRVScOHw4NPIERFU1RFIFJFUE9TSVTDk1JJTzogVk9Dw4ogREVDTEFSQSBURVIgQ1VNUFJJRE8gVE9ET1MgT1MgRElSRUlUT1MgREUgUkVWSVPDg08gRSBRVUFJU1FVRVIgT1VUUkFTIE9CUklHQcOHw5VFUyBSRVFVRVJJREFTIApQRUxPUyBDT05UUkFUT1MgT1UgQUNPUkRPUy4gCk8gUkkvVUZWSk0gaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8gc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgdGl0dWxhcihlcykgZG8gZGlyZWl0byBkZSAKYXV0b3IoZXMpIGRvIGRvY3VtZW50byBzdWJtZXRpZG8gZSBkZWNsYXJhIHF1ZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoK
dc.title.pt_BR.fl_str_mv PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
title PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
spellingShingle PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
Rocha, Valdir Júnior Cordeiro
PragmaSUM
Sumarização automática de textos
ROUGE
Corpus Linguistics
Linguística computacional
Linguística de corpus
Automatic summarization of texts
Computational linguistics
title_short PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
title_full PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
title_fullStr PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
title_full_unstemmed PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
title_sort PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática
author Rocha, Valdir Júnior Cordeiro
author_facet Rocha, Valdir Júnior Cordeiro
author_role author
dc.contributor.referee.none.fl_str_mv Guelpeli, Marcus Vinícius Carvalho
Berti, Cláudia Beatriz
Horta, Euler Guimarães
Fonseca, Alexandre Ramos
dc.contributor.institution.pt_BR.fl_str_mv Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
dc.contributor.author.fl_str_mv Rocha, Valdir Júnior Cordeiro
dc.contributor.advisor1.fl_str_mv Guelpeli, Marcus Vinícius Carvalho
contributor_str_mv Guelpeli, Marcus Vinícius Carvalho
dc.subject.keyword.pt_BR.fl_str_mv PragmaSUM
Sumarização automática de textos
ROUGE
Corpus Linguistics
topic PragmaSUM
Sumarização automática de textos
ROUGE
Corpus Linguistics
Linguística computacional
Linguística de corpus
Automatic summarization of texts
Computational linguistics
dc.subject.keyword.en.fl_str_mv Linguística computacional
Linguística de corpus
Automatic summarization of texts
Computational linguistics
description Com a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte.
publishDate 2017
dc.date.submitted.none.fl_str_mv 2017-12-05
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2018-05-04T16:22:37Z
dc.date.available.fl_str_mv 2018-05-04T16:22:37Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017.
dc.identifier.uri.fl_str_mv https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442
identifier_str_mv ROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017.
url https://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv UFVJM
publisher.none.fl_str_mv UFVJM
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFVJM
instname:Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
instacron:UFVJM
instname_str Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
instacron_str UFVJM
institution UFVJM
reponame_str Repositório Institucional da UFVJM
collection Repositório Institucional da UFVJM
bitstream.url.fl_str_mv https://acervo.ufvjm.edu.br//bitstreams/c2212f59-d570-4a3e-a78b-dc509e80460b/download
https://acervo.ufvjm.edu.br//bitstreams/68f27d61-8bcc-44e9-b1ba-ee756f6b495a/download
https://acervo.ufvjm.edu.br//bitstreams/05674dfa-3358-4012-b10b-a8e17a11290f/download
https://acervo.ufvjm.edu.br//bitstreams/c55f01cb-82fa-432e-a4c8-01c8c173536f/download
https://acervo.ufvjm.edu.br//bitstreams/0c376ff3-aa20-48b0-9946-5e89aefea718/download
https://acervo.ufvjm.edu.br//bitstreams/5e217751-2bf9-4456-8d76-bb8274c75dea/download
https://acervo.ufvjm.edu.br//bitstreams/05bddd0c-88f5-4651-a87a-98fe7302434b/download
bitstream.checksum.fl_str_mv 2cbb4810a241bd93c5321dd0b5e526ce
00a2e6ee18188436daa1415ec6a05021
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
c0fe10782d3e2994b7c028f47c86ff9e
2403ccb9fbe5e5b006a40408cb3f7b2f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFVJM - Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)
repository.mail.fl_str_mv repositorio@ufvjm.edu.br
_version_ 1813710537655058432