Sumarização automática de textos de notícias baseada na classe do documento

Detalhes bibliográficos
Autor(a) principal: SILVA, Ihago Henrique Lucena e
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/39489
Resumo: O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.
id UFPE_24a0aed4cf1aebf2b0e3e38a2f9f5185
oai_identifier_str oai:repositorio.ufpe.br:123456789/39489
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling SILVA, Ihago Henrique Lucena ehttp://lattes.cnpq.br/6419636694684620http://lattes.cnpq.br/7601016626256808Lins, Rafael Dueire2021-03-26T15:45:20Z2021-03-26T15:45:20Z2020-02-14SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/39489O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.FACEPEThe exponential growth of the number documents on the web in recent years has forced researchers to find automatic ways to sieve information from the massive amount of data available. Many solutions in the area of Natural Language Processing have been increasingly employed, especially to deal with this large amount of text documents. Automatic document classification and text summarization are possibly the most important of them. While automatic summarization attempts to produce a summary of the original text, automatic classification aims to categorize a text into predefined classes. This M.Sc. dissertation analyzes if the classification of a news document is a good criterion for choosing the most appropriate summarization techniques, as it is very complex to create a generic method to summarize all kinds of texts. Besides that, a mapping of the combinations of techniques that produced the best summaries for each class of documents was also performed. Finally, the effectiveness of the construction of document classification models from the summaries of the original texts generated by the summarization techniques is analyzed.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalProcessamento de linguagem naturalSumarização automática de textos de notícias baseada na classe do documentoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETEXTDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.txtDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.txtExtracted texttext/plain266556https://repositorio.ufpe.br/bitstream/123456789/39489/4/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.txt79009644d3255cf7bce34ed9740ba56cMD54THUMBNAILDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.jpgDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.jpgGenerated Thumbnailimage/jpeg1351https://repositorio.ufpe.br/bitstream/123456789/39489/5/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.jpg86b952101e6ed293018b34000aa33fedMD55LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/39489/3/license.txtbd573a5ca8288eb7272482765f819534MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/39489/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdfDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdfapplication/pdf1601938https://repositorio.ufpe.br/bitstream/123456789/39489/1/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdfecac0f752fc47743b446ee374f699444MD51123456789/394892021-03-27 02:15:50.688oai:repositorio.ufpe.br:123456789/39489TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-03-27T05:15:50Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Sumarização automática de textos de notícias baseada na classe do documento
title Sumarização automática de textos de notícias baseada na classe do documento
spellingShingle Sumarização automática de textos de notícias baseada na classe do documento
SILVA, Ihago Henrique Lucena e
Inteligência computacional
Processamento de linguagem natural
title_short Sumarização automática de textos de notícias baseada na classe do documento
title_full Sumarização automática de textos de notícias baseada na classe do documento
title_fullStr Sumarização automática de textos de notícias baseada na classe do documento
title_full_unstemmed Sumarização automática de textos de notícias baseada na classe do documento
title_sort Sumarização automática de textos de notícias baseada na classe do documento
author SILVA, Ihago Henrique Lucena e
author_facet SILVA, Ihago Henrique Lucena e
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6419636694684620
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/7601016626256808
dc.contributor.author.fl_str_mv SILVA, Ihago Henrique Lucena e
dc.contributor.advisor1.fl_str_mv Lins, Rafael Dueire
contributor_str_mv Lins, Rafael Dueire
dc.subject.por.fl_str_mv Inteligência computacional
Processamento de linguagem natural
topic Inteligência computacional
Processamento de linguagem natural
description O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.
publishDate 2020
dc.date.issued.fl_str_mv 2020-02-14
dc.date.accessioned.fl_str_mv 2021-03-26T15:45:20Z
dc.date.available.fl_str_mv 2021-03-26T15:45:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/39489
identifier_str_mv SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/39489
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/39489/4/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/39489/5/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/39489/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/39489/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/39489/1/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf
bitstream.checksum.fl_str_mv 79009644d3255cf7bce34ed9740ba56c
86b952101e6ed293018b34000aa33fed
bd573a5ca8288eb7272482765f819534
e39d27027a6cc9cb039ad269a5db8e34
ecac0f752fc47743b446ee374f699444
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310790684868608