Sumarização automática de textos de notícias baseada na classe do documento

SILVA, Ihago Henrique Lucena e

Sumarização automática de textos de notícias baseada na classe do documento

Detalhes bibliográficos
Autor(a) principal:	SILVA, Ihago Henrique Lucena e
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPE
Texto Completo:	https://repositorio.ufpe.br/handle/123456789/39489
Resumo:	O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.

Metadados do item

id	UFPE_24a0aed4cf1aebf2b0e3e38a2f9f5185
oai_identifier_str	oai:repositorio.ufpe.br:123456789/39489
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str	2221
spelling	SILVA, Ihago Henrique Lucena ehttp://lattes.cnpq.br/6419636694684620http://lattes.cnpq.br/7601016626256808Lins, Rafael Dueire2021-03-26T15:45:20Z2021-03-26T15:45:20Z2020-02-14SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/39489O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.FACEPEThe exponential growth of the number documents on the web in recent years has forced researchers to find automatic ways to sieve information from the massive amount of data available. Many solutions in the area of Natural Language Processing have been increasingly employed, especially to deal with this large amount of text documents. Automatic document classification and text summarization are possibly the most important of them. While automatic summarization attempts to produce a summary of the original text, automatic classification aims to categorize a text into predefined classes. This M.Sc. dissertation analyzes if the classification of a news document is a good criterion for choosing the most appropriate summarization techniques, as it is very complex to create a generic method to summarize all kinds of texts. Besides that, a mapping of the combinations of techniques that produced the best summaries for each class of documents was also performed. Finally, the effectiveness of the construction of document classification models from the summaries of the original texts generated by the summarization techniques is analyzed.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalProcessamento de linguagem naturalSumarização automática de textos de notícias baseada na classe do documentoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETEXTDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.txtDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.txtExtracted texttext/plain266556https://repositorio.ufpe.br/bitstream/123456789/39489/4/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.txt79009644d3255cf7bce34ed9740ba56cMD54THUMBNAILDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.jpgDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdf.jpgGenerated Thumbnailimage/jpeg1351https://repositorio.ufpe.br/bitstream/123456789/39489/5/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.jpg86b952101e6ed293018b34000aa33fedMD55LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/39489/3/license.txtbd573a5ca8288eb7272482765f819534MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/39489/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdfDISSERTAÇÃO Ihago Henrique Lucena e Silva.pdfapplication/pdf1601938https://repositorio.ufpe.br/bitstream/123456789/39489/1/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdfecac0f752fc47743b446ee374f699444MD51123456789/394892021-03-27 02:15:50.688oai:repositorio.ufpe.br:123456789/39489TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-03-27T05:15:50Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv	Sumarização automática de textos de notícias baseada na classe do documento
title	Sumarização automática de textos de notícias baseada na classe do documento
spellingShingle	Sumarização automática de textos de notícias baseada na classe do documento SILVA, Ihago Henrique Lucena e Inteligência computacional Processamento de linguagem natural
title_short	Sumarização automática de textos de notícias baseada na classe do documento
title_full	Sumarização automática de textos de notícias baseada na classe do documento
title_fullStr	Sumarização automática de textos de notícias baseada na classe do documento
title_full_unstemmed	Sumarização automática de textos de notícias baseada na classe do documento
title_sort	Sumarização automática de textos de notícias baseada na classe do documento
author	SILVA, Ihago Henrique Lucena e
author_facet	SILVA, Ihago Henrique Lucena e
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/6419636694684620
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/7601016626256808
dc.contributor.author.fl_str_mv	SILVA, Ihago Henrique Lucena e
dc.contributor.advisor1.fl_str_mv	Lins, Rafael Dueire
contributor_str_mv	Lins, Rafael Dueire
dc.subject.por.fl_str_mv	Inteligência computacional Processamento de linguagem natural
topic	Inteligência computacional Processamento de linguagem natural
description	O crescimento exponencial de documentos textuais na web nos últimos anos tem forçado os pesquisadores a descobrir formas de economizar tempo e recursos para encontrar informações relevantes. Muitas soluções na área de Processamento de Linguagem Natural vêm sendo cada vez mais empregadas, principalmente para lidar com esse grande volume de informações não estruturadas. Algumas dessas soluções são a classificação automática de documentos e a sumarização automática de textos. Enquanto a sumarização automática tenta produzir um resumo do texto original, ou seja, um recorte com as informações mais úteis do texto em um determinado cenário, a classificação automática visa categorizar um texto, atribuindo-lhe rótulos (identificadores de classes pré-definidos). Logo, se empregadas conjuntamente, essas soluções distintas podem trazer ganhos significativos do contexto de uma para o contexto da outra. Esta dissertação estuda o quanto a categoria de classificação de um documento oferece um bom critério para escolha das técnicas de sumarização mais adequadas, visto que é muito complexo criar um método genérico o suficiente para resumir diferentes tipos de textos. Também foi realizado um mapeamento das combinações de técnicas que produzissem os melhores resumos para cada uma das classes de documentos empregadas. Por fim, é analisada a eficácia da construção de modelos de classificação de documentos a partir dos próprios resumos dos textos originais gerados pelas técnicas de sumarização.
publishDate	2020
dc.date.issued.fl_str_mv	2020-02-14
dc.date.accessioned.fl_str_mv	2021-03-26T15:45:20Z
dc.date.available.fl_str_mv	2021-03-26T15:45:20Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
dc.identifier.uri.fl_str_mv	https://repositorio.ufpe.br/handle/123456789/39489
identifier_str_mv	SILVA, Ihago Henrique Lucena e. Sumarização automática de textos de notícias baseada na classe do documento. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
url	https://repositorio.ufpe.br/handle/123456789/39489
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv	Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv	UFPE
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
bitstream.url.fl_str_mv	https://repositorio.ufpe.br/bitstream/123456789/39489/4/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/39489/5/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/39489/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/39489/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/39489/1/DISSERTA%c3%87%c3%83O%20Ihago%20Henrique%20Lucena%20e%20Silva.pdf
bitstream.checksum.fl_str_mv	79009644d3255cf7bce34ed9740ba56c 86b952101e6ed293018b34000aa33fed bd573a5ca8288eb7272482765f819534 e39d27027a6cc9cb039ad269a5db8e34 ecac0f752fc47743b446ee374f699444
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1802310790684868608

Sumarização automática de textos de notícias baseada na classe do documento

Registros relacionados