Uma abordagem para sumarização automática semi-extrativa

ANTUNES, Jamilson Batista

Uma abordagem para sumarização automática semi-extrativa

Detalhes bibliográficos
Autor(a) principal:	ANTUNES, Jamilson Batista
Data de Publicação:	2018
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFPE
Texto Completo:	https://repositorio.ufpe.br/handle/123456789/33305
Resumo:	A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte.

Metadados do item

id	UFPE_2167b1dad1f144e38bf51d9945b7a038
oai_identifier_str	oai:repositorio.ufpe.br:123456789/33305
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str	2221
spelling	ANTUNES, Jamilson Batistahttp://lattes.cnpq.br/1555648395283466http://lattes.cnpq.br/7601016626256808LINS, Rafael Dueire2019-09-19T19:38:42Z2019-09-19T19:38:42Z2018-11-12https://repositorio.ufpe.br/handle/123456789/33305A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte.Automatic Text Summarization (ATS) consists of creating compressed versions of one or more text documents, while retaining the essential document information. This research area is becoming increasingly more important, since it can potentially help processing large volumes of data, allowing the most relevant information to be highlighted to the user. In addition to this, ATS will be able to significantly reduce the amount of time people spend on reading. The use of Natural Language Processing (NLP) has proven to be advantageous to the summarization process, especially when processing texts with no defined structure and/or pattern. Among the variations of the summarization process, the extractive techniques are the best studied so far. The main focus of the most recent research on extractive summarization is the optimization of algorithms aimed at obtaining the relevant content expressed in the original texts. However, the gains associated with increasing the complexity of those algorithms have not yet been assessed, since the summaries are still difficult to read. Despite the advances made in recent years, there is still a big difference between automatically generated summaries and those written by humans. Most of the current summarization strategies are mainly concerned with maximizing the informativeness of summary, disregarding the text quality. Recent investigations in the literature and experiments conducted in this work demonstrate that those features yield a significant limitation, since the abstracts generated being must be read by humans. In such a context, this thesis proposes an approach for semi-extractive automatic summarization in which, it includes the resolution of pronominal anaphoras, the reinsertion of pronouns to increase the readeability of the text, and the reduction of the size of sentences, allowing to increase the informativeness of the generated summary with the same number of words. Besides all that, we evaluated several measures present in the literature to estimate the quality of abstracts without using a reference summary. This thesis addresses the problem of automatic summarization in a different perspective, studying the impact of extractive summarization on the abstract, in order to produce the best possible summary in terms of informativeness, readability, fluency and cohesion. Several experiments were conducted in the main corpora of the area, aiming to evaluate different aspects of the proposed approaches in the tasks of single-document summarization. The results obtained show that the proposed solutions are able to increase the textual quality and the informativeness of the abstracts generated, based on human and automatic evaluations for the different state of the art systems.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialSumarizaçãoUma abordagem para sumarização automática semi-extrativainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Jamilson Batista Antunes.pdf.jpgTESE Jamilson Batista Antunes.pdf.jpgGenerated Thumbnailimage/jpeg1222https://repositorio.ufpe.br/bitstream/123456789/33305/5/TESE%20Jamilson%20Batista%20Antunes.pdf.jpgcf554091d86a960ddbbec412d0a82903MD55ORIGINALTESE Jamilson Batista Antunes.pdfTESE Jamilson Batista Antunes.pdfapplication/pdf2140516https://repositorio.ufpe.br/bitstream/123456789/33305/1/TESE%20Jamilson%20Batista%20Antunes.pdfd38c0b9e7869f94795c89770a6ee1946MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/33305/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/33305/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTTESE Jamilson Batista Antunes.pdf.txtTESE Jamilson Batista Antunes.pdf.txtExtracted texttext/plain398773https://repositorio.ufpe.br/bitstream/123456789/33305/4/TESE%20Jamilson%20Batista%20Antunes.pdf.txtd18042db07242dde0b44ac5287fe6f8bMD54123456789/333052019-10-26 02:11:08.762oai:repositorio.ufpe.br:123456789/33305TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T05:11:08Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv	Uma abordagem para sumarização automática semi-extrativa
title	Uma abordagem para sumarização automática semi-extrativa
spellingShingle	Uma abordagem para sumarização automática semi-extrativa ANTUNES, Jamilson Batista Inteligência artificial Sumarização
title_short	Uma abordagem para sumarização automática semi-extrativa
title_full	Uma abordagem para sumarização automática semi-extrativa
title_fullStr	Uma abordagem para sumarização automática semi-extrativa
title_full_unstemmed	Uma abordagem para sumarização automática semi-extrativa
title_sort	Uma abordagem para sumarização automática semi-extrativa
author	ANTUNES, Jamilson Batista
author_facet	ANTUNES, Jamilson Batista
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/1555648395283466
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/7601016626256808
dc.contributor.author.fl_str_mv	ANTUNES, Jamilson Batista
dc.contributor.advisor1.fl_str_mv	LINS, Rafael Dueire
contributor_str_mv	LINS, Rafael Dueire
dc.subject.por.fl_str_mv	Inteligência artificial Sumarização
topic	Inteligência artificial Sumarização
description	A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte.
publishDate	2018
dc.date.issued.fl_str_mv	2018-11-12
dc.date.accessioned.fl_str_mv	2019-09-19T19:38:42Z
dc.date.available.fl_str_mv	2019-09-19T19:38:42Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufpe.br/handle/123456789/33305
url	https://repositorio.ufpe.br/handle/123456789/33305
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv	Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv	UFPE
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
bitstream.url.fl_str_mv	https://repositorio.ufpe.br/bitstream/123456789/33305/5/TESE%20Jamilson%20Batista%20Antunes.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/33305/1/TESE%20Jamilson%20Batista%20Antunes.pdf https://repositorio.ufpe.br/bitstream/123456789/33305/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/33305/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/33305/4/TESE%20Jamilson%20Batista%20Antunes.pdf.txt
bitstream.checksum.fl_str_mv	cf554091d86a960ddbbec412d0a82903 d38c0b9e7869f94795c89770a6ee1946 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 d18042db07242dde0b44ac5287fe6f8b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1797780646857277440

Uma abordagem para sumarização automática semi-extrativa

Registros relacionados