Uma abordagem para sumarização automática semi-extrativa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/33305 |
Resumo: | A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte. |
id |
UFPE_2167b1dad1f144e38bf51d9945b7a038 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/33305 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
ANTUNES, Jamilson Batistahttp://lattes.cnpq.br/1555648395283466http://lattes.cnpq.br/7601016626256808LINS, Rafael Dueire2019-09-19T19:38:42Z2019-09-19T19:38:42Z2018-11-12https://repositorio.ufpe.br/handle/123456789/33305A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte.Automatic Text Summarization (ATS) consists of creating compressed versions of one or more text documents, while retaining the essential document information. This research area is becoming increasingly more important, since it can potentially help processing large volumes of data, allowing the most relevant information to be highlighted to the user. In addition to this, ATS will be able to significantly reduce the amount of time people spend on reading. The use of Natural Language Processing (NLP) has proven to be advantageous to the summarization process, especially when processing texts with no defined structure and/or pattern. Among the variations of the summarization process, the extractive techniques are the best studied so far. The main focus of the most recent research on extractive summarization is the optimization of algorithms aimed at obtaining the relevant content expressed in the original texts. However, the gains associated with increasing the complexity of those algorithms have not yet been assessed, since the summaries are still difficult to read. Despite the advances made in recent years, there is still a big difference between automatically generated summaries and those written by humans. Most of the current summarization strategies are mainly concerned with maximizing the informativeness of summary, disregarding the text quality. Recent investigations in the literature and experiments conducted in this work demonstrate that those features yield a significant limitation, since the abstracts generated being must be read by humans. In such a context, this thesis proposes an approach for semi-extractive automatic summarization in which, it includes the resolution of pronominal anaphoras, the reinsertion of pronouns to increase the readeability of the text, and the reduction of the size of sentences, allowing to increase the informativeness of the generated summary with the same number of words. Besides all that, we evaluated several measures present in the literature to estimate the quality of abstracts without using a reference summary. This thesis addresses the problem of automatic summarization in a different perspective, studying the impact of extractive summarization on the abstract, in order to produce the best possible summary in terms of informativeness, readability, fluency and cohesion. Several experiments were conducted in the main corpora of the area, aiming to evaluate different aspects of the proposed approaches in the tasks of single-document summarization. The results obtained show that the proposed solutions are able to increase the textual quality and the informativeness of the abstracts generated, based on human and automatic evaluations for the different state of the art systems.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialSumarizaçãoUma abordagem para sumarização automática semi-extrativainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Jamilson Batista Antunes.pdf.jpgTESE Jamilson Batista Antunes.pdf.jpgGenerated Thumbnailimage/jpeg1222https://repositorio.ufpe.br/bitstream/123456789/33305/5/TESE%20Jamilson%20Batista%20Antunes.pdf.jpgcf554091d86a960ddbbec412d0a82903MD55ORIGINALTESE Jamilson Batista Antunes.pdfTESE Jamilson Batista Antunes.pdfapplication/pdf2140516https://repositorio.ufpe.br/bitstream/123456789/33305/1/TESE%20Jamilson%20Batista%20Antunes.pdfd38c0b9e7869f94795c89770a6ee1946MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/33305/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/33305/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTTESE Jamilson Batista Antunes.pdf.txtTESE Jamilson Batista Antunes.pdf.txtExtracted texttext/plain398773https://repositorio.ufpe.br/bitstream/123456789/33305/4/TESE%20Jamilson%20Batista%20Antunes.pdf.txtd18042db07242dde0b44ac5287fe6f8bMD54123456789/333052019-10-26 02:11:08.762oai:repositorio.ufpe.br:123456789/33305TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T05:11:08Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Uma abordagem para sumarização automática semi-extrativa |
title |
Uma abordagem para sumarização automática semi-extrativa |
spellingShingle |
Uma abordagem para sumarização automática semi-extrativa ANTUNES, Jamilson Batista Inteligência artificial Sumarização |
title_short |
Uma abordagem para sumarização automática semi-extrativa |
title_full |
Uma abordagem para sumarização automática semi-extrativa |
title_fullStr |
Uma abordagem para sumarização automática semi-extrativa |
title_full_unstemmed |
Uma abordagem para sumarização automática semi-extrativa |
title_sort |
Uma abordagem para sumarização automática semi-extrativa |
author |
ANTUNES, Jamilson Batista |
author_facet |
ANTUNES, Jamilson Batista |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1555648395283466 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/7601016626256808 |
dc.contributor.author.fl_str_mv |
ANTUNES, Jamilson Batista |
dc.contributor.advisor1.fl_str_mv |
LINS, Rafael Dueire |
contributor_str_mv |
LINS, Rafael Dueire |
dc.subject.por.fl_str_mv |
Inteligência artificial Sumarização |
topic |
Inteligência artificial Sumarização |
description |
A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-11-12 |
dc.date.accessioned.fl_str_mv |
2019-09-19T19:38:42Z |
dc.date.available.fl_str_mv |
2019-09-19T19:38:42Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/33305 |
url |
https://repositorio.ufpe.br/handle/123456789/33305 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/33305/5/TESE%20Jamilson%20Batista%20Antunes.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/33305/1/TESE%20Jamilson%20Batista%20Antunes.pdf https://repositorio.ufpe.br/bitstream/123456789/33305/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/33305/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/33305/4/TESE%20Jamilson%20Batista%20Antunes.pdf.txt |
bitstream.checksum.fl_str_mv |
cf554091d86a960ddbbec412d0a82903 d38c0b9e7869f94795c89770a6ee1946 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 d18042db07242dde0b44ac5287fe6f8b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1797780646857277440 |