Identificação automática de relações multidocumento

Detalhes bibliográficos
Autor(a) principal: Maziero, Erick Galani
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/
Resumo: O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regras
id USP_5f8b993de604226df6eb54de618783af
oai_identifier_str oai:teses.usp.br:tde-29032012-111155
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Identificação automática de relações multidocumentoAutomatic identification of multidocument relationsAnálise multidocumentoAprendizado automáticoCross-document structure theoryCross-document strucure theoryMachine learningMultidocument analysisMultidocument parsingMultidocument relationshipRelações multidocumentoRulesO tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regrasThe multi-document treatment is essential in the current scenario of electronic media, in which many documents are produced about a same topic, mainly when considering the explosion of information allowed by the web. Both readers and computational applications are benefited by the discursive multi-document analysis, through which the relations (for example, equivalence, contradiction or background relations) among the portions of text are showed. In order to achieve the automatic multi-document treatment, the CST (Cross-document Structure Theory, Radev, 2000) is adopted in this work. This kind of knowledge allow (i) the appropriated treatment of phenomena like redundancy, complementarity and contradiction of information and, consequently, (ii) the production of better systems of text processing, as more intelligent web searchers and automatic summarizers. In this work, a methodology to identify these relations is presented exploring techniques of machine learning of the traditional and hierarchical paradigm. For relations with low frequency in the corpus, handcrafted rules were developed. Finally, a parser is generated containing classifiers and rulesBiblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroMaziero, Erick Galani2012-01-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:31Zoai:teses.usp.br:tde-29032012-111155Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:31Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Identificação automática de relações multidocumento
Automatic identification of multidocument relations
title Identificação automática de relações multidocumento
spellingShingle Identificação automática de relações multidocumento
Maziero, Erick Galani
Análise multidocumento
Aprendizado automático
Cross-document structure theory
Cross-document strucure theory
Machine learning
Multidocument analysis
Multidocument parsing
Multidocument relationship
Relações multidocumento
Rules
title_short Identificação automática de relações multidocumento
title_full Identificação automática de relações multidocumento
title_fullStr Identificação automática de relações multidocumento
title_full_unstemmed Identificação automática de relações multidocumento
title_sort Identificação automática de relações multidocumento
author Maziero, Erick Galani
author_facet Maziero, Erick Galani
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Maziero, Erick Galani
dc.subject.por.fl_str_mv Análise multidocumento
Aprendizado automático
Cross-document structure theory
Cross-document strucure theory
Machine learning
Multidocument analysis
Multidocument parsing
Multidocument relationship
Relações multidocumento
Rules
topic Análise multidocumento
Aprendizado automático
Cross-document structure theory
Cross-document strucure theory
Machine learning
Multidocument analysis
Multidocument parsing
Multidocument relationship
Relações multidocumento
Rules
description O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regras
publishDate 2012
dc.date.none.fl_str_mv 2012-01-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257452688441344