Extração de informação usando integração de componentes de PLN através do framework GATE

Detalhes bibliográficos
Autor(a) principal: de Souza Cabral, Luciano
Data de Publicação: 2009
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
dARK ID: ark:/64986/001300000qn8k
Texto Completo: https://repositorio.ufpe.br/handle/123456789/1927
Resumo: A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las
id UFPE_850cf77f8c20fec0e59d50f215a00231
oai_identifier_str oai:repositorio.ufpe.br:123456789/1927
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling de Souza Cabral, LucianoLuiz Goncalves de Freitas, Frederico 2014-06-12T15:53:11Z2014-06-12T15:53:11Z2009-01-31de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.https://repositorio.ufpe.br/handle/123456789/1927ark:/64986/001300000qn8kA Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-lasporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência ArtificialExtração de InformaçãoProcessamento de Linguagem NaturalOntologiasExtração de informação usando integração de componentes de PLN através do framework GATEinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo1907_1.pdf.jpgarquivo1907_1.pdf.jpgGenerated Thumbnailimage/jpeg1397https://repositorio.ufpe.br/bitstream/123456789/1927/4/arquivo1907_1.pdf.jpg4c2d8640f10ad5b4309c78710fa805baMD54ORIGINALarquivo1907_1.pdfapplication/pdf1663192https://repositorio.ufpe.br/bitstream/123456789/1927/1/arquivo1907_1.pdf21a772bd61ef448147054bfaa52598d1MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/1927/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo1907_1.pdf.txtarquivo1907_1.pdf.txtExtracted texttext/plain257309https://repositorio.ufpe.br/bitstream/123456789/1927/3/arquivo1907_1.pdf.txtf49813cf48607c86b2bc51aca69caffcMD53123456789/19272019-10-25 16:02:56.162oai:repositorio.ufpe.br:123456789/1927Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T19:02:56Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Extração de informação usando integração de componentes de PLN através do framework GATE
title Extração de informação usando integração de componentes de PLN através do framework GATE
spellingShingle Extração de informação usando integração de componentes de PLN através do framework GATE
de Souza Cabral, Luciano
Inteligência Artificial
Extração de Informação
Processamento de Linguagem Natural
Ontologias
title_short Extração de informação usando integração de componentes de PLN através do framework GATE
title_full Extração de informação usando integração de componentes de PLN através do framework GATE
title_fullStr Extração de informação usando integração de componentes de PLN através do framework GATE
title_full_unstemmed Extração de informação usando integração de componentes de PLN através do framework GATE
title_sort Extração de informação usando integração de componentes de PLN através do framework GATE
author de Souza Cabral, Luciano
author_facet de Souza Cabral, Luciano
author_role author
dc.contributor.author.fl_str_mv de Souza Cabral, Luciano
dc.contributor.advisor1.fl_str_mv Luiz Goncalves de Freitas, Frederico
contributor_str_mv Luiz Goncalves de Freitas, Frederico
dc.subject.por.fl_str_mv Inteligência Artificial
Extração de Informação
Processamento de Linguagem Natural
Ontologias
topic Inteligência Artificial
Extração de Informação
Processamento de Linguagem Natural
Ontologias
description A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las
publishDate 2009
dc.date.issued.fl_str_mv 2009-01-31
dc.date.accessioned.fl_str_mv 2014-06-12T15:53:11Z
dc.date.available.fl_str_mv 2014-06-12T15:53:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/1927
dc.identifier.dark.fl_str_mv ark:/64986/001300000qn8k
identifier_str_mv de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
ark:/64986/001300000qn8k
url https://repositorio.ufpe.br/handle/123456789/1927
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/1927/4/arquivo1907_1.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/1927/1/arquivo1907_1.pdf
https://repositorio.ufpe.br/bitstream/123456789/1927/2/license.txt
https://repositorio.ufpe.br/bitstream/123456789/1927/3/arquivo1907_1.pdf.txt
bitstream.checksum.fl_str_mv 4c2d8640f10ad5b4309c78710fa805ba
21a772bd61ef448147054bfaa52598d1
8a4605be74aa9ea9d79846c1fba20a33
f49813cf48607c86b2bc51aca69caffc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1815172887699521536