Extração de informação usando integração de componentes de PLN através do framework GATE
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
dARK ID: | ark:/64986/001300000qn8k |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/1927 |
Resumo: | A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las |
id |
UFPE_850cf77f8c20fec0e59d50f215a00231 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/1927 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
de Souza Cabral, LucianoLuiz Goncalves de Freitas, Frederico 2014-06-12T15:53:11Z2014-06-12T15:53:11Z2009-01-31de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.https://repositorio.ufpe.br/handle/123456789/1927ark:/64986/001300000qn8kA Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-lasporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência ArtificialExtração de InformaçãoProcessamento de Linguagem NaturalOntologiasExtração de informação usando integração de componentes de PLN através do framework GATEinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo1907_1.pdf.jpgarquivo1907_1.pdf.jpgGenerated Thumbnailimage/jpeg1397https://repositorio.ufpe.br/bitstream/123456789/1927/4/arquivo1907_1.pdf.jpg4c2d8640f10ad5b4309c78710fa805baMD54ORIGINALarquivo1907_1.pdfapplication/pdf1663192https://repositorio.ufpe.br/bitstream/123456789/1927/1/arquivo1907_1.pdf21a772bd61ef448147054bfaa52598d1MD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/1927/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo1907_1.pdf.txtarquivo1907_1.pdf.txtExtracted texttext/plain257309https://repositorio.ufpe.br/bitstream/123456789/1927/3/arquivo1907_1.pdf.txtf49813cf48607c86b2bc51aca69caffcMD53123456789/19272019-10-25 16:02:56.162oai:repositorio.ufpe.br:123456789/1927Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T19:02:56Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Extração de informação usando integração de componentes de PLN através do framework GATE |
title |
Extração de informação usando integração de componentes de PLN através do framework GATE |
spellingShingle |
Extração de informação usando integração de componentes de PLN através do framework GATE de Souza Cabral, Luciano Inteligência Artificial Extração de Informação Processamento de Linguagem Natural Ontologias |
title_short |
Extração de informação usando integração de componentes de PLN através do framework GATE |
title_full |
Extração de informação usando integração de componentes de PLN através do framework GATE |
title_fullStr |
Extração de informação usando integração de componentes de PLN através do framework GATE |
title_full_unstemmed |
Extração de informação usando integração de componentes de PLN através do framework GATE |
title_sort |
Extração de informação usando integração de componentes de PLN através do framework GATE |
author |
de Souza Cabral, Luciano |
author_facet |
de Souza Cabral, Luciano |
author_role |
author |
dc.contributor.author.fl_str_mv |
de Souza Cabral, Luciano |
dc.contributor.advisor1.fl_str_mv |
Luiz Goncalves de Freitas, Frederico |
contributor_str_mv |
Luiz Goncalves de Freitas, Frederico |
dc.subject.por.fl_str_mv |
Inteligência Artificial Extração de Informação Processamento de Linguagem Natural Ontologias |
topic |
Inteligência Artificial Extração de Informação Processamento de Linguagem Natural Ontologias |
description |
A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las |
publishDate |
2009 |
dc.date.issued.fl_str_mv |
2009-01-31 |
dc.date.accessioned.fl_str_mv |
2014-06-12T15:53:11Z |
dc.date.available.fl_str_mv |
2014-06-12T15:53:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/1927 |
dc.identifier.dark.fl_str_mv |
ark:/64986/001300000qn8k |
identifier_str_mv |
de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico. Extração de informação usando integração de componentes de PLN através do framework GATE. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009. ark:/64986/001300000qn8k |
url |
https://repositorio.ufpe.br/handle/123456789/1927 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/1927/4/arquivo1907_1.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/1927/1/arquivo1907_1.pdf https://repositorio.ufpe.br/bitstream/123456789/1927/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/1927/3/arquivo1907_1.pdf.txt |
bitstream.checksum.fl_str_mv |
4c2d8640f10ad5b4309c78710fa805ba 21a772bd61ef448147054bfaa52598d1 8a4605be74aa9ea9d79846c1fba20a33 f49813cf48607c86b2bc51aca69caffc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1815172887699521536 |