Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa

Detalhes bibliográficos
Autor(a) principal: Silva, Tiago José da
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/12950
Resumo: Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
id UFPE_607c76b7efb73f509f1f9d04554a4b37
oai_identifier_str oai:repositorio.ufpe.br:123456789/12950
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling Silva, Tiago José daCorrêa, Renato Fernandes 2015-04-10T17:22:33Z2015-04-10T17:22:33Z2014-03-28https://repositorio.ufpe.br/handle/123456789/12950Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.porUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSintagmas NominaisRecuperação de InformaçãoIndexação AutomáticaExtração Automática de Sintagmas NominaisProcessamento de Linguagem NaturalIndexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Tiago José da Silva.pdf.jpgDISSERTAÇÃO Tiago José da Silva.pdf.jpgGenerated Thumbnailimage/jpeg1311https://repositorio.ufpe.br/bitstream/123456789/12950/5/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf.jpg7fa729fbe4e49535aa1dd7c2eb00ac7eMD55ORIGINALDISSERTAÇÃO Tiago José da Silva.pdfDISSERTAÇÃO Tiago José da Silva.pdfapplication/pdf3122636https://repositorio.ufpe.br/bitstream/123456789/12950/1/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf4141cd54437a53496b7f98822722032eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/12950/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/12950/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO Tiago José da Silva.pdf.txtDISSERTAÇÃO Tiago José da Silva.pdf.txtExtracted texttext/plain276352https://repositorio.ufpe.br/bitstream/123456789/12950/4/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf.txt6f09790e96c254bd659db05ca10799bcMD54123456789/129502019-10-25 17:44:34.48oai:repositorio.ufpe.br:123456789/12950TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T20:44:34Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
title Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
spellingShingle Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
Silva, Tiago José da
Sintagmas Nominais
Recuperação de Informação
Indexação Automática
Extração Automática de Sintagmas Nominais
Processamento de Linguagem Natural
title_short Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
title_full Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
title_fullStr Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
title_full_unstemmed Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
title_sort Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa
author Silva, Tiago José da
author_facet Silva, Tiago José da
author_role author
dc.contributor.author.fl_str_mv Silva, Tiago José da
dc.contributor.advisor1.fl_str_mv Corrêa, Renato Fernandes
contributor_str_mv Corrêa, Renato Fernandes
dc.subject.por.fl_str_mv Sintagmas Nominais
Recuperação de Informação
Indexação Automática
Extração Automática de Sintagmas Nominais
Processamento de Linguagem Natural
topic Sintagmas Nominais
Recuperação de Informação
Indexação Automática
Extração Automática de Sintagmas Nominais
Processamento de Linguagem Natural
description Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
publishDate 2014
dc.date.issued.fl_str_mv 2014-03-28
dc.date.accessioned.fl_str_mv 2015-04-10T17:22:33Z
dc.date.available.fl_str_mv 2015-04-10T17:22:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/12950
url https://repositorio.ufpe.br/handle/123456789/12950
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/12950/5/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/12950/1/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf
https://repositorio.ufpe.br/bitstream/123456789/12950/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/12950/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/12950/4/DISSERTA%c3%87%c3%83O%20Tiago%20Jos%c3%a9%20da%20Silva.pdf.txt
bitstream.checksum.fl_str_mv 7fa729fbe4e49535aa1dd7c2eb00ac7e
4141cd54437a53496b7f98822722032e
66e71c371cc565284e70f40736c94386
4b8a02c7f2818eaf00dcf2260dd5eb08
6f09790e96c254bd659db05ca10799bc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310818098839552