Metodologia computacional para identificação de sintagmas nominais da língua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
Texto Completo: | http://repositorio.ufes.br/handle/10/4217 |
Resumo: | In Portuguese language, syntagmas are units of meaning and with syntactic function in a phrase [Nicola, 2008]. Generally speaking, phrases that compose any enunciate express some content through their elements and these elements combinations that the language allows. Therefore, sets and subsets are made and they work as syntactic units in the bigger unit which is the phrase - the syntagmas, that can be separated in noun phrase and verb phrase. Among those, the noun phrases represent a bigger interest due to the biggest semantic value in it. Noun phrases are used in Natural Language Processing (NLP) tasks, such as resolving co-references (anaphora), automatic building of ontologies, in parsers used in medical texts to generate resumes and vocabulary building, or as an initial part in syntactic analyses processes. In Information Retrieval, noun phrases can be applied as atomic terms in indexing systems and documents search, delivering better results. This dissertation proposes a computational methodology to identify noun phrases in digital documents written in natural language. This research explains the adopted methodology to identify and to extract noun phrase through the development of SISNOP (Portuguese Noun Phrase Identifying System - SISNOP, in Portuguese). SISNOP is a system composed by a set of modules and programs, that is able to interpret any kind of text available in the natural language, using morphological and syntactic analyses, in order to recover noun phrases. Besides that, the system obtains syntactic information, as gender, number and degree of the words in the extracted noun phrases. The SISNOP tested, among other corpora, CETENFolha, composed by 24 million words, and CETEMPúblico, about 180 million words in European Portuguese and widely used in papers like of this study field. It was obtained 98,12% and 94,59% of sentences recognized by the system, getting up to 24 million identified noun phrases. The SISNOP modules: EM – Morphologic Tagger, ISN – Noun Phrases Identifier and IGNG – Gender, Number and Degree, were tested individually using a smaller set of data than the former one, because the results analyses were made manually. Noun phrase identifier module got 82,45% of precision and 69,20% of recall. |
id |
UFES_e097cd145b3f89b8c928bf0e1bce8e89 |
---|---|
oai_identifier_str |
oai:repositorio.ufes.br:10/4217 |
network_acronym_str |
UFES |
network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
repository_id_str |
2108 |
spelling |
Freitas, Sérgio Antônio Andrade deMorellato, Luana VieiraVillavicencio, AlineGarcia, Berilhes Borges2016-08-29T15:33:12Z2016-07-112016-08-29T15:33:12Z2010-01-08In Portuguese language, syntagmas are units of meaning and with syntactic function in a phrase [Nicola, 2008]. Generally speaking, phrases that compose any enunciate express some content through their elements and these elements combinations that the language allows. Therefore, sets and subsets are made and they work as syntactic units in the bigger unit which is the phrase - the syntagmas, that can be separated in noun phrase and verb phrase. Among those, the noun phrases represent a bigger interest due to the biggest semantic value in it. Noun phrases are used in Natural Language Processing (NLP) tasks, such as resolving co-references (anaphora), automatic building of ontologies, in parsers used in medical texts to generate resumes and vocabulary building, or as an initial part in syntactic analyses processes. In Information Retrieval, noun phrases can be applied as atomic terms in indexing systems and documents search, delivering better results. This dissertation proposes a computational methodology to identify noun phrases in digital documents written in natural language. This research explains the adopted methodology to identify and to extract noun phrase through the development of SISNOP (Portuguese Noun Phrase Identifying System - SISNOP, in Portuguese). SISNOP is a system composed by a set of modules and programs, that is able to interpret any kind of text available in the natural language, using morphological and syntactic analyses, in order to recover noun phrases. Besides that, the system obtains syntactic information, as gender, number and degree of the words in the extracted noun phrases. The SISNOP tested, among other corpora, CETENFolha, composed by 24 million words, and CETEMPúblico, about 180 million words in European Portuguese and widely used in papers like of this study field. It was obtained 98,12% and 94,59% of sentences recognized by the system, getting up to 24 million identified noun phrases. The SISNOP modules: EM – Morphologic Tagger, ISN – Noun Phrases Identifier and IGNG – Gender, Number and Degree, were tested individually using a smaller set of data than the former one, because the results analyses were made manually. Noun phrase identifier module got 82,45% of precision and 69,20% of recall.Sintagmas são unidades de sentido e com função sintática dentro de uma frase, [Nicola 2008]. De maneira geral, as frases que compõem qualquer enunciado expressam um conteúdo por meio dos elementos e das combinações desses elementos que a língua proporciona. Dessa forma, vão se formando conjuntos e subconjuntos que funcionam como unidades sintáticas dentro da unidade maior que é a frase -- os sintagmas, que podem ser divididos em: sintagmas nominais e verbais. Dentre esses, os nominais representam maior interesse devido ao maior valor semântico contido. Os sintagmas nominais são utilizados em tarefas de Processamento de Linguagem Natural (PLN), como resolução de correferências (anáforas), construção automática de ontologias, em parses usados em textos médicos para geração de resumos e criação de vocabulário, ou ainda como uma etapa inicial em processos de análise sintática. Em Recuperação de Informação (RI) os sintagmas podem ser aplicados na criação de termos em sistemas de indexação e buscas de documentos, gerando resultados melhores. Esta dissertação propõe uma metodologia computacional para identificação de sintagmas nominais da língua portuguesa em documentos digitais escritos em linguagem natural. Nesse trabalho, é explicitada a metodologia adotada para identificar e extrair sintagmas nominais por meio do desenvolvimento do SISNOP -- Sistema Identificador de Sintagmas Nominais do Português. O SISNOP é um sistema composto por um conjunto de módulos e programas, capaz de interpretar textos irrestritos disponíveis em linguagem natural, através de análises morfológicas e sintáticas, a fim de recuperar sintagmas nominais. Alem disso, são obtidas informações sintáticas, como gênero, número e grau das palavras contidas nos sintagmas extraídos. O SISNOP testou, entre outros corpus, o CETENFolha, composto por mais 24 milhões de palavras, e o CETEMPúblico, com aproximadamente 180 milhões de palavras em português europeu, e muito utilizado em trabalhos da área. Foi obtido 98,12% e 94,59% de frases reconhecidas pelo sistema, obtendo mais de 24 milhões de sintagmas identificados. Os módulos do SISNOP: EM Etiquetador Morfológico, ISN Identificador de Sintagmas Nominais e IGNG Identificador de Gênero, Número e Grau, foram testados de maneira individual utilizando um conjunto de dados menor que o anterior, visto que, a análise dos resultados foi feita manualmente. O módulo identificador de sintagmas obteve precisão de 82,45% e abrangência de 69,20%.TextMORELLATO, Luana Vieira. Metodologia computacional para identificação de sintagmas nominais da língua portuguesa. 2010. 113 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010.http://repositorio.ufes.br/handle/10/4217porUniversidade Federal do Espírito SantoMestrado em InformáticaPrograma de Pós-Graduação em InformáticaUFESBRCentro TecnológicoLíngua portuguesa - Sintagma nominalProcessamento de linguagem natural (Computação)Recuperação da informaçãoCiência da Computação004Metodologia computacional para identificação de sintagmas nominais da língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALDissertação_3340_a13-furia.pdfapplication/pdf1204054http://repositorio.ufes.br/bitstreams/a57e5c14-a847-4680-a27f-1f492ecb3bbf/download6bd0535e50d6ecfd469372fbce27e1a1MD5110/42172024-07-17 16:56:10.393oai:repositorio.ufes.br:10/4217http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T17:56:28.273420Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
dc.title.none.fl_str_mv |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
title |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
spellingShingle |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa Morellato, Luana Vieira Ciência da Computação Língua portuguesa - Sintagma nominal Processamento de linguagem natural (Computação) Recuperação da informação 004 |
title_short |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
title_full |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
title_fullStr |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
title_full_unstemmed |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
title_sort |
Metodologia computacional para identificação de sintagmas nominais da língua portuguesa |
author |
Morellato, Luana Vieira |
author_facet |
Morellato, Luana Vieira |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Freitas, Sérgio Antônio Andrade de |
dc.contributor.author.fl_str_mv |
Morellato, Luana Vieira |
dc.contributor.referee1.fl_str_mv |
Villavicencio, Aline |
dc.contributor.referee2.fl_str_mv |
Garcia, Berilhes Borges |
contributor_str_mv |
Freitas, Sérgio Antônio Andrade de Villavicencio, Aline Garcia, Berilhes Borges |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Língua portuguesa - Sintagma nominal Processamento de linguagem natural (Computação) Recuperação da informação 004 |
dc.subject.br-rjbn.none.fl_str_mv |
Língua portuguesa - Sintagma nominal Processamento de linguagem natural (Computação) Recuperação da informação |
dc.subject.udc.none.fl_str_mv |
004 |
description |
In Portuguese language, syntagmas are units of meaning and with syntactic function in a phrase [Nicola, 2008]. Generally speaking, phrases that compose any enunciate express some content through their elements and these elements combinations that the language allows. Therefore, sets and subsets are made and they work as syntactic units in the bigger unit which is the phrase - the syntagmas, that can be separated in noun phrase and verb phrase. Among those, the noun phrases represent a bigger interest due to the biggest semantic value in it. Noun phrases are used in Natural Language Processing (NLP) tasks, such as resolving co-references (anaphora), automatic building of ontologies, in parsers used in medical texts to generate resumes and vocabulary building, or as an initial part in syntactic analyses processes. In Information Retrieval, noun phrases can be applied as atomic terms in indexing systems and documents search, delivering better results. This dissertation proposes a computational methodology to identify noun phrases in digital documents written in natural language. This research explains the adopted methodology to identify and to extract noun phrase through the development of SISNOP (Portuguese Noun Phrase Identifying System - SISNOP, in Portuguese). SISNOP is a system composed by a set of modules and programs, that is able to interpret any kind of text available in the natural language, using morphological and syntactic analyses, in order to recover noun phrases. Besides that, the system obtains syntactic information, as gender, number and degree of the words in the extracted noun phrases. The SISNOP tested, among other corpora, CETENFolha, composed by 24 million words, and CETEMPúblico, about 180 million words in European Portuguese and widely used in papers like of this study field. It was obtained 98,12% and 94,59% of sentences recognized by the system, getting up to 24 million identified noun phrases. The SISNOP modules: EM – Morphologic Tagger, ISN – Noun Phrases Identifier and IGNG – Gender, Number and Degree, were tested individually using a smaller set of data than the former one, because the results analyses were made manually. Noun phrase identifier module got 82,45% of precision and 69,20% of recall. |
publishDate |
2010 |
dc.date.issued.fl_str_mv |
2010-01-08 |
dc.date.accessioned.fl_str_mv |
2016-08-29T15:33:12Z |
dc.date.available.fl_str_mv |
2016-07-11 2016-08-29T15:33:12Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MORELLATO, Luana Vieira. Metodologia computacional para identificação de sintagmas nominais da língua portuguesa. 2010. 113 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010. |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufes.br/handle/10/4217 |
identifier_str_mv |
MORELLATO, Luana Vieira. Metodologia computacional para identificação de sintagmas nominais da língua portuguesa. 2010. 113 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010. |
url |
http://repositorio.ufes.br/handle/10/4217 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
Text |
dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Informática |
dc.publisher.initials.fl_str_mv |
UFES |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Centro Tecnológico |
publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Mestrado em Informática |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
instname_str |
Universidade Federal do Espírito Santo (UFES) |
instacron_str |
UFES |
institution |
UFES |
reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
bitstream.url.fl_str_mv |
http://repositorio.ufes.br/bitstreams/a57e5c14-a847-4680-a27f-1f492ecb3bbf/download |
bitstream.checksum.fl_str_mv |
6bd0535e50d6ecfd469372fbce27e1a1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
repository.mail.fl_str_mv |
|
_version_ |
1813022535160168448 |