Desambiguação de anotações morfossintáticas feitas por MTMDD
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/6341 |
Resumo: | The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used. The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise. The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain. |
id |
P_RS_aef001040a7cb9e3dc205fe1ad4a70fc |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/6341 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Fernandes, Paulo Henrique Lemelle437.062.230-15http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781822J3015.769.650-23http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K8105121A9Thiele, Pablo Frederico Oliveira2015-10-05T19:09:02Z2015-03-24http://tede2.pucrs.br/tede2/handle/tede/6341The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used. The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise. The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain.Atualmente as tecnologias de Processamento de Linguagem Natural (PLN) estão sendo utilizadas em análises de enormes quantidades de dados. Com o advento das novas mídias e a adoção em massa das redes sociais, o fluxo de informações geradas a cada segundo é o maior da história. Embora isso se concentre, em maior parte, por informações e arquivos de multimídia, uma grande parcela da informação produzida, principalmente nas redes sociais, é textual. Desta forma, as soluções de PLN necessitam ser mais robustas do que jamais foram, encontrando soluções de processamento que possam acompanhar esta geração constante de informações ou pelo menos apresentar resultados melhores se comparados aos procedimentos utilizados anteriormente. Os etiquetadores ou taggers são um dos principais componentes da PLN. Sua função, explorada neste trabalho é a capacidade de observar e catalogar as palavras em um texto de acordo com suas funções morfossintáticas. O nome comumente dado a este processo é o de POST (Part-Of-Speech Tagging). Dentro do contexto Part-Of-Speech (POS) encontra-se a função de processar e identificar um grupo de palavras agrupando-as em tipos pré-definidos. Este agrupamento pode ocorrer em razão sintática, morfológica ou morfossintática. Embora a velocidade de processamento seja uma caraterística digna de nota, quando tratamos de etiquetadores, a acuidade obtida por seu processo deve ser a premissa. O conceito da obtenção de etiquetas semânticas a partir de avaliações dos textos embora pareça simples em um primeiro momento, apresenta vários desafios. Um dos maiores desafios encontrado em PLN é o problema da ambiguidade. Esta situação que ocorre nas mais diversas etapas do processamento de linguagem natural é complexa, devido à necessidade de que a aplicação processadora tenha conhecimentos abrangentes que possam ser utilizados como ferramentas que colaborem no intuito de realizar as escolhas mais corretas. Devido ao fato de se tratar de um problema antigo, inerente à linguagem natural e existente desde o começo das pesquisas da área, diversas possibilidades de minimizar suas consequências foram propostas. O presente trabalho enumera algumas das propostas encontradas, adicionando a possibilidade de uso de estruturas do tipo MTMDD no processo, buscando um ganho substancial de desempenho.Submitted by Setor de Tratamento da Informação - BC/PUCRS (tede2@pucrs.br) on 2015-10-05T19:09:02Z No. of bitstreams: 1 475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5)Made available in DSpace on 2015-10-05T19:09:02Z (GMT). No. of bitstreams: 1 475518 - Texto Completo.pdf: 1065929 bytes, checksum: cf8f71f90f9d278fccf4595fde672a11 (MD5) Previous issue date: 2015-03-24application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/163441/475518%20-%20Texto%20Completo.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilFaculdade de InformáticaINFORMÁTICAPROCESSAMENTO DA LINGUAGEM NATURALCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODesambiguação de anotações morfossintáticas feitas por MTMDDinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis1974996533081274470600600600-30085425104011491443671711205811204509info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL475518 - Texto Completo.pdf.jpg475518 - Texto Completo.pdf.jpgimage/jpeg4605http://tede2.pucrs.br/tede2/bitstream/tede/6341/4/475518+-+Texto+Completo.pdf.jpgb58966e4e622edd6a99a1a6052423176MD54TEXT475518 - Texto Completo.pdf.txt475518 - Texto Completo.pdf.txttext/plain105428http://tede2.pucrs.br/tede2/bitstream/tede/6341/3/475518+-+Texto+Completo.pdf.txte49877be86788f6098001511f3092da5MD53ORIGINAL475518 - Texto Completo.pdf475518 - Texto Completo.pdfapplication/pdf1065929http://tede2.pucrs.br/tede2/bitstream/tede/6341/2/475518+-+Texto+Completo.pdfcf8f71f90f9d278fccf4595fde672a11MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/6341/1/license.txt5a9d6006225b368ef605ba16b4f6d1beMD51tede/63412015-10-05 20:00:24.652oai:tede2.pucrs.br:tede/6341QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-10-05T23:00:24Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
title |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
spellingShingle |
Desambiguação de anotações morfossintáticas feitas por MTMDD Thiele, Pablo Frederico Oliveira INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
title_full |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
title_fullStr |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
title_full_unstemmed |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
title_sort |
Desambiguação de anotações morfossintáticas feitas por MTMDD |
author |
Thiele, Pablo Frederico Oliveira |
author_facet |
Thiele, Pablo Frederico Oliveira |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Fernandes, Paulo Henrique Lemelle |
dc.contributor.advisor1ID.fl_str_mv |
437.062.230-15 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781822J3 |
dc.contributor.authorID.fl_str_mv |
015.769.650-23 |
dc.contributor.authorLattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K8105121A9 |
dc.contributor.author.fl_str_mv |
Thiele, Pablo Frederico Oliveira |
contributor_str_mv |
Fernandes, Paulo Henrique Lemelle |
dc.subject.por.fl_str_mv |
INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL |
topic |
INFORMÁTICA PROCESSAMENTO DA LINGUAGEM NATURAL CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
The Natural Language Processing technologies (PLN) are being used for analysis of huge amounts of data. With the advent of new media and mass adoption of social networking, the flow of information generated every second is the largest in history. The majority of that is multimedia files. Meanwhile, a large portion of the information produced, especially in social network, is textual. Thus, PLN solutions need to be more robust than they ever were, finding processing solutions that might accompany this constant information production or at least provide better results compared to procedures previously used. The labelers or taggers are a major component of PLN. Its function, explored in this work is the ability to observe and catalog the words in a text according to their morphosyntactic functions. The name commonly given to this process is the POST (Part-Of-Speech Tagging). Within the context Part-Of-Speech (POS) is the function to process and identify a group of words by grouping them into pre-defined types. This grouping can occur due to syntactic, morphological or morphosyntactic. Although the processing speed is a worthy feature, when we deal with labelers, the accuracy obtained for its process should be the premise. The concept of obtaining semantic labels from texts evaluations seems simple at first sight, although presents several challenges. One of the major challenges encountered in PLN is the problem of ambiguity. This situation, which occurs in several stages of natural language processing, is complex due to requires comprehensive knowledge from the processing application using that as tools to collaborate in order to implement the most correct choices. It is a classic problem, inherent to natural and existing language since the beginning of the researches of this area. Several possibilities to minimize its consequences have been proposed since then. This paper lists some of the proposals found on the literature by adding the possibility to use MTMDD structures during the process, looking for a substantial performance gain. |
publishDate |
2015 |
dc.date.accessioned.fl_str_mv |
2015-10-05T19:09:02Z |
dc.date.issued.fl_str_mv |
2015-03-24 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/6341 |
url |
http://tede2.pucrs.br/tede2/handle/tede/6341 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
600 600 600 |
dc.relation.department.fl_str_mv |
-3008542510401149144 |
dc.relation.cnpq.fl_str_mv |
3671711205811204509 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Informática |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/6341/4/475518+-+Texto+Completo.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/6341/3/475518+-+Texto+Completo.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/6341/2/475518+-+Texto+Completo.pdf http://tede2.pucrs.br/tede2/bitstream/tede/6341/1/license.txt |
bitstream.checksum.fl_str_mv |
b58966e4e622edd6a99a1a6052423176 e49877be86788f6098001511f3092da5 cf8f71f90f9d278fccf4595fde672a11 5a9d6006225b368ef605ba16b4f6d1be |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765315815473152 |