Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática

Rodrigues, Irving Muller

Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática

Detalhes bibliográficos
Autor(a) principal:	Rodrigues, Irving Muller
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMS
Texto Completo:	https://repositorio.ufms.br/handle/123456789/3081
Resumo:	No contexto de aprendizado de máquina, o problema de adaptação de domínio ocorre quando os dados de treinamento advêm de um domínio diferente daquele onde o modelo será aplicado. Neste cenário, a representação dos dados de entrada é um fator crucial para a adaptação do modelo de um domínio para outro. Neste trabalho, três métodos são desenvolvidos para a adaptação de domínio na tarefa de etiquetagem morfossintática. Estes métodos, denominados DLID, DAN e DATT, usam técnicas de aprendizado profundo de representações (deep learning) através de uma rede neural denominada CharWNN. O CharWNN detém o estado da arte nos principais corpora da tarefa de etiquetagem morfossintática e sua principal característica é não utilizar atributos manuais. Isto significa que a entrada desta rede é composta exclusivamente pela sequência de palavras de uma frase e a representação desta entrada é aprendida automaticamente. Os métodos desenvolvidos exploram o aprendizado de representações de maneiras distintas, envolvendo treinamento não supervisionado, supervisionado e semissupervisionado. Para avaliar os métodos desenvolvidos, são empregadas duas tarefas de adaptação de domínio – uma em inglês e outra em português – que compreendem diversos pares de domínios origem-alvo. Nos experimentos, os métodos de adaptação de domínio superam substancialmente um baseline que tem acesso exclusivo a dados do domínio origem. Entretanto, estes métodos obtêm desempenho equivalente ao CharWNN quando este usa trivialmente dados externos não anotados. Apesar destes resultados demonstrarem que os métodos desenvolvidos não trazem benefícios, eles também demonstram que a rede CharWNN tem desempenho excelente na adaptação de domínio. Adicionalmente, demonstramos que o problema de adaptação de domínio não supervisionada é difícil e ainda mal resolvido, através de um experimento que fornece, incrementalmente, algumas frases anotadas do domínio alvo para o treinamento da rede CharWNN. Neste experimento, o CharWNN é capaz de superar os melhores sistemas de adaptação do domínio da literatura usando poucas frases anotadas.

Metadados do item

id	UFMS_c45291391826a60a91f07e240ecfbd55
oai_identifier_str	oai:repositorio.ufms.br:123456789/3081
network_acronym_str	UFMS
network_name_str	Repositório Institucional da UFMS
repository_id_str	2124
spelling	2017-05-02T14:28:13Z2021-09-30T19:55:22Z2017https://repositorio.ufms.br/handle/123456789/3081No contexto de aprendizado de máquina, o problema de adaptação de domínio ocorre quando os dados de treinamento advêm de um domínio diferente daquele onde o modelo será aplicado. Neste cenário, a representação dos dados de entrada é um fator crucial para a adaptação do modelo de um domínio para outro. Neste trabalho, três métodos são desenvolvidos para a adaptação de domínio na tarefa de etiquetagem morfossintática. Estes métodos, denominados DLID, DAN e DATT, usam técnicas de aprendizado profundo de representações (deep learning) através de uma rede neural denominada CharWNN. O CharWNN detém o estado da arte nos principais corpora da tarefa de etiquetagem morfossintática e sua principal característica é não utilizar atributos manuais. Isto significa que a entrada desta rede é composta exclusivamente pela sequência de palavras de uma frase e a representação desta entrada é aprendida automaticamente. Os métodos desenvolvidos exploram o aprendizado de representações de maneiras distintas, envolvendo treinamento não supervisionado, supervisionado e semissupervisionado. Para avaliar os métodos desenvolvidos, são empregadas duas tarefas de adaptação de domínio – uma em inglês e outra em português – que compreendem diversos pares de domínios origem-alvo. Nos experimentos, os métodos de adaptação de domínio superam substancialmente um baseline que tem acesso exclusivo a dados do domínio origem. Entretanto, estes métodos obtêm desempenho equivalente ao CharWNN quando este usa trivialmente dados externos não anotados. Apesar destes resultados demonstrarem que os métodos desenvolvidos não trazem benefícios, eles também demonstram que a rede CharWNN tem desempenho excelente na adaptação de domínio. Adicionalmente, demonstramos que o problema de adaptação de domínio não supervisionada é difícil e ainda mal resolvido, através de um experimento que fornece, incrementalmente, algumas frases anotadas do domínio alvo para o treinamento da rede CharWNN. Neste experimento, o CharWNN é capaz de superar os melhores sistemas de adaptação do domínio da literatura usando poucas frases anotadas.porRedes Neurais (Computação)Inteligência ArtificialLinguística - processamento de dadosNeural Networks (Computer Science)Artificial IntelligenceComputational LinguisticsAprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintáticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisFernandes, Eraldo Luís RezendeRodrigues, Irving Mullerinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSTHUMBNAILAprendizado de Representações.pdf.jpgAprendizado de Representações.pdf.jpgGenerated Thumbnailimage/jpeg1102https://repositorio.ufms.br/bitstream/123456789/3081/4/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf.jpgeaa9551655daa84cbbdb3bf09bbccd3dMD54ORIGINALAprendizado de Representações.pdfAprendizado de Representações.pdfapplication/pdf977620https://repositorio.ufms.br/bitstream/123456789/3081/1/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf735159f096cfc35d304f27fe3fb54cc7MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81650https://repositorio.ufms.br/bitstream/123456789/3081/2/license.txt748ee79844dde07252d847e53532b648MD52TEXTAprendizado de Representações.pdf.txtAprendizado de Representações.pdf.txtExtracted texttext/plain0https://repositorio.ufms.br/bitstream/123456789/3081/3/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf.txtd41d8cd98f00b204e9800998ecf8427eMD53123456789/30812021-09-30 15:55:22.419oai:repositorio.ufms.br:123456789/3081CgpOT04tRVhDTFVTSVZFIERJU1RSSUJVVElPTiBMSUNFTlNFCgpCeSBzaWduaW5nIGFuZCBzdWJtaXR0aW5nIHRoaXMgbGljZW5zZSwgeW91ICh0aGUgYXV0aG9yKHMpIG9yIGNvcHlyaWdodApvd25lcikgZ3JhbnRzIHRvIERTcGFjZSBVbml2ZXJzaXR5IChEU1UpIHRoZSBub24tZXhjbHVzaXZlIHJpZ2h0IHRvIHJlcHJvZHVjZSwKdHJhbnNsYXRlIChhcyBkZWZpbmVkIGJlbG93KSwgYW5kL29yIGRpc3RyaWJ1dGUgeW91ciBzdWJtaXNzaW9uIChpbmNsdWRpbmcKdGhlIGFic3RyYWN0KSB3b3JsZHdpZGUgaW4gcHJpbnQgYW5kIGVsZWN0cm9uaWMgZm9ybWF0IGFuZCBpbiBhbnkgbWVkaXVtLAppbmNsdWRpbmcgYnV0IG5vdCBsaW1pdGVkIHRvIGF1ZGlvIG9yIHZpZGVvLgoKWW91IGFncmVlIHRoYXQgRFNVIG1heSwgd2l0aG91dCBjaGFuZ2luZyB0aGUgY29udGVudCwgdHJhbnNsYXRlIHRoZQpzdWJtaXNzaW9uIHRvIGFueSBtZWRpdW0gb3IgZm9ybWF0IGZvciB0aGUgcHVycG9zZSBvZiBwcmVzZXJ2YXRpb24uCgpZb3UgYWxzbyBhZ3JlZSB0aGF0IERTVSBtYXkga2VlcCBtb3JlIHRoYW4gb25lIGNvcHkgb2YgdGhpcyBzdWJtaXNzaW9uIGZvcgpwdXJwb3NlcyBvZiBzZWN1cml0eSwgYmFjay11cCBhbmQgcHJlc2VydmF0aW9uLgoKWW91IHJlcHJlc2VudCB0aGF0IHRoZSBzdWJtaXNzaW9uIGlzIHlvdXIgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQgeW91IGhhdmUKdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gWW91IGFsc28gcmVwcmVzZW50CnRoYXQgeW91ciBzdWJtaXNzaW9uIGRvZXMgbm90LCB0byB0aGUgYmVzdCBvZiB5b3VyIGtub3dsZWRnZSwgaW5mcmluZ2UgdXBvbgphbnlvbmUncyBjb3B5cmlnaHQuCgpJZiB0aGUgc3VibWlzc2lvbiBjb250YWlucyBtYXRlcmlhbCBmb3Igd2hpY2ggeW91IGRvIG5vdCBob2xkIGNvcHlyaWdodCwKeW91IHJlcHJlc2VudCB0aGF0IHlvdSBoYXZlIG9idGFpbmVkIHRoZSB1bnJlc3RyaWN0ZWQgcGVybWlzc2lvbiBvZiB0aGUKY29weXJpZ2h0IG93bmVyIHRvIGdyYW50IERTVSB0aGUgcmlnaHRzIHJlcXVpcmVkIGJ5IHRoaXMgbGljZW5zZSwgYW5kIHRoYXQKc3VjaCB0aGlyZC1wYXJ0eSBvd25lZCBtYXRlcmlhbCBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIGFja25vd2xlZGdlZAp3aXRoaW4gdGhlIHRleHQgb3IgY29udGVudCBvZiB0aGUgc3VibWlzc2lvbi4KCklGIFRIRSBTVUJNSVNTSU9OIElTIEJBU0VEIFVQT04gV09SSyBUSEFUIEhBUyBCRUVOIFNQT05TT1JFRCBPUiBTVVBQT1JURUQKQlkgQU4gQUdFTkNZIE9SIE9SR0FOSVpBVElPTiBPVEhFUiBUSEFOIERTVSwgWU9VIFJFUFJFU0VOVCBUSEFUIFlPVSBIQVZFCkZVTEZJTExFRCBBTlkgUklHSFQgT0YgUkVWSUVXIE9SIE9USEVSIE9CTElHQVRJT05TIFJFUVVJUkVEIEJZIFNVQ0gKQ09OVFJBQ1QgT1IgQUdSRUVNRU5ULgoKRFNVIHdpbGwgY2xlYXJseSBpZGVudGlmeSB5b3VyIG5hbWUocykgYXMgdGhlIGF1dGhvcihzKSBvciBvd25lcihzKSBvZiB0aGUKc3VibWlzc2lvbiwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGFsdGVyYXRpb24sIG90aGVyIHRoYW4gYXMgYWxsb3dlZCBieSB0aGlzCmxpY2Vuc2UsIHRvIHlvdXIgc3VibWlzc2lvbi4KRepositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242021-09-30T19:55:22Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
title	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
spellingShingle	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática Rodrigues, Irving Muller Redes Neurais (Computação) Inteligência Artificial Linguística - processamento de dados Neural Networks (Computer Science) Artificial Intelligence Computational Linguistics
title_short	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
title_full	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
title_fullStr	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
title_full_unstemmed	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
title_sort	Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática
author	Rodrigues, Irving Muller
author_facet	Rodrigues, Irving Muller
author_role	author
dc.contributor.advisor1.fl_str_mv	Fernandes, Eraldo Luís Rezende
dc.contributor.author.fl_str_mv	Rodrigues, Irving Muller
contributor_str_mv	Fernandes, Eraldo Luís Rezende
dc.subject.por.fl_str_mv	Redes Neurais (Computação) Inteligência Artificial Linguística - processamento de dados Neural Networks (Computer Science) Artificial Intelligence Computational Linguistics
topic	Redes Neurais (Computação) Inteligência Artificial Linguística - processamento de dados Neural Networks (Computer Science) Artificial Intelligence Computational Linguistics
description	No contexto de aprendizado de máquina, o problema de adaptação de domínio ocorre quando os dados de treinamento advêm de um domínio diferente daquele onde o modelo será aplicado. Neste cenário, a representação dos dados de entrada é um fator crucial para a adaptação do modelo de um domínio para outro. Neste trabalho, três métodos são desenvolvidos para a adaptação de domínio na tarefa de etiquetagem morfossintática. Estes métodos, denominados DLID, DAN e DATT, usam técnicas de aprendizado profundo de representações (deep learning) através de uma rede neural denominada CharWNN. O CharWNN detém o estado da arte nos principais corpora da tarefa de etiquetagem morfossintática e sua principal característica é não utilizar atributos manuais. Isto significa que a entrada desta rede é composta exclusivamente pela sequência de palavras de uma frase e a representação desta entrada é aprendida automaticamente. Os métodos desenvolvidos exploram o aprendizado de representações de maneiras distintas, envolvendo treinamento não supervisionado, supervisionado e semissupervisionado. Para avaliar os métodos desenvolvidos, são empregadas duas tarefas de adaptação de domínio – uma em inglês e outra em português – que compreendem diversos pares de domínios origem-alvo. Nos experimentos, os métodos de adaptação de domínio superam substancialmente um baseline que tem acesso exclusivo a dados do domínio origem. Entretanto, estes métodos obtêm desempenho equivalente ao CharWNN quando este usa trivialmente dados externos não anotados. Apesar destes resultados demonstrarem que os métodos desenvolvidos não trazem benefícios, eles também demonstram que a rede CharWNN tem desempenho excelente na adaptação de domínio. Adicionalmente, demonstramos que o problema de adaptação de domínio não supervisionada é difícil e ainda mal resolvido, através de um experimento que fornece, incrementalmente, algumas frases anotadas do domínio alvo para o treinamento da rede CharWNN. Neste experimento, o CharWNN é capaz de superar os melhores sistemas de adaptação do domínio da literatura usando poucas frases anotadas.
publishDate	2017
dc.date.accessioned.fl_str_mv	2017-05-02T14:28:13Z
dc.date.issued.fl_str_mv	2017
dc.date.available.fl_str_mv	2021-09-30T19:55:22Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufms.br/handle/123456789/3081
url	https://repositorio.ufms.br/handle/123456789/3081
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMS instname:Universidade Federal de Mato Grosso do Sul (UFMS) instacron:UFMS
instname_str	Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str	UFMS
institution	UFMS
reponame_str	Repositório Institucional da UFMS
collection	Repositório Institucional da UFMS
bitstream.url.fl_str_mv	https://repositorio.ufms.br/bitstream/123456789/3081/4/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf.jpg https://repositorio.ufms.br/bitstream/123456789/3081/1/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf https://repositorio.ufms.br/bitstream/123456789/3081/2/license.txt https://repositorio.ufms.br/bitstream/123456789/3081/3/Aprendizado%20de%20Representa%c3%a7%c3%b5es.pdf.txt
bitstream.checksum.fl_str_mv	eaa9551655daa84cbbdb3bf09bbccd3d 735159f096cfc35d304f27fe3fb54cc7 748ee79844dde07252d847e53532b648 d41d8cd98f00b204e9800998ecf8427e
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv	ri.prograd@ufms.br
_version_	1807552810390126592

Aprendizado de Representações para Adaptação de Domínio de Etiquetagem Morfossintática

Registros relacionados